PDFXML 変換ライブラリ

マンガでわかる!!アンテナハウス システム製品利用例シリーズ

PDFXMLでPDFを再利用編

今回は、PDF化されたデータを再利用しやすくするためにXML化するモジュールをご紹介します。

1ページ目 ・・・。 あの~馬場さん・・・ PDFの決まった場所から文字を取り出すにはどうすればいいでしょうか・・・ ・・・。 えーと、もう少し具体的に話してみて。 納品書の、会社名や住所欄の文字だけ取り出す場合なんですけど、レイアウトは同じ感じですが表の位置や表中のセル幅が微妙に異なっていて・・・ 単純に、この座標から文字を取り出せばOK!とはならなくて・・・。 単に文字だけ取り出してもどこの文字かわからない。なるほどね。 はいっ

2ページ目 PDFのことならアンテナハウスさんでしょ?『もしもし?』 江東さん!安堂です!実は・・・ はい、はい。なるほど、それなら・・・ AntennaHouse PDFXMLライブラリはどうでしょうか。 このライブラリはPDFを読み込んでXMLを生成します。『なるほど・・・』 単にPDFの情報を、出力するだけで無く、テキストボックス、段落、表などの文書構造に置き換えてXMLを生成するんです。『へぇ~!そんなことが!』 すみません、XMLって何でしょう・・・ 簡単に説明するとデータを記述するためのテキストです。 これから詳しい説明にお伺いしますね。

3ページ目 蒲生さん PDFXMLの説明に行ってきます。使用目的はPDFの読み込みのようです。 ん。 あっ PDFXMLはPDFのレイアウトによっては、正しく文書構造を作れない場合があるから、実際のデータで試した方がいいよ。 では評価版を持って行って試してもらうようにします。 あ~説明用の資料も持って行きなよ~作ったやつあるから。わ、ありがとうございます! こんにちは~先ほどの件で説明に来ました。 今回は評価版を持って来たので実データで試してみてください。 わ~助かります~! へぇ~XMLを見ると、文書構造にまとめられていますね。 心配してた表、セルはもちろんですが、セル結合もでるんですね。 はい。

4ページ目 この文書構造を生み出すところが、この製品の特長です。ところで縦書き、横書きが混在したPDFなどはどうなりますか? あ、確認します。ちょっと待ってください。 ん?あー問題無いよ。縦書き、横書き、表などは別々のフレームで出力されるから。あとフレーム内の文字も読み順に整えられてるよ。これらも製品の特長だね。 そうなんですね。ありがとうございます! 大丈夫です。同じように作れます。 へぇ~!すごいですね! 後は、このXMLをどのように利用するか検討しないとですね・・・ それならPDFXMLの用途はHPにもあるので参考にしてみてください。

電子メール
sis@antenna.co.jp

関連情報