『PDF Advanced Extractor』では、表示された画面上でテキスト抽出を行いたい箇所をテキスト枠で囲むことによりテキストデータの抽出範囲と抽出順を指定します。

また、テキスト抽出時に画像ファイルとして保存したい範囲を画像枠として任意に指定します。これにより、ページ上の表やグラフなどの領域を1つの画像にまとめて保存し、HTMLファイルからリンクして表示するような利用が可能となります。

PDFファイルの指定

images/screenshot_56.png

図4･2 PDFファイルとサムネイルの表示

テキスト枠の作成

images/screenshot_57c.png

図4･3 ［ページを解析して認識］を選択

images/screenshot_57.png

図4･4 枠を削除する場合の確認ダイアログボックス

任意のページ範囲や、全ページを対象に自動認識を行いたい場合は、表示されたプルダウンメニューで［範囲を指定して認識］を選択します。ページ指定を行うダイアログボックスを表示し、選択したページについて一括で自動認識処理を行います。

images/screenshot_57b.png

図4･5 「範囲を指定して認識」ダイアログボックス

images/screenshot_58.png

図4･6 本文枠を新規に作成

任意のテキストをHTMLの見出しタグで出力したい場合は、［見出し］ボタンをクリックして表示されるプルダウンメニューから見出しのレベル（1～6）を選択後、マウスで枠の範囲をドラッグします。

【注意】

テキスト枠は画面上の任意の位置に作成可能です。この場合、同一のテキストデータに複数のテキスト枠を重ねて指定するとテキスト抽出時に同じ文字が重複して出力されますので、ご注意ください（初期設定ではテキスト抽出実行時に警告ダイアログボックスを表示します）。

images/screenshot_58b.png

図4･7 画像枠を新規に作成

画像枠を設定してプレーンテキストまたはHTMLタグ付きテキストで保存を行うと、抽出された画像の情報を一覧（サマリ）にして出力先のサブフォルダにCSVファイルで保存します。
画像サマリは抽出された画像の管理などに利用できます。

images/screenshot_58c.png

図4･8 画像の情報をサマリに保存