PDF Advanced Extractor V1.1機能紹介:主な機能
抽出するテキスト/画像枠の作成
『PDF Advanced Extractor』では、表示された画面上で抽出を行いたい箇所を枠で囲むことによりテキストおよび画像の抽出範囲と抽出順を指定します。
枠は、以下のいずれかの方法で作成します。
- マウスのドラッグでテキスト/画像枠を作成
- マウスで画面上のテキストおよび画像を囲む任意の範囲をドラッグして、枠を作成する。
- 自動認識でページを解析して枠を作成
- ページ内の文字や画像を含む範囲を自動で判別し、枠を作成する。
マウスのドラッグでテキスト/画像枠を作成
PDFのページ上で抽出する範囲を自由に設定できます。
抽出する枠の種類はテキスト枠(本文枠/表枠/見出し枠)と画像枠があります。
作成した枠に対して、拡大・縮小・移動・結合・削除の操作ができます。
自動認識でページを解析して枠を作成
PDFのページを解析して本文/表や画像の範囲を認識し、自動で枠の作成と抽出順を設定できます。
抽出順序を指定
テキスト枠と画像枠は作成時に自動で抽出順が設定されます。
枠を追加または削除して抽出順が異なってしまった場合には、自動または手動で抽出順を変更できます。
[自動設定]を選択すると、テキスト枠・画像枠に自動で抽出順が再付番されます。
[手動設定]を選択すると、画面上からマウスで枠をクリックして移動先にドラッグするだけの簡単な操作で順序を変更できます。
抽出結果を任意の形式で保存
テキスト抽出を実行するには、以下のいずれかを選択します。
- TEXT保存
- HTML保存
「TEXT保存」を選択した場合は、ダイアログボックス上でテキストのエンコーディング(文字コード)を指定できます。
また、使用用途や抽出対象のオブジェクトに応じて任意の形式で保存し、活用できます。
HTMLタグを付加して保存
テキスト枠に本文、表、見出し<h1>~<h6>タグを設定し、HTMLタグを付加したテキストファイルに保存できます。
「表枠」をCSV形式で保存
ページ上で表としてテキスト抽出したい範囲に行数・列数を指定して表枠を作成できます。 テキスト保存すると、表枠のテキストをサブフォルダにCSVファイルとして出力できます。
また、「表枠」はHTMLタグ付きテキストにTABLE要素を付加して出力することもできます。
抽出ページ範囲の指定
テキスト抽出時に対象となるページ範囲を指定できます。ページ範囲は<すべてのページ>、<このページ>、<ページ番号>のいずれかで指定できます。
テキストに段落区切り枠を指定
テキストに段落区切り枠を指定してテキスト保存すると、指定した位置に改行コードを挿入できます。また、HTML形式で保存する時には<p>タグの終端位置となります。
また、任意の文字を区切り文字に指定し、その文字位置の前後で段落を区切る設定を、PDFに設定したテキスト枠全般について指定することもできます。
→ 段落区切り文字の指定
テキストを直接編集して保存
テキスト枠(本文/表/見出し)で抽出されるテキストを直接編集し、プレーンテキストまたはHTMLタグ付きテキストに保存できます。
表枠を指定した場合は、CSV形式で編集できます。
指定漏れチェック
テキスト枠の範囲に抽出したいテキストが含まれているかを抽出前に確認できます。
事前に指定漏れがないかを確認することで、抽出後のテキストファイルをチェックしたり修正する手間を削減できます。