機能紹介：主な機能 - PDF Advanced Extractor

抽出する枠の作成

『PDF Advanced Extractor』では、表示された画面上で抽出を行いたい箇所を枠で囲むことによりテキストや画像の抽出範囲と抽出順を指定します。

枠は、以下のいずれかの方法で作成します。

自動認識でページを解析して枠を作成: ページ内の文字や画像を含む範囲を自動で判別し、枠を作成する。
マウスのドラッグで枠を作成: マウスで画面上のテキストや画像を囲む任意の範囲をドラッグして、枠を作成する。

自動認識でページを解析して枠を作成

PDFのページを解析して本文/表や画像の範囲を認識し、自動で枠の作成と抽出順を設定できます（画像を認識対象とするかはオプションで選択可能）。

ページを解析して枠を自動作成
出典：環境省ホームページ（https://www.env.go.jp/earth/地域気候変動適応計画策定マニュアル_final2.pdf）

ページ範囲を指定して枠を自動作成

PDFのページ範囲（すべてのページ／任意のページ）を指定して自動で枠の作成と抽出順を設定できます。

マウスのドラッグで枠を作成

PDFのページ上で抽出する範囲を自由に設定できます。
抽出する枠の種類はテキスト枠（本文枠/表枠/見出し枠）と画像枠があります。

作成した枠に対して、拡大・縮小・移動・結合・削除の操作ができます。

抽出順序の変更

マウスのドラッグで抽出順序を変更

テキスト枠と画像枠は作成時に自動で抽出順が設定されます。
枠を追加または削除して抽出順が異なってしまった場合には、自動または手動で抽出順を変更できます。

［手動設定］を選択すると、画面上からマウスで枠をクリックして移動先にドラッグするだけの簡単な操作で順序を変更できます。

テキスト・画像の抽出順設定 — テキストの抽出順を手動で変更（選択したテキスト枠の抽出順を9番目（①）から4番目（②）に変更する）
出典：環境省ホームページ（https://www.env.go.jp/policy/hakusyo/zu/h24/pdf/1-3.pdf）

テキスト枠・画像枠に自動で抽出順を再設定

［自動設定］を選択すると、テキスト枠・画像枠に自動で抽出順を再設定できます。

抽出結果を任意の形式で保存

テキストのエンコーディングを選択 — テキストのエンコーディング（文字コード）を指定

テキスト抽出を実行するには、以下のいずれかを選択します。

TEXT保存
HTML保存

「TEXT保存」を選択した場合は、ダイアログボックス上でテキストのエンコーディング（文字コード）を指定できます。

また、使用用途や抽出対象のオブジェクトに応じて任意の形式で保存し、活用できます。

HTMLタグを付加して保存

テキスト枠に本文、表、見出し＜h1＞～＜h6＞タグを設定し、HTMLタグを付加したテキストファイルに保存できます。

「表枠」をCSV形式で保存

ページ上で表としてテキスト抽出したい範囲に行数・列数を指定して表枠を作成できます。テキスト保存すると、表枠のテキストをサブフォルダにCSVファイルとして出力できます。

また、「表枠」はHTMLタグ付きテキストにTABLE要素を付加して出力することもできます。

表の設定ダイアログ — 「表枠」に行・列を指定し、抽出結果をHTMLタグ付きテキストに保存して表示

抽出ページ範囲の指定

テキスト抽出時に対象となるページ範囲を指定できます。ページ範囲は＜すべてのページ＞、＜このページ＞、＜ページ番号＞のいずれかで指定できます。

テキストに段落区切りを指定

テキストに段落区切りを指定してテキスト保存すると、指定した位置に改行コードを挿入できます。また、HTML形式で保存する時には<p>タグの終端位置となります。

また、任意の文字を区切り文字に指定し、その文字位置の前後で段落を区切る設定を、PDFに設定したテキスト枠全般について指定することもできます。
→ 段落区切り文字の指定

テキストを直接編集して保存

テキスト枠（本文/表/見出し）で抽出されるテキストを直接編集し、プレーンテキストまたはHTMLタグ付きテキストに保存できます。

表枠を指定した場合は、CSV形式で編集できます。

指定漏れチェック

テキスト枠の範囲に抽出したいテキストが含まれているかを抽出前に確認できます。
事前に指定漏れがないかを確認することで、抽出後のテキストファイルをチェックしたり修正する手間を削減できます。

PDF Advanced Extractor機能紹介：主な機能