『PDF Advanced Extractor』は、PDFファイルからテキストを抽出しプレーンテキストまたはHTMLタグ付きテキストでファイルに保存するためのユーティリティ・ソフトウェアです。
PDFはデジタル社会の情報交換になくてはならない基盤技術として、さまざまな場面で利用されるようになっています。PDFが身近になれば、それを再利用して活用したいとは誰しも思うことでしょう。しかし、PDFのテキストデータを再利用する場合には注意が必要です。
PDFに含まれるテキストデータは必ずしも見た目と同じ順序で格納されていると限らないためです。
PDFからそのままコピー&ペーストしたときに文脈の通じない文字の羅列になってしまったり、文字間に不要な空白が挿入されて取り除くのに手間がかかってしまったというようなご経験をされた方も多いのではないでしょうか。
『PDF Advanced Extractor』は、こうした不便さを解消し、PDFの再利用を容易にするための便利な機能をご提供します。
- PDFのページを画面に表示し、テキスト抽出する範囲/抽出する順序/テキスト中で段落を区切る箇所などをマウスで簡単に指定できます。
- 画面上で指定したテキスト範囲に自動または手動で抽出順を指定し、内容をプレーンテキストに出力できます。
- テキスト範囲は「本文」または「表」に分けて指定できます。「表」に指定した場合は行数・列数を設定してテキストを区切り、CSV形式で出力できます。
- テキスト範囲に含まれる文字を抽出する前に画面上で確認し、必要なら直接編集して変更できます。変更した内容は元のテキストに代えてプレーンテキストに出力できます。
- 抽出したいテキストが画面上で指定した範囲から漏れていないか、抽出する前に確認できます。
- テキスト範囲に段落区切りを指定するか、直接編集して改行を指定することでプレーンテキスト保存時に指定位置へ改行コード(CRLF)を挿入できます。
- PDF内に文字を画像化したデータがあっても、内蔵するOCR処理により文字と認識できるものは文字コードに変換して出力できます。
- PDFでクリッピングが設定され非表示にされたテキストについても抽出対象とする選択ができます。
- PDFに欧文テキストが埋め込まれている場合は単語間のスペースを自動的に補って抽出します。
- 柱やノンブルなどテキストの再利用に不要なテキストがある場合、これらを抽出対象から除外してテキスト出力を行うことができます。
- 帳票形式など、PDFの複数ページで同一のレイアウトが連続して使用されているような場合は、任意のページで設定したテキスト範囲を別のページに一括で適用できます。
- 類似のレイアウトが使用されたPDFファイルが複数あるような場合は、任意のPDFファイルでテキストや画像の範囲を設定し、テンプレートファイルに保存して別のPDFファイルに適用できます。
- 画面上で写真/図表/グラフなどがレイアウトされた箇所を「画像」範囲に指定し、画像ファイル(JPEG/PNG/SVG)として保存できます。
- PDF内の任意のテキストを「本文」とは別で「見出し」に指定できます。指定した範囲には見出しタグ(<h1>~<h6>)を付加してHTMLタグ付きテキストに出力できます。
- PDF内のテキストを「表」に指定して行数・列数を指定した場合は、TABLE要素を付加してHTMLタグ付きテキストに出力できます。
- 「画像」に指定した範囲は<image>タグをつけ、HTMLタグ付きテキストに出力できます。