PDF Advanced Extractor V1.1機能紹介:新規追加・改善された機能

アノテーションツールで利用可能なテキスト形式で保存

アノテーションツールで利用可能なデータとして保存するためのオプション機能を追加しました。

段落区切り文字の指定

特定の文字または句読点の位置で改行を行いたい場合は、[オプション]で段落を区切る1文字または句読点と改行位置(対象文字の前後いずれか)を指定します。これにより、PDFに設定したテキスト枠全般について抽出結果の当該位置に改行コードを挿入できます。

段落区切り文字指定
段落区切り文字指定オプションを追加した際のテキスト抽出内容の比較
(※「指定漏れチェック」機能をオンにしています)
指定文字
段落を区切る対象となる文字を1文字指定
区切り位置
対象文字の前後どちらに段落を入れるかを指定

任意の文字または句読点の位置で段落を区切りたい場合は、テキスト枠に含まれる文字または句読点に対して[段落区切り]を指定します。これにより個々のテキスト枠で指定した文字位置の後ろに改行コードを挿入できます。
テキストに段落区切り枠を指定

「表枠」のファイル名をテキストに含めない

本製品の既定値では、「表」枠に設定されたテキスト(上図でハイライトされた部分)を抽出結果のテキストファイル(*.txt)と別にCSVファイル(*.csv)として保存します。
このとき、テキストファイルには「表」枠の位置に” 〓表:ファイル名:表〓”という書式でCSVファイル名を挿入します。

抽出したテキスト中にCSVファイル名を出力したくない場合は、[オプション]でCSVファイル名を含まないように指定できます。

「表枠」のファイル名を抽出したテキスト上で出力しない
「表枠」のファイル名を抽出したテキスト上で出力しない
(※「本文」枠の後ろに段落区切りを挿入し、「指定漏れチェック」機能をオンにしています)

「見出し枠」のテキストを修飾しない

テキストに「見出し」枠を設定すると、抽出結果をHTMLタグ付きテキスト形式で保存する際に<h1>~<h6>の見出しタグに置き換えて出力できます。 一方、「見出し」枠を設定して抽出結果をプレーンテキストに保存した場合は、「見出し」枠の位置に”〓1:テキストデータ:1〓”という書式(数値は1~6の見出しレベル)で出力します。

抽出したテキスト中に「見出し」枠の書式を出力したくない場合は、[オプション]で「見出し」枠内のテキストのみを出力するように指定できます。

「見出し」枠を「本文」枠として出力
「見出し」枠を「本文」枠として出力
アノテーションツールとは?

アノテーションツールは、機械学習の訓練データ作成を自動化・効率化するためのソフトウェアです。
テキストや画像などのデータに注釈を加え、ラベルや境界ボックスを付与することで、機械学習モデルが効果的にパターンを学習できるように支援するためのものです。

アノテーションツールイメージ図
代表的なツール
  • テキストに関するアノテーションツールの代表的なものとして、doccano や brat、prodigy などがあります。
  • テキストファイル(*.txt)やCSVファイル(*.csv)など、ツールによって様々な形式のデータの入力に対応しています。
データ形式
  • アノテーションツールの入力データは「改行無しのテキスト」や「一文毎に改行したテキスト」など用途に応じて様々な形式があります。
  • 本ページで紹介するオプション機能を使用することで、PDFからアノテーションツールで利用しやすい形式のテキストを抽出できます。

画像情報をCSV形式で出力

ページ上の画像に「画像」枠を設定してプレーンテキストまたはHTMLタグ付きテキストで保存を行うと、抽出された画像の情報を一覧(サマリ)にしてCSV形式でテキストとともに保存します。

画像サマリは抽出された画像の管理などに利用できます。

画像情報をCSV形式で出力
画像情報をCSV形式で出力
出力する画像の情報
  • 画像が配置されているページ数
  • ファイル名
  • 横サイズ
  • 縦サイズ
  • 保存テキスト

抽出除外範囲の指定

ページ上で抽出対象から除外する範囲を任意の場所に指定できます。 テキスト枠で抽出対象に指定した範囲であっても抽出対象から除外したい部分がある場合などに、テキストや画像を枠で囲み簡単に指定できます。

抽出除外範囲の指定は[他ページに適用]、[テンプレートファイル]の各機能にも反映されますので、レイアウトが同じページや別のPDFに対しても同様の指定が適用できます。

抽出除外範囲の指定
抽出除外範囲(画像グレー箇所)にあるテキストは取得しない
(※段落区切り文字に「。」を指定し、「指定漏れチェック」機能をオンにしています)

「表枠」作成機能の向上

ページ上に罫線で囲まれたテキストがある場合は自動認識機能で「表」枠と判別しますが、手動で「本文」枠を「表」枠に変更して、テキストの範囲を行・列に分割することもできます。これにより、罫線が使用されていないテキストであっても任意に行・列を設定し、CSV形式に保存して再利用できます。

また、行・列に指定して縦または横の罫線(分割線)を描画する場合に配置を均等にしたり開始位置を指定可能とするなど、「表」枠を作成する際の使い勝手を改善しています。

表の設定ダイアログ
表の設定ダイアログ

指定位置で罫線追加・削除

「表」枠に設定した範囲には、マウスで枠線上の任意の位置をクリックして縦または横の罫線を自由に追加できます。
また、「表」枠に追加した罫線を選択して後から削除することもできます。

表に分割線を追加
表に分割線を追加

テンプレートの繰り返し適用

テンプレートを繰り返し適用

オプションで[テンプレートを繰り返し適用する]機能を追加しました。

これまではテンプレートを作成したPDFとテンプレートの適用先PDFは同じページ数である必要がありましたが、このオプションを指定することで、適用先PDFのページ数が多い場合にテンプレートの内容を繰り返し適用できるようになります。

また、元のPDFでテキスト枠の内容を編集して変更した場合にその内容をテンプレートにも保存してテンプレートの適用先PDFに反映可能とするなど、テンプレートの利便性を高める機能も追加しています。