2–8 『PDF Advanced Extractor』の制限事項
本製品には、以下の制限事項があります。
- 本製品でテキスト抽出できるのは、PDFファイルの中で文字として扱われているデータのうち、表示字形に割り振られた識別コードからUnicodeへの対応付けができるもののみです。表示用字形の識別コードからUnicodeへの対応付けのデータが取得できないときは抽出できません。
- テキスト枠に文字が画像化されたデータがある場合はOCR処理により文字認識を行い、対応する文字コードに変換して抽出します。ただし、認識結果によっては文字化けや別の文字に置換される可能性があります。また、画像化された文字が白抜きであったり、文字が装飾されていたり、文字の背景にグラフィックがレイアウトされていたりする場合は文字と認識できなかったり、誤認識される場合があります。
- クリッピングパスが設定されページ上で非表示となっているテキストオブジェクトは抽出されません。ただし、オプションで「クリッピングパスを考慮しない」を指定することで、非表示にされているテキストオブジェクトも抽出できます。
- PDFファイルに埋め込まれているテキストデータは、フォントによっては文字化けして抽出される場合があります。
- PDFファイルに欧文テキストが埋め込まれている場合は単語間のスペースを自動的に補って抽出します。スペースを補う処理は文字間の空き具合で判断するため、文字と文字の間が離れていると正しく出力できない場合があります。また、PDFに表組みや段組みなどのレイアウトがされているとき、抽出範囲の設定によっては正しく出力できない場合があります。
- 文中の上付き文字/下付き文字が同一行のテキストとして抽出されない場合があります。
- 文書中にルビ、圏点、合印などを使用したPDFファイルがある場合、オプションまたは各テキスト枠の「プロパティ」画面で[指定したサイズ以下の文字を除外 %値]に数値を指定することで、これらのテキストを抽出対象から除外できます。テキスト抽出時は、テキスト枠内で最も大きい文字の高さを基準にして%値に設定された値以下のサイズのテキストを一律に除外します。このため、テキスト枠に取り込むテキストの組み合わせによっては、意図しないテキストまで抽出対象から除外される場合があります。
- テキスト枠が文字の一部にかかるように設定された場合、既定値では枠の範囲に文字の高さの45%以上が含まれていれば抽出対象と判断します。このため、隣接したテキスト枠の両方にひとつの文字がかかるような場合に、それぞれの枠内で同じ文字が重複して抽出されることがあります。このようなときは、各テキスト枠の「プロパティ」画面で[抽出対象としたい文字と枠の重なり比率]を選択し、文字と枠の重なる割合(%)を高めに変更することで、いずれか一方の枠からのみ抽出するようにできます。
- PDF中で同じテキストを重ねてテキストを太く見せたりしているような場合、テキストの重なる割合に応じて1文字で抽出する処理を行います。ただし、重なる割合はPDF中のテキストによって異なるため一律に対応できないことがあります。このような場合は、テキスト枠をマウスで右クリックして表示されるコンテキストメニューから[重なった文字を除外]を選択し抽出対象から除外する割合を設定することで、余分なテキストを除外できます。
- PDF中で縦書きと横書きのテキストが混在したり、傾き角度の異なるテキストが混在する範囲をひとつのテキスト枠に設定すると、テキストの抽出順を正しく取得できない場合があります。PDF中で文字方向や傾きが異なるテキストが混在する場合は、それぞれのテキスト範囲を別のテキスト枠に設定してください。
- PDFファイルによっては、非表示に設定されていない通常のテキストに白い矩形などの画像を重ね、その上に別のテキストを重ねて元のテキストが見えないようにしている場合があります。このような箇所からテキスト抽出を行うと画像の下にあるテキストも同時に抽出されます。これは仕様上の制限となります。
- テキスト枠の幅が文字の幅に対して狭い場合、文字が抽出対象とならないことがあります。その場合はテキスト枠の幅を広めに指定するか、テキスト枠で[抽出対象としたい文字と枠の重なり比率]を選択し、文字と枠の重なる割合(%)を低めに設定することで抽出できるようになります。
- 表枠に設定できる行数、列数の値は1~100までです。
- 表枠に行・列を指定することで枠内を複数の矩形領域(「セル」)に分割できます。ただし、各「セル」の結合には対応しません。
- 表枠内のテキストを編集する場合は、各「セル」単位の編集ではなく、枠内全体のテキストをCSV(カンマ区切り)形式で表示して編集します。
- 表枠内のテキストの抽出順は左から右、上から下の順になります。縦組みの表には対応しません。
- TeXで作成した数式混じりの段落ブロックは、数式だけでなく、テキストも正しく取得できないことがあります。
- 本製品で扱えるPDFのサイズは、A0サイズ(841 x 1189 mm)までとなります。このサイズ以内であっても、自動認識時の画像解像度を200dpi以上に設定していると認識処理に失敗する場合があります。