PDF Advanced Extractor V1.1動作環境/制限事項
動作環境
『PDF Advanced Extractor V1.1』をインストールしてご利用になるには以下の動作環境が必要です。
対応OS | Windows 11 日本語版 Windows 10(64 ビット) 日本語版 |
---|---|
CPU | 上記OSが正常に動作するIntel系のCPU、および100%互換性を持つプロセッサー |
メモリ | 上記OSが推奨するメモリ以上(これに加えて1GB以上の空き容量を推奨) |
ハードディスク | 本製品のインストールに必要な400MB以上の空き容量 |
制限事項
入力ファイル
- ISO32000に準拠した、PDF1.3~2.0形式のPDFファイル。
- パスワード(文書を開くパスワード / 編集を制限する権限パスワード)によるセキュリティが設定されているPDFファイルは、これを解除できるパスワードの入力が必要です。
制限事項
- 本製品でテキスト抽出できるのは、PDF ファイルの中で文字として扱われているデータのうち、表示字形に割り振られた識別コードからUnicode への対応付けができるもののみです。表示用字形の識別コードからUnicodeへの対応付けのデータが取得できないときは、テキスト抽出できません。
- テキスト枠に文字が画像化されたデータがある場合は、OCR処理により文字認識を行い対応する文字コードに変換して抽出します。ただし、認識結果によっては文字化けや別の文字に置換される可能性があります。また、画像化された文字が白抜きであったり、文字が装飾されていたり、文字の背景にグラフィックがレイアウトされていたりする場合は文字認識できなかったり誤認識される可能性があります(※OCR処理による文字認識はオプションでオン/オフを切り替えられます)。
- クリッピングパスが設定されページ上で非表示となっているテキストオブジェクトは抽出されません。ただし、オプションで「クリッピングパスを考慮しない」を指定することで、非表示にされているテキストオブジェクトも抽出できます。
- PDFファイルに埋め込まれているテキストデータは、フォントによっては文字化けして抽出される場合があります。
- PDFファイルに欧文テキストが埋め込まれている場合は単語間のスペースを自動的に補って抽出します。スペースを補う処理は文字間の空き具合で判断するため、文字と文字の間が離れていると正しく出力できない場合があります。また、PDFに表組みや段組みなどのレイアウトがされているとき、抽出範囲の設定によっては正しく出力できない場合があります。
- 文中の上付き文字/下付き文字が同一行のテキストとして抽出されない場合があります。
- 文書中にルビ、圏点、合印などを使用したPDFファイルがある場合、テキスト枠をマウスで右クリックして表示されるコンテキストメニューから[指定したサイズ以下の文字を除外]を選択し、[指定したサイズ以下の文字を除外 %値]に数値を指定することで、これらのテキストを抽出対象から除外できます。テキスト抽出時は、テキスト枠内で最も大きい文字の高さを基準にして%値に設定された値以下のサイズのテキストを一律に除外します。このため、テキスト枠に取り込むテキストの組み合わせによっては、意図しないテキストまで抽出対象から除外される場合があります。
- テキスト枠が文字の一部にかかるように設定された場合、既定値では枠の範囲に文字の高さの45%以上が含まれていれば抽出対象と判断します。このため、隣接したテキスト枠の両方にひとつの文字がかかるような場合に、それぞれの枠内で同じ文字が重複して抽出されることがあります。このようなときは、テキスト枠をマウスで右クリックして表示されるコンテキストメニューから[抽出対象としたい文字と枠の重なり比率]を選択し、文字と枠の重なる割合(%)を高めに変更することで、いずれか一方の枠からのみ抽出するようにできます。
- PDF中で同じテキストを重ねてテキストを太く見せたりしているような場合、テキストの重なる割合に応じて1文字で抽出する処理を行います。ただし、重なる割合はPDF中のテキストによって異なるため一律に対応できないことがあります。このような場合は、テキスト枠をマウスで右クリックして表示されるコンテキストメニューから[重なった文字を除外]を選択し抽出対象から除外する割合を設定することで、余分なテキストを除外できます。
- PDF中で縦書きと横書きのテキストが混在したり、傾き角度の異なるテキストが混在する範囲をひとつのテキスト枠に設定すると、テキストの抽出順を正しく取得できない場合があります。PDF中で文字方向や傾きが異なるテキストが混在する場合は、それぞれのテキスト範囲を別のテキスト枠に設定してください。
- PDFファイルによっては、非表示に設定されていない通常のテキストに白い矩形などの画像を重ね、その上に別のテキストを重ねて元のテキストが見えないようにしている場合があります。このような箇所からテキスト抽出を行うと画像の下にあるテキストも同時に抽出されます。これは仕様上の制限となります。
- テキスト枠の幅が文字の幅に対して狭い場合、文字が抽出対象とならないことがあります。その場合はテキスト枠の幅を広めに指定するか、テキスト枠で[抽出対象としたい文字と枠の重なり比率]を選択し、文字と枠の重なる割合(%)を低めに設定することで抽出できるようになります。
- 表枠に設定できる行数、列数の値は1~100までです。
- 表枠に行・列を指定することで枠内を複数の矩形領域(「セル」)に分割できます。ただし、各「セル」の結合には対応しません。
- 表枠内のテキストを編集する場合は、各「セル」単位の編集ではなく、枠内全体のテキストをCSV(カンマ区切り)形式で表示して編集します。
- 表枠内のテキストの抽出順は左から右、上から下の順になります。縦組みの表には対応しません。
- TeXで作成した数式混じりの段落ブロックは、数式だけでなく、テキストも正しく取得できないことがあります。
- 本製品で扱えるPDFのサイズは、A0サイズ(841 x 1189 mm)までとなります。このサイズ以内であっても、自動認識時の画像解像度を200dpi以上に設定していると認識処理に失敗する場合があります。