PDF、組版と文書変換のアンテナハウス株式会社

サイトマップ

お知らせ

2022年 2月 4日 PDF Advanced Extractor V1.0 β3版を公開しました。

すべてのお知らせ >>

PDFからのテキスト抽出でトラブル発生!『 PDF Advanced Extractor』が解決します!!

  • PDFからテキスト抽出すると、文字の順番がPDFの表示順と異なってしまう!
  • PDFの段組みページからテキスト抽出すると、段をまたいで文字がつながってしまう!
  • PDFの表部分からテキスト抽出すると、行と列、セルの内容がつながってしまい再利用できない!

『PDF Advanced Extractor』は、テキストデータを含むPDFファイルからテキストを抽出しプレーンテキストに保存するためのユーティリティ・ソフトウェアです。

テキスト抽出力を更にアップ! β(ベータ)3 版配布開始!!
  • テキスト枠の種類に、「表」(表枠)を追加しました。表枠に行数・列数の指定をしてHTMLタグ付きテキスト保存時に表(table)要素を出力できます。
  • テキスト枠(「本文」/「表」/「見出し」)で抽出されるテキストを編集する機能を追加しました。抽出結果を直接編集し、HTMLタグ付きテキストまたはプレーンテキストに保存できます。
  • 枠の抽出順をテキスト枠、画像枠ともに指定可能としました。これにより、テキスト間の任意の位置に画像を挿入してHTMLタグ付きテキストに保存できます。
  • 抽出順序の指定を「自動」または「手動」で任意に実行できるようにしました。
  • テキスト枠(「本文」/「表」/「見出し」)に"抽出対象としたい文字と枠の重なり比率"オプションを追加しました。枠に対して文字の領域が重なる比率(%)を指定することにより、文字が隣接する枠から重複して抽出されないようにできます。
  • 自動認識で段組み(横/縦)のレイアウトをより正確に判定できるよう改善しました。また、オプションで横、縦の段組み数をあらかじめ指定できるようにしました。
  • テンプレートファイルをPDFに適用する場合に、オフセット値を指定して位置補正できるようにしました。これにより、異なるPDFでテンプレート内のオブジェクトの位置が微妙にずれてしまう問題を改善できます。
本バージョンは製品の機能をご評価いただくためのβ版です。現在、正式な発売日は未定です。

製品の特長

PDFを表示してテキストデータの範囲や順序を画面上で簡単に設定

操作画面でPDFファイルを1ページずつ確認しながら、抽出するテキスト(本文、表)の範囲、テキスト中で段落を区切る箇所、画像として出力する範囲、抽出順序などを簡単な操作で指定できます。

画面上で指定したテキストの範囲は、指定した抽出順に従ってプレーンテキストに保存できます。また、見出し、段落、表、画像についてはHTMLタグを付加して出力できます。

『PDF Advanced Extractor』のGUI
『PDF Advanced Extractor』のGUI

テキスト抽出する範囲を任意に設定

PDFのページ上で、任意にテキスト抽出する範囲(テキスト枠:図の青枠部分)を設定できます。

テキスト抽出枠の設定
テキスト枠(青枠)を、外側(点線枠)へ広げているところ

テキスト枠を本文、表、見出しに分け、HTML保存が可能

new任意のテキスト枠に本文、表、見出し<h1~6タグ>を設定し、HTML保存できます。

テキスト抽出順序の設定

PDFのページ上で「表」の範囲を指定して、行・列位置を設定

newPDFのページ上で表としてテキスト抽出する範囲(表枠)を設定し、行数・列数を指定してHTMLタグ付きテキストにTABLE要素を付加して出力できます。

表枠の設定
表枠に行・列を指定し、抽出結果をHTMLタグ付きテキストに保存して表示

テキスト、画像に抽出する順序を指定

newテキスト枠と画像枠を併せて自動または手動で抽出順を指定できます。

テキスト・画像の抽出順設定

テキストの抽出結果を直接編集してファイルに保存

newテキスト枠(本文、表、見出し)で抽出されるテキストを直接編集し、プレーンテキストまたはHTMLタグ付きテキストに保存できます。

抽出結果の編集
抽出結果のテキストを直接編集

※表枠を指定した場合は、CSV形式で編集します。

表枠の抽出結果の編集
表枠内のテキストを直接編集

ページの自動解析機能でテキストや画像の枠を作成し、操作を省力化

newPDF内のデータを解析してテキスト(本文、表)や画像の範囲を認識し、自動で枠を作成できます。

ページの自動解析機能で操作を省力化

テキストデータを活用する便利な機能を多数搭載

  • add_circlenew枠に対して文字の領域が重なる比率(%)を指定することにより、文字が隣接する枠から重複して抽出されないようにできます。
    枠と文字の領域が重なる比率を指定
  • add_circle振り仮名や注釈文字などテキスト抽出時に不要なちいさな文字を、除外できます。
    指定したサイズ以下の文字を、抽出対象から除外
  • add_circlePDFファイルに欧文テキストが埋め込まれている場合は単語間のスペースを自動的に補って抽出します。
    欧文テキスト取得
  • add_circleマウス操作でテキストデータに段落区切りの指定を行うことで、プレーンテキスト保存時は段落区切りの位置に改行コードを挿入します。
    テキスト保存した段落区切り
  • add_circle画面上で指定した範囲に抽出したいテキストが適正に設定されているか、抽出処理の実行前に画面上から簡単に確認できます。
    テキストのハイライトと取得
  • add_circle柱やノンブルなど利用しないテキストが複数ページにある場合、これらを抽出対象から除外してテキスト出力を行うことができます。
  • add_circle画面上で任意の範囲(例えば写真、図表、グラフなど)を指定し、画像ファイル(JPEG/PNG/SVG)に保存できます。
  • add_circle複数ページに同一のレイアウトが連続して使用されているような場合(帳票形式のPDFなど)、任意のページでテキストや画像の範囲を設定し、別のページに一括適用できます。
  • add_circle類似のレイアウトが使用されたPDFファイルが複数ある場合、任意のPDFファイルでテキストや画像の範囲を設定してテンプレートファイルに保存し、別のPDFファイルに適用できます。
    new本バージョンでは、テンプレートファイルをPDFに適用する際に、オフセット値を指定して位置補正できるようにしました。
  • add_circle扱うPDFファイルが多い場合、同梱されたコマンドライン・プログラムを使うことで、あらかじめテキストや画像枠を自動で作成・保存できます。これによりGUIでの設定作業を省力化できます。
スペース