PDF Advanced Extractor V1.1改訂情報
改訂履歴
- 2023年 11月
- PDF Advanced Extractor V1.1 初版(R1)
- 2023年 2月
- PDF Advanced Extractor V1.0 初版(R1)
- 2022年 2月
- PDF Advanced Extractor V1.0 β3版
- 2021年 6月
- PDF Advanced Extractor V1.0 β2版
- 2020年 10月
- PDF Advanced Extractor V1.0 β版リリース
PDF Advanced Extractor V1.1 初版(R1)
2023年 11月
追加/修正内容
- 任意の文字を区切り文字に指定し、その文字位置の前後で段落を区切る機能を追加しました。
- PDFから画像を抽出する場合に、保存された画像の情報を一覧にしてCSV形式で出力する画像サマリ機能を追加しました。
- ページ上で抽出対象とする範囲と除外する範囲を任意に指定できる機能を追加しました。
- ページ上で選択している枠以外を一時的に非表示にして、作業を効率化できる機能を追加しました。
- 表枠に罫線を指定する機能を大幅にアップして、縦/横の罫線追加時に線を均等配置したり、クリック位置で罫線を追加・削除できる機能を追加しました
- 同じレイアウトのページが連続する帳票形式のPDFにテンプレートファイルを繰り返し適用可能にするなど、テンプレート機能の利便性をアップしました。
- その他、使い勝手を良くするため複数の改善を行っております。
PDF Advanced Extractor V1.0 初版(R1)
2023年 2月
追加/修正内容
- 画像化された文字であってもOCR処理により通常のテキストデータと同様に抽出できるよう、機能を強化しました。
- テキストの抽出順を手動で変更する場合、マウスで直感的に操作できるようにインターフェースを改善し、使い勝手を良くしました。
- クリッピングパス外のテキストも抽出対象とできるようオプションを追加しました。これによりPDFに格納され非表示に設定されているテキストの抽出が可能となります。
- テンプレートファイルを指定してテキストファイルへ保存するオプションをコマンドライン・プログラムに追加しました。これによりバッチ処理で同一レイアウトを持つ複数PDFから一括でテキスト抽出が可能となります。
- ページを画像化して自動認識する機能を廃止しました。
PDF Advanced Extractor V1.0 β3版
2022年 2月
追加/修正内容
- テキスト枠の種類に、「表」(表枠)を追加しました。
- テキスト枠(「本文」/「表」/「見出し」)で抽出されるテキストを編集する機能を追加しました。
- 枠の抽出順をテキスト枠、画像枠ともに指定可能としました。
- テキスト枠(「本文」/「表」/「見出し」)に"抽出対象としたい文字と枠の重なり比率"オプションを追加しました。
- 自動認識で段組み(横/縦)のレイアウトをより正確に判定できるよう改善しました。
- 縦書・多段組のPDFについて「ページを画像化」あるいは「ページを解析」して自動認識する場合の段組判別処理を見直し、抽出順が適正化されるよう改善しました。
- テンプレートファイルをPDFに適用する場合に、オフセット値を指定して位置補正できるようにしました。
PDF Advanced Extractor V1.0 β2版
2021年 6月
追加/修正内容
- PDFファイルに欧文テキストが埋め込まれている場合は単語間のスペースを自動的に補って抽出するよう改善しました。
- 欧文テキスト抽出時に行末のハイフネーションを削除するようにしました。
- テキスト保存時に枠の重なりがあると警告する処理で、ページ番号を明示するように改善しました。
- 横書・多段組のPDFについて「ページを画像化」あるいは「ページを解析」して自動認識する場合に、テキスト枠の抽出順が見た目に近く適正化されるよう改善しました。
- 横組の段数を指定するオプションを追加しました。
- 縦書・多段組のPDFについて「ページを画像化」あるいは「ページを解析」して自動認識する場合の段組判別処理を見直し、抽出順が適正化されるよう改善しました。
- テキスト保存時に選択可能な文字コードに"UTF - 8 (BOM付き)"を追加しました。