PDF Advanced Extractor V1.1機能紹介:コマンドライン・プログラム

コマンドライン・プログラムについて

テキスト抽出したいPDFファイルが大量にある場合やページ数の多いPDFから抽出を行いたい場合、事前にコマンドライン・プログラムを使用してテキスト枠を自動作成しておくことでGUIによる編集作業を省力化できます。

また、定型の帳票データなど同じレイアウトで内容だけが異なるPDFファイルが複数ある場合は、コマンドライン・プログラムにテンプレートファイルを指定して一括でテキストファイルに保存できます。

使い方

コマンドライン・プログラムは、Windowsのコマンドプロンプト上で実行します。

  • コマンドライン・プログラムでPDFファイルを指定して実行すると、PDFの全ページを自動解析しテキスト枠を作成して指定された出力フォルダに抽出情報ファイル(*.ipex)として保存できます。
  • 実行後、GUIプログラムを起動して保存された抽出情報ファイルを開き、編集作業を開始できます。
  • コマンドライン・プログラムでPDFファイルとテンプレートファイルを指定して実行すると、定型の帳票データなど同じレイアウトで内容だけが異なる複数のPDFファイルからテキストを抽出し、一括でテキストファイルまたはHTMLファイルに保存できます。
  • テンプレートファイルは、あらかじめGUIプログラムでいずれか1つのPDFを開き、テキスト枠を設定して作成・保存します。

オプション

コマンドライン・プログラムの書式

PDFExtractorCmd.exe /D 入力ファイル /O 出力先ファイル[ /PASSWORD パスワード] /T テンプレートファイル[ /P <@TEXT or @HTML>]

オプションの説明
パラメーター 意味 説明
/D 入力ファイル [必須]
入力するPDFファイルのパス名(フルパスで指定。Unicodeファイル名に対応する)
/PASSWORD パスワード 処理対象となるPDF ファイルにセキュリティが設定されている場合、それを解除するパスワード文字列を設定する。
パスワードの長さは、最大32 バイトまで。
/O 出力ファイル [必須]
出力する抽出情報ファイルまたはテキストファイルのパス名(フルパスで指定。Unicodeファイル名に対応する)。
出力先に同名ファイルがある場合は、上書きする。
/T テンプレートファイル 入力するテンプレートファイルのパス名 (フルパスで指定。Unicodeファイル名に対応する)。
出力先をテキストファイルにした場合に [必須]
/P 保存するテキスト種類 テキストファイル(txt、html)に保存する場合のファイル形式 。
/Tを指定した場合に、"@TEXT" または "@HTML"のいずれかを指定。
/TR テンプレートファイル適用時のオプション 抽出情報テンプレート(tpex)ファイルのページ数がPDFファイルより少ない場合にテンプレートを繰り返し適用する。
/Tを指定した場合のみ有効。
/TO テンプレートファイル適用時のオプション 抽出情報テンプレート(tpex)ファイルに設定されたオプションを適用する。
/Tを指定した場合のみ有効。
/TE テンプレートファイル適用時のオプション 抽出情報テンプレート(tpex)ファイルに含まれるテキスト枠の編集内容を適用する。
/Tを指定した場合のみ有効。
/V バージョン情報 コマンドライン・プログラムのバージョンを表示する。
/H or /? 使用方法 コマンドライン・プログラムの使用方法を表示する。