9–3–25 テキスト抽出 (-extractText)

PDFファイルからテキストを抽出します。

ページコンテンツ全体が抽出対象となります。表示領域がページコンテンツの一部分である場合、表示されていない部分のテキストも抽出対象となります。

クリッピングされて表示されていない部分のテキストも抽出対象となります。

英語など欧文テキストに対しては、単語間のスペースが取り除かれた状態で抽出されます。


パラメータ
内容
出力テキストファイルパス
[必須]
出力先のテキストファイルパスを指定する。
抽出対象が複数ページの場合、先頭行に「pageX」と出力されます。
-pageNo
テキストを抽出するページ番号。省略可。
1ページ目は「0」指定。
複数指定する場合はカンマで区切る。
指定がない場合、全ページのテキストを抽出する。


コマンド設定例


WindowsAHPDFToolCmd60.exe -extractText C:\sav\out.txt -pageNo 0,2-4 -d C:\test\test.pdf
LinuxAHPDFToolCmd60 -extractText /home/antenna/sav/out.txt -pageNo 0,2-4 -d /home/antenna/test/test.pdf
動作内容test.pdfの1,3,4,5ページ目上に存在するテキストをout.txtに出力する。