PDFファイルからテキストを抽出します。
ページコンテンツ全体が抽出対象となります。表示領域がページコンテンツの一部分である場合、表示されていない部分のテキストも抽出対象となります。
クリッピングされて表示されていない部分のテキストも抽出対象となります。
英語など欧文テキストに対しては、単語間のスペースが取り除かれた状態で抽出されます。
パラメータ | 内容 |
出力テキストファイルパス | [必須] 出力先のテキストファイルパスを指定する。 抽出対象が複数ページの場合、先頭行に「pageX」と出力されます。 |
-pageNo | テキストを抽出するページ番号。省略可。 1ページ目は「0」指定。 複数指定する場合はカンマで区切る。 指定がない場合、全ページのテキストを抽出する。 |
コマンド設定例
Windows | AHPDFToolCmd60.exe -extractText C:\sav\out.txt -pageNo 0,2-4 -d C:\test\test.pdf |
Linux | AHPDFToolCmd60 -extractText /home/antenna/sav/out.txt -pageNo 0,2-4 -d /home/antenna/test/test.pdf |
動作内容 | test.pdfの1,3,4,5ページ目上に存在するテキストをout.txtに出力する。 |