■コマンド例
[処理例]
test.pdfの1,3,4,5ページ目上に存在するテキストを座標順に並べ替えてout.txtに出力する。
[Windows]
AHPDFToolCmd70.exe -extractText C:\sav\out.txt -pageNo 0,2-4 -sort -d C:\test\test.pdf
[Linux / Amazon Linux2 X86]
AHPDFToolCmd70 -extractText /home/antenna/sav/out.txt -pageNo 0,2-4 -sort -d /home/antenna/test/test.pdf
■処理内容
PDFファイルからテキストを抽出します。
■フォルダ指定:対応有り
入力フォルダのPDFファイルからテキストを抽出します。入力ファイル名の拡張子を「.txt」に変更したファイル名で出力フォルダに出力します。
■パラメータ
パラメータ | 内容 |
出力テキストファイルパス | [必須] 出力先のテキストファイルパスを指定する。 抽出対象が複数ページの場合、先頭行に「pageX」と出力されます。 |
-pageNo | テキストを抽出するページ番号。省略可。 1ページ目は「0」指定。 複数指定する場合はカンマで区切る。 指定がない場合、全ページのテキストを抽出する。 |
-sort | テキストを座標順に並べ替える。 |