2–3 プレーンテキストの出力仕様
プレーンテキスト出力時の仕様を以下に示します。
- プレーンテキストの文字コードは、保存時にUTF-8 (BOM無し)/UTF-8 (BOM付き)/Shift_JIS/UTF-16 LE(リトルエンディアン)/UTF-16 BE(ビッグエンディアン)のいずれかを指定できます。既定値はUTF-8(BOM無し)です。
- ページにテキスト枠(「本文」/「表」/「見出し」)がある場合、以下の処理を行います。
- テキスト枠内のテキストを指定された抽出順に出力します。既定値ではテキスト枠間のテキストを連続して出力し、間には改行コード(CRLF)を出力しません。ただし、オプションでテキスト枠間に改行コードを出力するよう指定できます。
- テキスト枠の種類が「本文」「表」で枠内に段落区切りが指定されて有効であるとき、その位置に改行コードを出力します。テキスト枠の種類が「見出し」に指定されている場合は枠内に段落区切りが指定されていても無効になります。見出し枠内の段落区切りを有効にしたい場合は、オプションで「見出し枠を本文枠として扱う」指定をしてください。
- テキスト枠の種類が「本文」または「表」に指定されている場合、オプションで任意の文字または記号と区切り位置(文字の前または後ろ)を指定することで改行コードを挿入できます。同一の文字または記号に段落区切りが同時に指定された場合は、いずれの指定も有効となります。
- テキスト枠の種類が「表」に指定されているとき、枠内のテキストは出力先のサブフォルダ内にCSV形式で出力します。出力先フォルダには本文枠のテキストとともにCSVファイル名を"〓表:"と":表〓"で囲んで出力します。
CSVファイル名は、接頭辞"csv" + テキストID(ページ番号+抽出順) + 拡張子".csv"、サブフォルダの名称はプレーンテキスト保存時のファイル名 + "_csv"とします。
CSVファイル名をプレーンテキスト中に出力したくない場合は、オプションで表枠のファイル名を出力結果に含めない指定をしてください。
- プレーンテキスト保存時に文字コードを「UTF-8(BOM無し)」または「UTF-16BE」に指定した場合、CSVファイルのみそれぞれ「UTF-8 (BOM付き)」「UTF-16 LE」に変更して保存します。CSVファイルの文字コードをテキストファイルと同じにしたい場合は、オプションで「CSVファイルにも適用する」指定をしてください。
- テキスト枠の種類に「見出し」を指定してプレーンテキストに保存した場合は、見出し枠内のテキストを"〓1:"と":1〓"で囲んで出力します(数字は見出しレベル)。これらの囲みを付加しないでプレーンテキストに保存したい場合は、オプションで「見出し枠を本文枠として扱う」指定をしてください。
- 見出し枠の直前に本文枠があった場合、見出し枠内のテキスト出力前に改行コードを出力します。また、見出し枠内のテキスト出力後に改行コードを出力します。
- PDF内のテキストにクリッピングパスが指定され表示に制限がされている場合、既定値ではクリッピングパスの範囲内にあるテキストのみ出力します。クリッピングパスに関わらずすべてのテキストを出力したい場合は、オプションでテキストのクリッピングを考慮しない指定をしてください。
- テキスト枠に文字が画像化されたデータがある場合はOCR処理により文字認識を行います。文字と認識された場合は対応する文字コードに変換して出力します。
- テキスト枠を編集し内容が変更されている場合は、元の抽出結果ではなく編集した結果を出力します。また、編集時に枠内のテキストに改行が挿入されているときはその位置に改行コードを出力します。
- テキスト枠に欧文テキストがある場合は単語間のスペースを自動的に補って出力します。
- 欧文テキストの行末に単語のハイフネーションと判断されるハイフンがある場合は、自動的に削除して出力します。
- ページに画像枠がある場合は、以下の処理を行います。
- 出力する画像ファイルの情報(ページ番号/画像ファイル名/幅/高さ/代替テキスト)をCSV形式で保存先のサブフォルダ内に出力します(画像サマリ)。CSVファイル名はプレーンテキスト保存時のファイル名 + "_image_summary" + 拡張子".csv"、サブフォルダの名称は「表」の保存先サブフォルダ名と同一です。
- 画像枠のデータは指定された画像形式(JPEG/PNG/SVGのいずれか)で出力先のサブフォルダに保存します。サブフォルダの名称は、プレーンテキスト保存時のファイル名 + "_image"とします。
- 画像ファイル名は、画像ID(ページ番号+抽出順) + 拡張子(*.jpg/*.png/*.svgのいずれか)とします。