2–4 HTMLタグ付きテキストの出力仕様

HTMLタグ付きテキスト出力時の仕様を以下に示します。

<html>
<head>
<meta http-equiv~="Content-Type" content~="text/html; charset~=UTF-8">
</head>
<body>
~ 本文 ~
</body>
</html>
  • テキスト枠を編集し内容が変更されている場合は、元の抽出結果ではなく編集した結果を出力します。また、編集時に枠内のテキストに改行が挿入されたときは、その位置で段落を区切り</p>タグを出力します。
  • テキスト枠の種類が「本文」のときは以下の処理を行います。
    • 本文枠が文書全体で最初のテキスト枠であった場合、先頭に<p>タグを出力します。
    • 上記以外、かつ直前のテキスト枠が「本文」以外であった場合、先頭に<p>タグを出力します。
    • 既定値ではテキスト枠の種類が「本文」以外に変わるまで、枠内のテキストを連続して出力します。また、オプションでテキスト枠と次のテキスト枠の間に</p>タグと<p>タグを続けて出力するように指定できます。
    • 本文枠内に段落区切りが指定されて有効であるとき、段落区切り直前の文字の後ろに</p>タグと<p>タグを続けて出力します。
    • 本文枠が文書全体の最後のテキスト枠であった場合、末尾に</p>タグを出力します。
  • テキスト枠の種類が「表」のとき、以下の処理を行います。
    • 表枠の先頭に<table border="1"><tbody>タグを出力し、末尾に</tbody></table>タグを出力します。
    • 表枠に指定された行数と行の分割位置に応じて<tr>...</tr>タグを出力し、行を区切ります。
    • 表枠に指定された列数と列の分割位置に応じて<td>...</td>タグを出力し、テキストを区切ります。
  • テキスト枠の種類が「見出し」のとき、以下の処理を行います。
    • 直前のテキスト枠が「本文」であった場合、先頭に</p>タグを出力します。
    • 見出し枠のレベルに従って、対応する<h1>~<h6>タグを出力します。
    • 見出し枠内のテキストを出力後、末尾に対応する</h1>~</h6>タグを出力します。
    • 見出し枠内に指定された段落区切りは無視します。
  • 出力する画像ファイルの情報(ページ番号/画像ファイル名/幅/高さ/代替テキスト)をCSV形式で保存先のサブフォルダ内に出力します(画像サマリ)。CSVファイル名は HTMLタグ付きテキスト保存時のファイル名 + "_image_summary" + 拡張子".csv"、サブフォルダの名称は HTMLタグ付きテキスト保存時のファイル名 + "_csv"とします。
  • 画像枠のデータは指定された画像形式(JPEG/PNG/SVGのいずれか)でHTMLテキスト保存時のサブフォルダに保存します。画像ファイル名は画像ID + 拡張子(*.jpg/*.png/*.svgのいずれか)、サブフォルダの名称は、HTMLタグ付きテキスト保存時のファイル名 + "_image"とします。
  • 画像枠のデータはテキスト枠と画像枠に設定された抽出順で<img>タグを出力し、画像データとリンクします。
  • <img>タグには、src属性を相対パスで出力し、画像の幅と高さをpx単位で出力します。
  • 画像枠に「テキストを保存」が指定された場合、枠内に含まれるテキストデータをalt属性で出力します。