『PDF Advanced Extractor』で扱うテキスト枠には「本文」「表」「見出し」の3種類があり、関連するオブジェクトとして「段落区切り」があります。
テキスト枠に含まれるテキストは、任意に編集してプレーンテキストまたはHTMLタグ付きテキストに出力できます。
本文
- 「本文」は、初期設定では青い枠線で囲まれたテキスト枠です。HTMLタグ付きテキストへの保存時は、本文枠内に含まれるテキストデータを段落タグ(<p>~</p>)で囲んで出力します(段落の終端タグ</p>は、「本文」以外のテキスト枠か、「段落区切り」が出現した時点で出力します)。
図4・12 本文枠の例
表
- 「表」は、「本文」の一種です。表枠内には行・列を指定してテキストを分割可能です。表枠の指定方法は、テキスト枠の種類の変更を参照してください。
図4・13 表枠の例
- 表枠を設定してプレーンテキストに保存した場合は、枠内のテキストを出力先のサブフォルダにカンマ区切り形式のテキスト(CSVファイル)で出力します。
図4・14 表枠の編集画面
- 出力先には本文枠のテキスト中にCSVファイル名を"〓表:"と":表〓"で囲んで出力します。
テキスト中にCSVファイル名を出力したくない場合は、[オプション]で表枠のファイル名を出力結果に含めない指定ができます(「表枠」の出力先ファイル名を出力結果に含めない)。
図4・15 表枠のファイル名を本文中に出力する
- 表枠内のテキストをHTMLタグ付きテキストに保存する場合は、表枠内に含まれるテキストデータをTABLEタグ(<table><tbody>~</tbody></table>)で囲んで出力します。
各行は<tr>~</tr>タグで囲み、分割されたテキストは<td>~</td>で囲みます。
見出し
- 「見出し」は、初期設定では見出しレベルごとに異なる色の枠線で囲まれたテキスト枠です。
見出し枠は、「見出し1」~「見出し6」まで6種類のレベルのいずれかを指定して作成します。
図4・16 見出し枠の例
- 見出し枠を設定してプレーンテキストに保存した場合は、枠の位置に”〓1:テキストデータ:1〓”という書式(数値は1~6の見出しレベル)で出力します。
テキスト中に見出し枠の書式を出力したくない場合は、[オプション]で見出し枠内のテキストを本文と同様にして出力する指定ができます(「TEXT 保存」で「見出し枠」を「本文枠」として扱う)。
図4・17 テキスト中に見出し枠の書式を出力しない
- HTMLタグ付きテキストに保存する場合は、「見出し」として設定されたテキスト枠を見出しタグ(<hN>~</hN> Nはレベルを示す1~6の数値)で囲んで出力します。
プレーンテキストに保存する場合は、テキストデータのみを出力します。
段落区切り
- 段落区切りは、連続したテキストデータを区切る目的で任意のテキストの直後に挿入するオブジェクトです。
- 段落区切りは、その挿入位置を明確にするため、赤い小さな矩形で描画します。ただし、「段落区切り」の挿入位置が文字と重ならない位置に指定された場合は無効なデータと見なして、グレーの矩形で描画します。
- (1)[枠の作成]グループから[段落区切り]ボタンをクリックします。
- (2)段落区切りを挿入したい位置の直前の文字にマウスを移動し、クリックします。
- (3)段落区切りが有効な場合は、区切りが挿入される直前の文字の右下に赤い目印を描画します。段落区切りが無効な場合は、グレーの矩形を描画します。
- (4)[段落区切り]ボタンをもう一度クリックすると、段落区切りの追加を解除します。
図4・18 段落区切りの指定
- 段落区切りを文字と文字の間に配置した場合は、以下の基準により段落区切りの位置を決定します。
- 文字が左右に並んでいる場合は、左の文字の右下に配置します。
- 文字が上下に並んでいる場合は、上の文字の右下に配置します。
- プレーンテキスト保存時はその位置に改行コードを出力します。
また、HTMLタグ付きテキスト保存時は、本文枠内で段落区切りを指定した位置に段落の終端タグ(</p>)を出力します。
図4・19 段落区切りの挿入
【注意】
- 段落区切りは、画面上の任意の位置に配置できます。ただし、テキスト抽出時に有効となるのは、テキスト枠の種類が「本文」で、抽出範囲枠がある場合はその範囲内にあり、赤い矩形で描画されたものに限定されます。
段落区切り(オプション)
- 文書全体を通して特定の文字または句読点の位置で改行を行いたい場合は、[オプション]で段落を区切る1文字または句読点と改行位置(対象文字の前後いずれか)を指定できます(段落区切り文字)。
これにより、PDFに設定したテキスト枠全般について抽出結果の当該位置に改行コードを挿入できます。
図4・20 段落区切りの文字(句読点)を指定