用語の意味
本マニュアルで使用する用語の意味について説明します。
- テキスト枠
ページ上のテキストデータの範囲を示す矩形の領域を本製品では「テキスト枠」と呼び、テキスト枠の範囲に含まれるテキストデータをプレーンテキストの出力対象とします。テキスト枠は「本文」「表」、または「見出し1」~「見出し6」いずれかの種類で作成できます。テキスト枠は画面上の任意の位置に作成可能で、ページ内の別の箇所や他のページへコピー・移動も自由にできます。テキスト枠内のテキストは直接編集することが可能です。抽出した結果または編集した結果をプレーンテキストかHTMLタグ付きテキストに出力できます。
- 表枠
テキスト枠のうち、「表」と指定した範囲を「表枠」と呼びます。表枠は、本文枠に準じた属性を持ちますが、表枠の範囲では行数・列数の指定が可能となります(最大値、各100)。表枠内の行・列位置を示す罫線は任意に追加・削除が可能で、またその位置をマウスで変更できます。表枠の範囲に含まれるテキストデータを直接編集する場合は、セル単位でなく枠内全体のテキストをCSV(カンマ区切り)形式で表示し、編集可能とします。表枠をプレーンテキストに出力する場合は、枠内のテキストをCSV(カンマ区切り)形式で出力します。また、HTMLタグ付きテキストに出力する場合は<table>要素で出力し、行・列の分割位置に応じてそれぞれ<tr>タグ、<td>タグを付加します。
- 画像枠
ページ上の画像データの範囲を示す矩形の領域を、本製品では「画像枠」と呼びます。画像枠には、ページ上の表やグラフなど任意の範囲を指定できます。また、画像枠にテキストデータが含まれる場合は、HTMLタグ付きテキストへ保存する際にイメージタグのalt属性として出力するなど利用が可能です。画像枠もテキスト枠と同様に画面上の任意の位置に作成して抽出順を指定したり、コピーや移動ができます。
- 抽出範囲枠
PDFからテキストデータを抽出する場合、複数のページにレイアウトされたページ番号(ノンブル)や見出し(柱)など、抽出して利用しないテキストを除外したい場合があります。このようなとき、あらかじめページ上に範囲を設定して、その範囲内にあるテキスト枠・画像枠のデータのみを抽出対象にできます。本製品では、これを「抽出範囲枠」と呼びます。既定値ではページ全体を抽出対象とします。
- 抽出除外範囲枠
抽出範囲枠と逆に、ページ上で抽出したくない範囲を指定して抽出対象から除外することができます。本製品では、これを「抽出除外範囲枠」と呼びます。抽出除外範囲枠は、ページ全体にテキスト枠を設定しその一部だけ文字を抽出しないようにするなどの使い方ができます。抽出除外範囲枠は複数のページに設定できます。
- 段落区切り
テキストデータをプレーンテキストに保存する場合、改行コードを挿入する位置をあらかじめ画面上から指定できます。本製品では、これを「段落区切り」と呼びます。段落区切りはページ上の任意の位置に指定できます。ただし、テキスト抽出時に有効とするのは本文枠の範囲内にあり抽出対象のテキストと関連づけが有効であるもののみです。また、段落区切りはHTMLタグ付きテキストに段落の終端タグとして出力することも可能です。
- オブジェクト
ページ上に設定する抽出範囲枠・テキスト枠(「本文」/「表」/「見出し」)・画像枠・段落区切りを総称して本製品では「オブジェクト」と呼びます。それぞれのオブジェクトは対応するボタンのクリックまたはメニューからの選択で新規作成します。作成後は「ホーム」タブの「選択」ツールで選択して、移動・サイズ変更・削除等の操作を行います。