文字・画像データの認識や保存時に使用する条件などを設定します。
図3・17 オプション[一般]画面
以下のオプションを指定します。
- ①文字の認識・保存形式
ページ上のテキスト範囲を自動で認識してテキスト枠を作成する場合に、自動認識処理が使用する条件(言語指定・DPI値・回転の補正角度)とテキスト抽出時の動作について指定します。- 自動認識:言語
PDFファイルの内容により日本語、英語のいずれかを指定できます。通常は「日本語」を指定してください。
- 自動認識:段組みの設定
自動認識処理で「ページを解析して認識」を選択した場合に参照する段組みの段数を指定します。通常は「自動」を指定してください。
- 自動認識:DPI値
自動認識処理で「ページを画像化して認識」を選択した場合に使用する画像の解像度を200~500dpiの範囲で指定します。認識時の精度が悪い場合に、DPI値を変更することで改善される場合があります。通常は「400」を指定してください。
- 自動認識:回転の補正
元のPDFが回転している場合、回転して表示する角度を0°/90°/180°/270°のいずれかで指定します。ここで指定した角度でファイル内のページ全体を一括補正し表示します。ページ毎に回転角度が異なる場合は、対象ページを開いてから[ツール]→[ページ]→[回転]で個別に角度を指定し、表示を補正してください。
- 指定したサイズ以下の文字を除外 %値
テキスト抽出対象から任意の文字サイズ以下のテキストを除外する設定を行います。標準の文字サイズに対するパーセント値で除外する文字のサイズを指定します。例えば、抽出対象からルビ文字を除外したいというような場合に利用できます。
ここで指定した値は文書全体のテキスト枠に有効です。
- 「本文枠」と次の「本文枠」の間に段落区切りを出力する
プレーンテキストへの保存時、「本文」と次の「本文」の間に段落区切り(改行)を出力したい場合に指定します。
既定値はオフです。
- 「表枠」の出力先ファイル名を出力結果に含めない
プレーンテキストへの保存時、表枠内のテキストを保存するファイル名(CSV)をテキストファイル内に出力したくない場合に指定します。
既定値はオフです。
- 「TEXT保存」で「見出し枠」を「本文枠」として扱う
プレーンテキストへの保存時、見出し枠のテキストを示す囲み記号をテキストファイル内に出力したくない場合に指定します。
既定値はオフです。
- テキストのクリッピングを考慮しない
PDFでテキストオブジェクトにクリッピングパスが指定されテキストの一部が非表示に設定されている場合は、既定値でパスの範囲内にあるテキストのみを抽出します。パスの範囲外にあるテキストも抽出したい場合は、このオプションにチェックを付けてください。
既定値はオフです。
- 文字コードの指定をCSVファイルにも適用する
プレーンテキスト保存時に文字コードを「UTF-8(BOM 無し)」または「UTF-16BE」に指定した場合、CSV ファイルのみ、それぞれ「UTF-8 (BOM 付き)」「UTF-16 LE」に変更して保存します。CSV ファイルの文字コードをテキストファイルと同じにしたい場合はこのオプションにチェックを付けてください。
既定値はオフです。
- 段落区切り文字
テキストまたはHTML保存時に本文枠の特定の文字位置で段落を区切りたい場合に指定します。例えば指定文字に句読点「。」を指定し、区切り位置に「後」を指定すると、その位置に改行コードまたは</p>タブを挿入して保存できます。
ここで設定した区切り文字は文書全体の本文枠に有効です。設定を無効にしたい場合は指定文字を空白にしてください。
ここで指定した文字以外でも段落を区切りたい場合は、それぞれのテキスト枠内で段落区切り文字を設定してください。
- 枠の重なりがあれば警告する
ページ上のテキストデータに複数のテキスト枠を重ねて指定しテキスト抽出を行うと、抽出結果のファイルに同じ文字が重複して出力されます。このような場合、テキスト抽出実行時に以下の警告メッセージを表示して注意を促します。
既定値はオンです。
図3・18 枠の重なりを警告するダイアログボックス
- ②画像の認識・保存形式
自動認識処理でPDFファイル中の画像を対象にするかどうかと、PDFから抽出して画像ファイルを作成する場合の生成条件を指定します。- 自動認識:画像
ページ上の画像範囲を認識して、自動で画像枠を作成するかどうかを指定します。画像枠が不要なときは、「認識しない」を指定してください。既定値は、「認識する」です。
- 画像ファイル:DPI値
画像ファイルの解像度を1~350 の範囲で指定します。値が大きいほど、保存される画像サイズも大きくなります。通常は「300」を指定してください。
- 画像ファイル:JPEG保存時の変換品質
画像ファイルをJEPG形式で保存する場合の変換品質を1~100の範囲で指定します。既定値は「80」です。
- 画像ファイル:色数
画像ファイルで使用する色数をフルカラー/256/グレースケール/モノクロのいずれかで指定します。既定値は「フルカラー」です。
- ③画像ID
画像ファイルを保存する場合は、ここで指定された画像IDを使用して画像ファイル名を自動で生成し、保存します。- 画像ID:先頭の文字列
ファイル名の先頭に付加する文字列を0~32文字までの範囲で指定します。既定値は「img」です。
- 画像ID:セパレータ
先頭の文字列とページ番号、連番をつなぐ1文字の英数字を指定します。既定値は「-」です。
- 画像ID:ページ番号
画像データが含まれるPDFのページ番号を自動で挿入します。
- 画像ID:連番
同一ページ内に画像データが複数あった場合に、その番号を自動でカウントして挿入します。
- 画像ID:ページ番号/連番の0詰め桁数
ページ番号、連番に0を詰めて表示する桁数を1~5の範囲で指定します。既定値は「3」です。
- 画像ID:連番の開始番号
連番をカウントする際の開始番号を1~10000の範囲で指定します。
- ④テンプレート
現在開いているPDFにテンプレートファイルを適用する場合は、ここで指定されたオプションを使用します。- テンプレートを繰り返し適用する
現在開いているPDFのページ数がテンプレートのページ数より多いとき、既定値ではテンプレートのページ数分のみPDFに適用します。テンプレートの指定をPDFのページ数分繰り返して適用したい場合はこの指定をオンにしてください。既定値はオフです。
- テンプレートファイルのオプション設定を適用する
現在開いているPDFにテンプレートを適用する場合、テンプレート作成時に指定していたオプションはすべて無効になります。それらのオプションを有効にしてPDFに適用したい場合はこの指定をオンにしてください。テンプレートファイルに保存されたオプションを一時的に有効にして現在開いているPDFに適用できます。既定値はオフです。
- テキスト枠の編集内容を適用する
現在開いているPDFにテンプレートを適用する場合、既定値ではPDFに格納されたテキストの内容が抽出されます。テンプレートファイル作成時にテキスト枠の内容を編集していてその結果を現在開いているPDFに反映したいときはこの指定をオンにしてください。既定値はオフです。