「OCR設定」ダイアログボックス

OCR処理で参照する各種の条件を設定します。

OCRオプションの設定

images/ocr_opt_setting.png

図3・60 「OCR設定」ダイアログボックス
① OCR処理の実行
OCR処理の方法を以下のいずれかで設定します。

lighton.gif 【ヒント】

通常は[自動]を選択してください。

lighton.gif 【ヒント】

PDF内部に文字が埋め込みされていて文字コードとの関連づけがない場合、通常の変換では文字化けしてしまいます。そのような場合、OCRを常に行う設定にすることで文字に変換することができます。

exclem2.png 【注意!】

変換先に「OCR」を選択した場合やOCR補正機能を選択した場合は、設定に関わらず常にOCR処理が行われます。

② 言語
OCR処理対象となる文書の言語を指定します。元データ中に指定された言語以外の文字があると文字化けや誤変換が生じる場合があります。
表3・2 指定可能な言語
言語自動で設定されるフォント
日本語MS Pゴシック(和文)、Arial(英数字)
英語Times New Roman
ドイツ語Times New Roman
フランス語Times New Roman
スペイン語Times New Roman
イタリア語Times New Roman
スウェーデン語Times New Roman
デンマーク語Times New Roman
ノルウェー語Times New Roman
オランダ語Times New Roman
ポルトガル語Times New Roman
チェコ語Times New Roman
ハンガリー語Times New Roman
ポーランド語Times New Roman
ルーマニア語Times New Roman
スロバキア語Times New Roman
クロアチア語Times New Roman
スロベニア語Times New Roman
ルクセンブルク語Times New Roman
フィンランド語Times New Roman
リトアニア語Times New Roman
ラトビア語Times New Roman
トルコ語Times New Roman
カタルーニャ語Times New Roman
ブルガリア語Times New Roman
マケドニア語Times New Roman
ロシア語Times New Roman
セルビア語Times New Roman
ウクライナ語Times New Roman
ギリシャ語Times New Roman
ベトナム語Times New Roman
タイ語Tahoma
韓国語Malgun Gothic
簡体字中国語SimSun
繁体字中国語Microsoft JhengHei

lighton.gif 【ヒント】

  • 既定の言語は[日本語]です。
  • 日本語以外で記述されたPDFを[日本語]モードで変換すると、文字によっては誤変換する場合があります。そのようなときは記述された言語に切り替え、言語に適したフォントを指定してください。
③ フォント
指定した言語に用いるフォントを実行環境にインストールされたフォントの一覧から指定します。言語を日本語に指定した場合は、元データ中のアルファベットと数字のみ別のフォントに指定できます。言語を変更した場合は、その言語に対応した適切なフォントを指定してください。

lighton.gif 【ヒント】

OCR処理を使用した変換では、変換結果の文字列に対して一括で指定したフォントが適用されます。このため、元データ中に複数の言語が混在しているような場合は、指定した言語以外の文字が正しく変換されません(日本語、韓国語または中国語と英語が混在した場合を除く)。

④ 最小フォントサイズ
⑤ DPI値
本製品では、OCR処理を行う際に対象となるページをビットマップ画像に変換します。ここで設定するDPI値はこのとき作成する画像の解像度として参照されます。96~500(dpi)の範囲で設定します。

lighton.gif 【ヒント】

一般的に解像度が低いと文字の認識率は低下し、解像度が高いと認識率は高くなります。しかし、高解像度に設定した場合、画像作成に長時間かつ大量のメモリーを必要とするため、場合によっては処理に失敗する可能性もあります。通常は、300~400dpiの範囲を指定してください。

⑥ 回転の補正
処理対象となるページの向きが回転している場合、これを補正できます。
⑦ 傾きの補正
処理対象となるページが傾いている場合、これを補正できます。通常は、「自動」を選択します。

exclem2.png 【注意!】

ここで設定した回転・傾き角度は、すべてのページに一括適用します。任意のページのみ設定したい場合は、別途、OCR補正機能を使用し、ページ単位に回転・傾き角度を指定してください。

⑧ 縦書きと認識された領域を横書きにする
処理対象となるページが横書きであるにも関わらず、文字の並び位置が縦方向に揃っていると縦書きの領域と誤認されることがあります。このような場合に強制的に横書きの領域に変更できます。
領域の変更は、[OCR補正機能]を使うとファイル毎に手動で指定できます。
⑨ 文字色を反映する
既定値では、画像データをカラーで処理して文字色などを変換先に反映しますが、画像データによっては白黒2値画像にしてOCR処理することで認識精度が改善する場合があります。OCRの結果が芳しくないと思われるときは、この設定をOFFにしてみてください。

exclem2.png 【注意!】

  • この設定をオフにして変換した場合は色の情報が失われ文字色がすべて黒に変換されます。
  • 設定の切り替えはOCR処理の認識精度に影響するため、変換結果が同じにならない場合があります。

lighton.gif 【ヒント】

OCR処理では、画像上でテキストや表として変換したい部分を別の領域として誤認識してしまう場合があります。本製品の既定値ではそのようなときに誤認識したままOCR処理を行うため、文字化けなどが生じてしまいます。
このような場合は、[OCR補正機能]を使用すると、画面上の操作により誤認識した領域を正しい領域に補正できます。

⑩ OCR補正機能で保存したテンプレートファイルを使用する
テンプレートファイル(*.atl)を読み込む場合は、チェックをつけてください。ここにチェックをつけることで、テンプレートファイル名の指定が可能になります。

images/templ_combo.png

図3・61 テンプレートファイルの指定

関連...