イメージファイル変換

ビットマップやTIFF、JPEG、PNG、JPEG2000などのイメージファイルは以下の流れで変換を行います。

Please enter alt text.

変換処理の流れを統一化するため、一度プレーンなTIFFファイルに変換します(画像の解像度やサイズなどは変更しません)

その後、OCRを行う場合には、TIFFに統一された画像ファイルをPDFファイルへ変換し、必要に応じてマスク処理を行った上でOCR処理が実行され、最後にテキストファイル同様にPDFの編集を行います。

【OCR設定】
イメージファイルとPDFファイルはOCRを行う事ができます。OCRとはイメージから文字を読み取って、出力PDFファイルの上に文字情報を重ねてあたかもそこに文字があるような感じで透明なテキストを置きます。これによりPDFファイルがテキスト検索をできるようになります。設定は[OCR設定]以下で行います。

【マスク設定】
マスクとはPDFから指定範囲のテキストを削除したり、画像を塗りつぶして消去する処理の事です。[変換設定] → [入力設定] → [マスク設定]で行います。

注意:設定により対象となるPDFファイルは、以下のいずれかとなります。

  • 画像だけからなるページを持つPDFファイル
  • 全てのPDFファイル(但し、元のPDFファイルにあったテキストやベクトルデータが失われます。)