4–12 テキスト抽出結果の確認

画面に表示されたテキストを枠で囲んだ状態で、事前にテキスト抽出対象となるテキストの内容をダイアログボックスに表示して確認することができます。

抽出結果の確認

  • 抽出結果の確認は、以下の手順で行います。
  • (1)テキストを含むテキスト枠を選択します。
  • (2)選択したテキスト枠の枠線上でマウスを右クリックし、表示されるコンテキストメニューから[抽出結果を確認]を選択します。

images/screenshot_63b.png

図4・37 テキスト取得と編集画面
  • (3)表示されたダイアログボックスで、抽出対象となるテキストを確認します。表示する内容には、テキスト枠内に挿入されている「段落区切り」の指定も反映するため、実際にテキスト抽出した場合に準じた結果をチェックできます。
  • (4)表枠を選択した場合は、枠内のテキストは行列の分割線で区切られます。それぞれの項目はダブルクォーテイションで囲まれ、カンマで区切られて表示されます(CSV形式)。
  • (5)ダイアログボックス内のテキストはマウスでドラッグして任意の範囲を指定しクリップボードにコピーできます。これにより、表示されたテキストデータを直接別のアプリケーションに貼り付けて利用できます。
  • (6)抽出対象となるテキスト枠を選択し、右クリックして表示されるコンテキストメニューから[コピー]を選択すると、枠の情報をコピーするとともに、枠内の抽出結果のテキストをクリップボードに転送できます。これにより、抽出結果の確認ダイアログボックスを表示しなくても内容を別のアプリケーション画面に貼り付けることができます。
  • (7)ダイアログボックス中のテキストは直接編集できます。編集の詳細は、次の4–13 テキスト抽出結果の編集を参照してください。
  • 「読み上げ」ボタンをクリックすると、Windowsの音声読み上げ機能を使用し表示しているテキストを音声で出力します。読み上げを終了する場合は、「停止」ボタンをクリックしてください。
  • 「編集をリセット」ボタンをクリックすると、ダイアログボックス内で編集した内容を破棄して、元の抽出結果に戻すことができます。

画像化された文字も抽出

  • PDFによっては文字と見える箇所が画像で格納されている場合があります。このような場合、通常はテキスト抽出できませんが、本製品ではOCR機能により文字と認識された画像を文字コードに変換し、通常のテキストと同じ扱いで抽出できます。
  • 画像化された文字の抽出は以下の手順で行います。
  • (1)画像化された文字を含む範囲をテキスト枠に指定します。
  • (2)選択したテキスト枠を右クリックして[抽出結果を確認]を選択し、画像が文字として抽出可能であるかを確認できます。

images/screenshot_83.png

図4・38 画像化された文字も抽出(出典:経済産業省ホームページ)

【注意】

  • 開いているページで最初に[抽出結果を確認]を実行すると、OCR処理により表示まで時間がかかる場合があります。
  • OCR処理では画像の状態により文字を識別できなかったり、誤認識して文字化けする場合があります。