3–25 文書自動認識

本製品には、用紙PDFに描かれている罫線や枠などを認識し、テキストボックスまたは差込オブジェクトを自動的に作成する「文書自動認識」機能があります。

文書自動認識を使うには次のようにします。

  1. メインビューに用紙PDFを表示した状態で、オブジェクト挿入ペインの「オブジェクト」タブにある「文書自動認識」コマンドをクリックすると、「文書自動認識」ダイアログが出ます。
  2. 「文書自動認識」ダイアログの各項目で認識条件を設定します。設定画面は2ページあります。[次へ]をクリックすると2ページ目が表示されます。2ページ目の[完了]ボタンをクリックすると自動認識を実行します。[戻る]のクリックで1ページ目に戻ります。

「文書自動認識」ダイアログの1ページ目では、次の項目を設定します。

「文書自動認識」ダイアログの1ページ目

図3・85 「文書自動認識」ダイアログの1ページ目

「文書自動認識」ダイアログの2ページ目では、認識したテキストボックスのラベル(見出し)にあたるセルに指定したキーワードがあったとき、そのテキストボックスに設定するテキストデータを指定します。

「文書自動認識」ダイアログの2ページ目

図3・86 「文書自動認識」ダイアログの2ページ目

1ページ目で生成するオブジェクトの種類として差込オブジェクトを選択した場合は、2ページ目のダイアログでは何も指定できません。[完了]ボタンをクリックして次へ進んでください。

Mspng ラベル認識の制限

ラベルの認識回数はページ毎に1回です。一度認識したラベルについては以後ページ内に同じラベルが現れても認識されません。

3–25–1 文書自動認識によるテキスト設定例

用紙PDFのテキスト入力枠に文書自動認識機能でテキストを設定する例を示します。図3・87 用紙PDF上のテキスト入力枠の例のような表形式のテキスト入力枠があるとします。

images/dataset-1.png

図3・87 用紙PDF上のテキスト入力枠の例

2ページ目で、入力枠の見出しセルのキーワードに対し、対応する入力枠に貼り付けるテキストを設定します。次の例では、見出しセルに「備考」というキーワードが設定されているとき、「自動認識結果による」というテキストを貼り付けるように設定します。

images/dataset-2-9b.png

図3・88 テキスト入力枠に入力する値テキストの設定

この設定で、用紙PDFに対して文書自動認識を実行すると、次のように表のセルにテキストが入力されます。

images/dataset-3.png

図3・89 用紙PDFに自動で貼り付けたテキスト