3–25 文書自動認識

本製品には、用紙PDFに描かれている罫線や枠などを認識し、テキストボックスまたは差込フィールドを自動的に作成する「文書自動認識」機能があります。

文書自動認識を使うには次のようにします。

  1. メインビューに用紙PDFを表示した状態で、リボン「ホーム」タブのオブジェクトグループにある「文書自動認識」コマンドをクリックします。
  2. 「文書自動認識」の条件を設定するウイザードが表示されるので、ダイアログの項目を設定します。

ウィザードの最初のダイアログでは、次の項目を設定します。

images/auto-doc-recognizer1.png

図3・79 文書自動認識ウィザード(1)

ウィザードの2枚目のダイアログでは、認識したテキストボックスのラベル(見出し)にあたるセルに指定したキーワードがあったとき、そのテキストボックスに設定するテキストデータを指定します。

images/auto-doc-recognizer2.png

図3・80 文書自動認識ウィザード(2)

1枚目のダイアログで生成するオブジェクトの種類として差込フィールドを選択したときは、2枚目のダイアログでは何も指定できません。[完了]ボタンをクリックして次へ進んでください。

Mspng ラベル認識の制限

ラベルの認識回数はページ毎に1回です。一度認識したラベルについては以後ページ内に同じラベルが現れても認識されません。

3–25–1 文書自動認識によるテキスト設定例

用紙PDFのテキスト入力枠に文書自動認識機能でテキストを設定する例を示します。図3・81 用紙PDF上のテキスト入力枠の例のような表形式のテキスト入力枠があるとします。

images/dataset-1.png

図3・81 用紙PDF上のテキスト入力枠の例

ウィザードの2枚目のダイアログで、入力枠の見出しセルのキーワードに対し、対応する入力枠に貼り付けるテキストを設定します。次の例では、見出しセルに「備考」というキーワードが設定されているとき、「自動認識結果による」というテキストを貼り付けるように設定します。

images/dataset-2.png

図3・82 テキスト入力枠に入力する値テキストの設定

この設定で、用紙PDFに対して文書自動認識を実行すると、次のように表のセルにテキストが入力されます。

images/dataset-3.png

図3・83 用紙PDFに自動で貼り付けたテキスト