10–11 テキスト抽出
- ページコンテンツ内のテキストを抽出します。注釈やPDFフォームデータなどのテキストは抽出されません。
- 矩形が指定された場合、矩形内のテキストを抽出します。矩形の指定がない場合はページ全体が抽出対象です。表示領域がページコンテンツの一部分である場合、表示されていない部分のテキストも抽出対象となります。また、クリッピングされて表示されていない部分のテキストも抽出対象となります。
- 「TEXT_SORT」(座標でソート)オプションの場合、次の加工を行い抽出します。
- 抽出対象が欧文の場合、単語間にスペースを挿入する。
- 行末の「ハイフン(-)」を、単語が2行にわたっている場合に表記されるものとみなして削除する。
- 抽出処理オプションには以下のものがあります。
- 取得した順(TEXT_RAW) :取得したテキストをそのまま抽出します。このため、見た目とは異なる順序で抽出される場合があります。
- 座標でソート(TXT_SORT):取得したテキストを座標でソートして抽出します。
- 指定されたユニコード文字をスペースに置換する:指定されたユニコードの文字をスペース(U+0020)に置換します。ユニコード文字の指定がない場合、置換は行われません。
- 指定されたユニコード文字を削除する:指定されたユニコードの文字を削除します。したがって該当の文字は抽出されません。ユニコード文字の指定がない場合、削除は行われません。
- 同じ行にある文字とみなすしきい値:文字と文字がどれだけ重なっていると同じ行とみなすか、その割合を設定します。この設定は、座標でソートする場合に有効です。
- 同じ文字が重なっているとき抽出から除外するしきい値:同じ文字が重なっているとき、文字と文字がどれだけ重なっているときに取り除くか、その割合を設定します。この設定は、座標でソートする場合に有効です。
- 違う文字が重なっているとき抽出から除外するしきい値:違う文字が重なっているとき、文字と文字がどれだけ重なっているときに取り除くか、その割合を設定します。重なっていると判定したとき。先に現れた文字、つまり、重なりの下になっている文字が取り除かれます。この設定は、座標でソートする場合に有効です。
- 文字が矩形内にあるとみなすしきい値:文字が抽出範囲として指定された矩形とどれだけ重なっているときに抽出対象とするか、その割合を設定します。
10–11–1 制限事項
- 英語など欧文テキストに対して、テキストを座標でソートして抽出するモードの場合に、単語のかたまりを判定して単語間に空白を挿入した状態で抽出します。単語であるのに「かたまり」と認識できなかった場合は、次の単語との間に空白が入らず続いた状態で抽出されます。
- 2段以上に段組みされたページにおいて、座標でソートして抽出する場合、段をまたいでソートを行うため、段ごとにテキストは抽出されません。1段ずつ抽出範囲として矩形指定することで、段ごとに抽出できるようになります。
- 縦書き、横書きが混在したページからは期待通りにテキスト抽出できません。抽出するには、縦書きのみ、横書きのみとなるよう抽出範囲を指定してください。
- 異なった文字サイズが混在している場合など1行と認識できないとき、期待通りに抽出されません。