9.1 特殊文字の処理

テキストの抽出を行う際に、特定の特殊文字を対象にスペースに置き換えたり削除することができます。

『PDF Tool API』で削除またはスペース置き換えが可能な特殊文字の種類は以下の通りです。

表9.1 AHEXTRACTTEXT_UNI_***の種別
列挙型定数
特殊文字の種別 -> ユニコード
AHEXTRACTTEXT_UNI_C0_CONTROLS 
C0制御文字 -> U+0000-U+001F
AHEXTRACTTEXT_UNI_SPACE
半角スペース -> U+0020
AHEXTRACTTEXT_UNI_NO_BREAK_SPACE
ノーブレークスペース-> U+00A0
AHEXTRACTTEXT_UNI_SOFT_HYPHEN
ソフトハイフン-> U+00AD
AHEXTRACTTEXT_UNI_SPACES
UnicodeのU+2000~U+200Bの 主に“Spaces”カテゴリに含まれる特殊スペース(1) -> U+2000-U+200B
AHEXTRACTTEXT_UNI_IDEOGRAPHIC_SPACE
和字間隔(2) -> U+3000
AHEXTRACTTEXT_UNI_VARIATION_SELECTOR
異体字セレクタ-> U+FE00-U+FE0F
AHEXTRACTTEXT_UNI_REPLACEMENT_CHARACTER
置き換え文字 -> U+FFFD
AHEXTRACTTEXT_UNI_ALL
上記全てを対象とする(今後のバージョンアップでフラグが増えたらそれも含む)。
表注(1)

『en quad, em quad, en space, em space, three-per-em space, four-per-em space, six-per-em space, figure space, punctuation space, thin space, hair space, zero width space』の、Unicodeの主に“Spaces”カテゴリに含まれる欧文の特殊スペースです。厳密にはzero width spaceは“Spaces”カテゴリには含まれませんが、『PDF Tool API』ではまとめて処理します。

表注(2)

CJKにおけるスペース文字のこと。一般に日本で『全角スペース』として知られIDEOGRAPHIC SPACEとして表記されます。