テキストの抽出を行う際に、特定の特殊文字を対象にスペースに置き換えたり削除することができます。
『PDF Tool API』で削除またはスペース置き換えが可能な特殊文字の種類は以下の通りです。
列挙型定数 | 特殊文字の種別 -> ユニコード |
---|---|
AHEXTRACTTEXT_UNI_C0_CONTROLS | C0制御文字 -> U+0000-U+001F |
AHEXTRACTTEXT_UNI_SPACE | 半角スペース -> U+0020 |
AHEXTRACTTEXT_UNI_NO_BREAK_SPACE | ノーブレークスペース-> U+00A0 |
AHEXTRACTTEXT_UNI_SOFT_HYPHEN | ソフトハイフン-> U+00AD |
AHEXTRACTTEXT_UNI_SPACES | UnicodeのU+2000~U+200Bの 主に“Spaces”カテゴリに含まれる特殊スペース(1) -> U+2000-U+200B |
AHEXTRACTTEXT_UNI_IDEOGRAPHIC_SPACE | 和字間隔(2) -> U+3000 |
AHEXTRACTTEXT_UNI_VARIATION_SELECTOR | 異体字セレクタ-> U+FE00-U+FE0F |
AHEXTRACTTEXT_UNI_REPLACEMENT_CHARACTER | 置き換え文字 -> U+FFFD |
AHEXTRACTTEXT_UNI_ALL | 上記全てを対象とする(今後のバージョンアップでフラグが増えたらそれも含む)。 |
『en quad, em quad, en space, em space, three-per-em space, four-per-em space, six-per-em space, figure space, punctuation space, thin space, hair space, zero width space』の、Unicodeの主に“Spaces”カテゴリに含まれる欧文の特殊スペースです。厳密にはzero width spaceは“Spaces”カテゴリには含まれませんが、『PDF Tool API』ではまとめて処理します。
CJKにおけるスペース文字のこと。一般に日本で『全角スペース』として知られIDEOGRAPHIC SPACEとして表記されます。