10 #ifndef PDFTK_NET_PTLPARAM_EXTRACTTEXT_H_
11 #define PDFTK_NET_PTLPARAM_EXTRACTTEXT_H_
13 #include <PdfTkNet/NetTk.h>
48 PdfTk::PtlParamExtractText* m_native;
50 PdfTk::PtlParamExtractText* getNative() {
return m_native; };
215 #endif // PDFTK_NET_PTLPARAM_EXTRACTTEXT_H_
@ UNI_VARIATION_SELECTOR
VARIATION_SELECTOR -> U+FE00-U+FE0F
@ TEXT_RAW
取得したテキストをそのまま抽出
void setUnicodeToSpace(wchar_t uni)
指定のUnicodeをSpaceに置き換えるか設定。
@ UNI_REPLACEMENT_CHARACTER
REPLACEMENT CHARACTER -> U+FFFD
@ UNI_IDEOGRAPHIC_SPACE
IDEOGRAPHIC SPACE -> U+3000
PtlParamExtractText()
コンストラクタ
ページコンテントからのテキスト抽出処理のパラメータを表現したクラスです。
Definition: NetParamExtractText.h:24
‾PtlParamExtractText()
デストラクタ
@ UNI_NO_BREAK_SPACE
NO-BREAK SPACE -> U+00A0
void setTextType(TEXT_TYPE type)
抽出するテキストのタイプを設定。
PtlParamExtractText operator=(PtlParamExtractText^ obj)
コピーオペレータ alias copy
void setUnicodeToRemove(wchar_t uni)
指定のUnicodeを削除するか設定。
@ UNI_SPACES
Spaces -> U+2000-U+200B
@ TEXT_SORT
取得したテキストを座標でソートして抽出
@ UNI_ALL
上記全てを対象とする(今後フラグが増えたらそれも含む)。
PtlParamExtractText(PtlParamExtractText^ obj)
コピーコンストラクタ alias copy
TEXT_TYPE
Definition: NetParamExtractText.h:27
void setOverlapAsLine(float overlap)
文字と文字がどれだけ重なっていると同じ行とみなすかの設定。
void appendRect(PtlRect^ rectMM)
テキスト抽出する範囲の矩形を追加。
UNI_FLAG
削除、若しくはスペース(U+0020)に変換するユニコード。
Definition: NetParamExtractText.h:35
PDFの矩形座標を表現したクラスです。 矩形は左下(left,bottom)、右上(right,top)で表現されます。 座標の単位はmmで原点(0,0)は左下となりますので注意してください。
Definition: NetRect.h:24
void setUnicodeToRemove(UNI_FLAG flag)
指定のUnicodeを削除するか設定。
@ UNI_SPACE
Space -> U+0020
void setIgnoreActualText(bool ignoreActualText)
ActualTextを無視するかを設定。
void setSameTextOmitRatio(float overlap)
同じ文字が重なっている場合、文字と文字がどれだけ重なっていると取り除くかの設定。
@ UNI_SOFT_HYPHEN
SOFT HYPHEN -> U+00AD
@ UNI_C0_CONTROLS
C0 Controls -> U+0000-U+001F
void setDifferentTextOmitRatio(float overlap, bool applyAtDifferentColor)
違う文字が重なっている場合、文字と文字がどれだけ重なっていると取り除くかの設定。
void setUnicodeToSpace(UNI_FLAG flag)
指定のUnicodeをSpaceに置き換えるか設定。
void setTextOverlapRatio(float overlapRatio)
テキストがテキスト抽出する範囲の矩形とどれくらい重なっていたら抽出対象とするか。