PDFTool 7.0
PtlParamExtractText.h
1
2// PtlParamExtractText.h
3// Copyright (C) 2018-2020 Antenna House,Inc.
4// All rights reserved.
6#ifndef PDFTK_PTLPARAMEXTRACTTEXT_H_
7#define PDFTK_PTLPARAMEXTRACTTEXT_H_
8
9#include "PtlParamString.h"
10
11namespace PdfTk {
12
13class PtlRect;
14
18
19class PDFTK_API PtlParamExtractText
20{
21public:
22 // 抽出するテキスト
23 enum TEXT_TYPE {
26 };
27
42
43private:
44 int m_dataParamExtractText;
45public:
46 int getHandle() const;
47
48public:
54
61
66
67public:
73
74public:
84
94 void appendRect(const PtlRect& rectMM);
95
119 void setIgnoreActualText(bool ignoreActualText);
120
128 void setTextOverlapRatio(float overlapRatio);
129
138 void setOverlapAsLine(float overlap);
139
148 void setSameTextOmitRatio(float overlap);
149
159 void setDifferentTextOmitRatio(float overlap, bool applyAtDifferentColor);
160
168 void setUnicodeToSpace(int flag);
169
177 void setUnicodeToSpace(CP_UChar uni);
178
186 void setUnicodeToRemove(int flag);
187
196 void setUnicodeToRemove(CP_UChar uni);
197};
198
199} // namespace PdfTk
200
201#endif // PDFTK_PTLPARAMEXTRACTTEXT_H_
‾PtlParamExtractText()
デストラクタ
void setUnicodeToSpace(int flag)
指定のUnicodeをSpaceに置き換えるか設定。
PtlParamExtractText(const PtlParamExtractText &obj)
コピーコンストラクタ
void setTextOverlapRatio(float overlapRatio)
テキストがテキスト抽出する範囲の矩形とどれくらい重なっていたら抽出対象とするか。
void appendRect(const PtlRect &rectMM)
テキスト抽出する範囲の矩形を追加。
void setIgnoreActualText(bool ignoreActualText)
ActualTextを無視するかを設定。
void setUnicodeToSpace(CP_UChar uni)
指定のUnicodeをSpaceに置き換えるか設定。
void setTextType(TEXT_TYPE type)
抽出するテキストのタイプを設定。
UNI_FLAG
削除、若しくはスペース(U+0020)に変換するユニコード。
Definition PtlParamExtractText.h:31
@ AHEXTRACTTEXT_UNI_ALL
上記全てを対象とする(今後フラグが増えたらそれも含む)。
Definition PtlParamExtractText.h:40
@ AHEXTRACTTEXT_UNI_IDEOGRAPHIC_SPACE
IDEOGRAPHIC SPACE -> U+3000.
Definition PtlParamExtractText.h:37
@ AHEXTRACTTEXT_UNI_VARIATION_SELECTOR
VARIATION_SELECTOR -> U+FE00-U+FE0F.
Definition PtlParamExtractText.h:38
@ AHEXTRACTTEXT_UNI_NO_BREAK_SPACE
NO-BREAK SPACE -> U+00A0.
Definition PtlParamExtractText.h:34
@ AHEXTRACTTEXT_UNI_SPACE
Space -> U+0020.
Definition PtlParamExtractText.h:33
@ AHEXTRACTTEXT_UNI_SOFT_HYPHEN
SOFT HYPHEN -> U+00AD.
Definition PtlParamExtractText.h:35
@ AHEXTRACTTEXT_UNI_SPACES
Spaces -> U+2000-U+200B.
Definition PtlParamExtractText.h:36
@ AHEXTRACTTEXT_UNI_C0_CONTROLS
C0 Controls -> U+0000-U+001F.
Definition PtlParamExtractText.h:32
@ AHEXTRACTTEXT_UNI_REPLACEMENT_CHARACTER
REPLACEMENT CHARACTER -> U+FFFD.
Definition PtlParamExtractText.h:39
void setDifferentTextOmitRatio(float overlap, bool applyAtDifferentColor)
違う文字が重なっている場合、文字と文字がどれだけ重なっていると取り除くかの設定。
void setSameTextOmitRatio(float overlap)
同じ文字が重なっている場合、文字と文字がどれだけ重なっていると取り除くかの設定。
void setUnicodeToRemove(CP_UChar uni)
指定のUnicodeを削除するか設定。
PtlParamExtractText & operator=(const PtlParamExtractText &obj)
コピーオペレータ
PtlParamExtractText()
コンストラクタ
TEXT_TYPE
Definition PtlParamExtractText.h:23
@ TEXT_SORT
取得したテキストを座標でソートして抽出
Definition PtlParamExtractText.h:25
@ TEXT_RAW
取得したテキストをそのまま抽出
Definition PtlParamExtractText.h:24
void setUnicodeToRemove(int flag)
指定のUnicodeを削除するか設定。
void setOverlapAsLine(float overlap)
文字と文字がどれだけ重なっていると同じ行とみなすかの設定。
PDFの矩形座標を表現したクラスです。 矩形は左下(left,bottom)、右上(right,top)で表現されます。 座標の単位はmmで原点(0,0)は左下となりますので注意してください。
Definition PtlRect.h:20