OEM販売のご相談
ご相談ください!

PDF Tool APIテキスト検索:正規表現での検索

機能イメージ

与えられた正規表現のキーワードで検索し 該当箇所の矩形を取得します。

概要

サンプルコードの概要

指定された正規表現のキーワードで検索し該当箇所の矩形を取得します。
このサンプルでは取得した矩形にハイライト注釈を追加しています

  • PtlPDFDocument.searchText(PtlParamSearchText param): 与えられたPDF全体に対してテキスト検索を実行する
  • PtlPage.searchText(PtlParamSearchText param): 取得したページオブジェクトに対してテキスト検索を実行する
  • PtlParamSearchText: テキスト検索のパラメータを表現したクラス
  • PtlParamSearchText.appendTextRegEx(keyword): 正規表現で検索するテキスト(keyword)を追加する
  • PtlParamSearchText.setTextType(PtlParamSearchText::TEXT_RAW): 取得したコンテント内のテキストをそのまま検索
  • PtlSearchTextResults: テキスト検索結果のコンテナを表現したクラス
  • PtlSearchTextResult: テキスト検索結果を表現したクラス
  • PtlSearchTextResultDetails: テキスト検索結果の詳細のコンテナを表現したクラス
  • PtlSearchTextResultDetail: テキスト検索結果の詳細を表現したクラス
  • PtlSearchTextResultDetail.getQuadPoint(): テキスト検索した文字のQuadPointを取得する
  • PtlSearchTextResultDetail.isVerticalWriting(): テキスト検索でヒットした文字が縦方向にならんでいるかどうかを取得
  • PtlQuadPoint: PDFの矩形4隅座標を表現したクラス

サンプルコード

/*
	Antenna House PDF Tool API V8.0
	C++ Interface sample program

	概要:テキスト検索:正規表現での検索

	Copyright 2025- Antenna House, Inc.
*/

#include < PdfTk.h >
#include < stdio.h >

using namespace PdfTk;

int main(int argc, char* argv[])
{
	if (argc < 4) {
		printf("usage: SearchTextRegEx.exe in-pdf-file out-pdf-file keyword\n");
		return 1;
	}
	try
	{
		PtlParamInput input(argv[1]);
		PtlParamOutput output(argv[2]);
		PtlParamString keyword(argv[3]);

		PtlPDFDocument doc;

		// PDFファイルをロードします。
		doc.load(input);

		PtlPages& pages = doc.getPages();

		// ハイライト注釈の色
		PtlColorDeviceRGB colorRed(1.0f, 0.0f, 0.0f);

		// 検索の為のパラメータ
		PtlParamSearchText paramSearchText;

		paramSearchText.appendTextRegEx(keyword);
		paramSearchText.setTextType(PtlParamSearchText::TEXT_RAW);

		// 検索実行して検索結果コンテナ取得
		PtlSearchTextResults results = doc.searchText(paramSearchText);
		int numResults = results.getCount();
		for (int i = 0; i < numResults; ++i) {
			// 検索結果取得
			PtlSearchTextResult& result = results.get(i);
			// 検索に使用したキーワード
			PtlParamString keyword = result.getKeyword();
			//const char* keywordC = keyword.c_str();

			// ヒットしたページ番号
			int pageNumber = result.getPageNumber();
			PtlPage page = pages.get(pageNumber);
			PtlAnnots& annots = page.getAnnots();

			// 検索結果詳細コンテナ取得
			PtlSearchTextResultDetails& details = result.getResultDetails();
			int numDetails = details.getCount();
			for (int j = 0; j < numDetails; ++j) {
				// 検索結果詳細取得
				PtlSearchTextResultDetail& resultDetail = details.get(j);
				// 検索に使用したキーワードの部分文字列
				PtlParamString keyword = resultDetail.getKeyword();
				//const char* keywordC = keyword.c_str();
				// 検索に使用したキーワードの部分文字列を囲むQuadPoint
				PtlQuadPoint quad = resultDetail.getQuadPoint();
				// 検索に使用したキーワードの部分文字列が縦書きか
				bool verticalWriting = resultDetail.isVerticalWriting();

				// 文字列にハイライト注釈を付ける
				PtlAnnotHighlight annot;
				PtlQuadPoints& quads = annot.getQuadPoints();
				quads.append(quad);
				annot.setVerticalDirection(verticalWriting);
				annot.setColor(colorRed);
				annot.setMarkUpCA(0.5f);

				annots.append(annot);
			}
		}

		// ファイルに保存します。
		doc.save(output);

		printf("完了!\n");
	}
	catch (const PtlException& e)
	{
		fprintf(stderr, "Error code : %d\n %s\n", e.getErrorCode(), e.getErrorMessage().c_str());
		return 1;
	}
	return 0;
}

            
/*
    Antenna House PDF Tool API V8.0
    Java Interface sample program

    概要:テキスト検索:正規表現での検索

    Copyright 2025- Antenna House, Inc.
*/
package Sample;

import jp.co.antenna.ptl.PtlAnnotHighlight;
import jp.co.antenna.ptl.PtlAnnots;
import jp.co.antenna.ptl.PtlColorDeviceRGB;
import jp.co.antenna.ptl.PtlException;
import jp.co.antenna.ptl.PtlPDFDocument;
import jp.co.antenna.ptl.PtlPage;
import jp.co.antenna.ptl.PtlPages;
import jp.co.antenna.ptl.PtlParamInput;
import jp.co.antenna.ptl.PtlParamOutput;
import jp.co.antenna.ptl.PtlParamSearchText;
import jp.co.antenna.ptl.PtlQuadPoint;
import jp.co.antenna.ptl.PtlQuadPoints;
import jp.co.antenna.ptl.PtlSearchTextResult;
import jp.co.antenna.ptl.PtlSearchTextResultDetail;
import jp.co.antenna.ptl.PtlSearchTextResultDetails;
import jp.co.antenna.ptl.PtlSearchTextResults;

public class SearchTextRegEx {

	public static void main(String[] args) {
		// TODO 自動生成されたメソッド・スタブ
        if (args.length < 3)
        {
            System.out.println("usage: java SearchTextAndHighlight in-pdf-file out-pdf-file keyword");
            return;
        }

        try (PtlParamInput inputFile = new PtlParamInput(args[0]);
             PtlParamOutput outputFile = new PtlParamOutput(args[1]);
             PtlPDFDocument doc = new PtlPDFDocument())
        {
            // PDFファイルをロード
            doc.load(inputFile);

            try (PtlPages pages = doc.getPages()) // ページコンテナの取得
            {
                // ページコンテナが空かどうか
                if (pages.isEmpty())
                {
                    System.out.println("ページコンテナが空\n");
                    return;
                }

                try (PtlParamSearchText paramSearchText = new PtlParamSearchText();
                     PtlColorDeviceRGB colorRed = new PtlColorDeviceRGB(1.0f, 0.0f, 0.0f))
                {
                    // 検索設定
            		paramSearchText.appendTextRegEx(args[2]);
            		paramSearchText.setTextType(PtlParamSearchText.TEXT_TYPE.TEXT_RAW);

                    // 検索実行して検索結果コンテナ取得
                    try (PtlSearchTextResults results = doc.searchText(paramSearchText))
                    {
                        int numResults = results.getCount();
                        for (int i = 0; i < numResults; ++i)
                        {
                            // 検索結果取得
                            try (PtlSearchTextResult result = results.get(i))
                            {
                                // 検索に使用したキーワード
                                String keyword = result.getKeyword();

                                // ヒットしたページ番号
                                int pageNumber = result.getPageNumber();
                                try (PtlPage page = pages.get(pageNumber);
                                     PtlAnnots annots = page.getAnnots())
                                {
                                    // 検索結果詳細コンテナ取得
                                    try (PtlSearchTextResultDetails details = result.getResultDetails())
                                    {
                                        int numDetails = details.getCount();
                                        for (int j = 0; j < numDetails; ++j)
                                        {
                                            // 検索結果詳細取得
                                            try (PtlSearchTextResultDetail resultDetail = details.get(j))
                                            {
                                                // 検索に使用したキーワードの部分文字列
                                                String keywordD = resultDetail.getKeyword();

                                                try (PtlAnnotHighlight annot = new PtlAnnotHighlight();
                                                     PtlQuadPoints quads = annot.getQuadPoints())
                                                {
                                                    // 検索に使用したキーワードの部分文字列を囲むQuadPoint
                                                    try (PtlQuadPoint quad = resultDetail.getQuadPoint())
                                                    {
                                                        quads.append(quad);
                                                    }
                                                    // 検索に使用したキーワードの部分文字列が縦書きか
                                                    boolean verticalWriting = resultDetail.isVerticalWriting();
                                                    annot.setVerticalDirection(verticalWriting);

                                                    annot.setColor(colorRed);
                                                    annot.setMarkUpCA(0.5f);

                                                    annots.append(annot);
                                                }
                                            }
                                        }
                                    }
                                }
                            }
                        }
                    }
                }
            }

            // ファイルに保存します。
            doc.save(outputFile);
        }
        catch (PtlException pex) {
             System.out.println("PtlException : ErrorCode = " + pex.getErrorCode() + "\n  " + pex.getErrorMessage());
        }
        catch (Exception ex) {
            System.out.println(ex.getMessage());
            ex.printStackTrace();
        }
        catch (Error ex) {
            System.out.println(ex.getMessage());
            ex.printStackTrace();
        }
        finally {
            System.out.println("-- 完了 --");
        }

	}

}

            
/*
	Antenna House PDF Tool API V8.0
	.NET Interface sample program

	概要:テキスト検索:正規表現での検索

	Copyright 2025- Antenna House, Inc.
*/

using PdfTkNet;
using System;
using System.Xml;

namespace SearchTextRegEx
{
    class Program
    {
        static void Main(string[] args)
        {
            if (args.Length < 3)
            {
                Console.WriteLine("usage: SearchTextRegEx.exe in-pdf-file out-pdf-file keyword");
                return;
            }

            try
            {
                using (PtlParamInput inputFile = new PtlParamInput(args[0]))
                using (PtlParamOutput outputFile = new PtlParamOutput(args[1]))
                using (PtlPDFDocument doc = new PtlPDFDocument())
                {
                    // PDFファイルをロードします。
                    doc.load(inputFile);

                    // ページコンテナの取得
                    using (PtlPages pages = doc.getPages())
                    {
                        // ページコンテナが空かどうか
                        if (pages.isEmpty())
                        {
                            Console.WriteLine("ページコンテナが空");
                            return;
                        }
                        using (PtlParamSearchText paramSearchText = new PtlParamSearchText())  // 検索の為のパラメータ
                        using (PtlColorDeviceRGB colorRed = new PtlColorDeviceRGB(1.0f, 0.0f, 0.0f))
                        {
                            // 検索設定
                            paramSearchText.appendTextRegEx(args[2]);
                            paramSearchText.setTextType(PtlParamSearchText.TEXT_TYPE.TEXT_RAW);

                            // 検索実行して検索結果コンテナ取得
                            using (PtlSearchTextResults results = doc.searchText(paramSearchText))
                            {
                                int numResults = results.getCount();
                                for (int i = 0; i < numResults; ++i)
                                {
                                    // 検索結果取得
                                    using (PtlSearchTextResult result = results.get(i))
                                    {
                                        // 検索に使用したキーワード
                                        String keyword = result.getKeyword();
                                        // ヒットしたページ番号
                                        int pageNumber = result.getPageNumber();
                                        using (PtlPage page = pages.get(pageNumber))
                                        using (PtlAnnots annots = page.getAnnots())
                                        {
                                            // 検索結果詳細コンテナ取得
                                            using (PtlSearchTextResultDetails details = result.getResultDetails())
                                            {
                                                int numDetails = details.getCount();
                                                for (int j = 0; j < numDetails; ++j)
                                                {
                                                    // 検索結果詳細取得
                                                    using (PtlSearchTextResultDetail resultDetail = details.get(j))
                                                    {
                                                        // 検索に使用したキーワードの部分文字列
                                                        String keywordD = resultDetail.getKeyword();
                                                        // 文字列にハイライト注釈を付ける
                                                        using (PtlAnnotHighlight annot = new PtlAnnotHighlight())
                                                        using (PtlQuadPoints quads = annot.getQuadPoints())
                                                        {
                                                            // 検索に使用したキーワードの部分文字列を囲むQuadPoint
                                                            using (PtlQuadPoint quad = resultDetail.getQuadPoint())
                                                            {
                                                                quads.append(quad);
                                                            }
                                                            // 検索に使用したキーワードの部分文字列が縦書きか
                                                            bool verticalWriting = resultDetail.isVerticalWriting();
                                                            annot.setVerticalDirection(verticalWriting);

                                                            annot.setColor(colorRed);
                                                            annot.setMarkUpCA(0.5f);

                                                            annots.append(annot);
                                                        }
                                                    }
                                                }
                                            }
                                        }
                                    }
                                }
                            }
                        }
                    }

                    // ファイルに保存します。
                    doc.save(outputFile);
                }
            }
            catch (PtlException pex)
            {
                Console.WriteLine(pex.getErrorCode() + " : " + pex.getErrorMessageJP());
                pex.Dispose();
            }
            catch (Exception ex)
            {
                Console.WriteLine(ex.Message);
            }
            finally
            {
                Console.WriteLine("-- 完了 --");
            }
        }
    }
}

            
「準備中」


            

サンプルコードのダウンロードはこちら

実行例

コマンドラインでの実行例

SearchTextRegEx.exe C:\in\in.pdf C:\sav\outSearchTextRegEx.pdf ".を|文書"
完了!
java -jar SearchTextRegEx.jar C:\in\in.pdf C:\sav\outSearchTextRegEx.pdf ".を|文書"
-- 完了 --
SearchTextRegEx.exe C:\in\in.pdf C:\sav\outSearchTextRegEx.pdf ".を|文書"
-- 完了 --
「準備中」


出力結果イメージ

このサンプルでは検索のキーワードに".を|文書"を指定しています
出力されたPDFでは「(任意の1文字)を」または「文書」の箇所にハイライト注釈が追加されています

出力イメージ

サンプルコードのダウンロード

サンプルコード

サンプルで使用した入出力PDF