OEM販売のご相談
  • PDFの文章プロパティ取得
  • PDFの段落・行・文字情報取得
  • PDFの表情報(行・セル)取得
  • PDFから画像ファイル抽出

PDFXML 変換ライブラリ

PDFの内部のテキスト、表、図などを幅広く再利用!

『PDFXML 変換ライブラリ V3.0』(以下、本ライブラリ)は、 PDFファイルを読み込み、内部のコンテンツ(テキスト・表・図・画像など)を平易なXML形式に変換して出力します。 各コンテンツの詳細な情報を取り出すことで、PDFデータをさまざまな用途に再利用できます。

重要なお知らせ:PDFマルチ変換ライブラリへの移行について
  • 2025年3月7日をもって、本ライブラリのWindows 64 ビット版の単体販売は終了しました。Windows 64 ビット版は、『 PDF マルチ変換ライブラリ 』に含めて販売します。
  • 本ライブラリのWindows 64 ビット版をご購入され、保守契約期間中の場合は『 PDF マルチ変換ライブラリ 』に無償で移行できます。
    また、保守期限が切れてから1年以内であれば保守契約を遡って更新のうえ、『 PDF マルチ変換ライブラリ 』に無償で移行できます。
    詳細は、弊社のシステム営業グループまでお問い合わせください。
  • 本ライブラリのWindows 32 ビット版、及びLinux版の販売は継続します。

Antenna House PDFXMLの概要

本ライブラリが出力するXML形式を「PDFXML形式」と呼びます。
PDFXML形式はPDFのコンテンツをテキスト・表・画像などの情報単位にまとめ、分かりやすく扱いやすい表現に置き換えることで、データの再利用を容易にします。

PRイメージ
PDFのデータを再利用

PDFに含まれるコンテンツを扱いやすい形式に変換

PDFから取り出せる情報

段落・行・文字情報

  • テキストを段落・行・文字ごとの情報に分類します。
  • 段落・行・文字を囲む矩形の位置とサイズを出力します。
  • インデント・行間・文字間の値を出力します。
  • 文字情報(文字の大きさ・文字の色・文字のフォント・文字修飾(bold/italic、網かけ))を出力します。

表(行・セル)情報

  • 線画などを使い一定のパターンで描画された領域を表とみなし、表情報を生成します。
  • 表・行・セルの位置とそれらを囲む矩形のサイズを出力します。
  • セル情報には段落・行・文字の情報を含んで出力します。

画像情報

  • PDFに含まれる画像データは、外部ファイルとして出力します。
お知らせ
2025年3月7日

Windows 64 ビット版の単体販売は終了しました。

改訂情報
2024年11月28日

PDFXML 変換ライブラリ V3.0 改訂14版 をリリースしました。
改訂情報ページ

改訂情報
2024年6月13日

PDFXML 変換ライブラリ V3.0 改訂13版 をリリースしました。
改訂情報ページ

改訂情報
2024年4月11日

PDFXML 変換ライブラリ V3.0 改訂12版 をリリースしました。
改訂情報ページ

改訂情報
2023年11月9日

PDFXML 変換ライブラリ V3.0 改訂11a版 をリリースしました。
改訂情報ページ

改訂情報
2023年10月12日

PDFXML 変換ライブラリ V3.0 改訂11版 をリリースしました。
改訂情報ページ