- PDFの文章プロパティ取得
- PDFの段落・行・文字情報取得
- PDFの表情報(行・セル)取得
- PDFから画像ファイル抽出
PDFの内部のテキスト、表、図などを幅広く再利用!
『PDFXML 変換ライブラリ V3.0』(以下、本ライブラリ)は、 PDFファイルを読み込み、内部のコンテンツ(テキスト・表・図・画像など)を平易なXML形式に変換して出力します。 各コンテンツの詳細な情報を取り出すことで、PDFデータをさまざまな用途に再利用できます。
- 重要なお知らせ:PDFマルチ変換ライブラリへの移行について
-
- 2025年3月7日をもって、本ライブラリのWindows 64 ビット版の単体販売は終了しました。Windows 64 ビット版は、『 PDF マルチ変換ライブラリ 』に含めて販売します。
- 本ライブラリのWindows 64 ビット版をご購入され、保守契約期間中の場合は『 PDF マルチ変換ライブラリ 』に無償で移行できます。
また、保守期限が切れてから1年以内であれば保守契約を遡って更新のうえ、『 PDF マルチ変換ライブラリ 』に無償で移行できます。
詳細は、弊社のシステム営業グループまでお問い合わせください。 - 本ライブラリのWindows 32 ビット版、及びLinux版の販売は継続します。
Antenna House PDFXMLの概要
本ライブラリが出力するXML形式を「PDFXML形式」と呼びます。
PDFXML形式はPDFのコンテンツをテキスト・表・画像などの情報単位にまとめ、分かりやすく扱いやすい表現に置き換えることで、データの再利用を容易にします。
PDFに含まれるコンテンツを扱いやすい形式に変換
PDFから取り出せる情報
段落・行・文字情報
- テキストを段落・行・文字ごとの情報に分類します。
- 段落・行・文字を囲む矩形の位置とサイズを出力します。
- インデント・行間・文字間の値を出力します。
- 文字情報(文字の大きさ・文字の色・文字のフォント・文字修飾(bold/italic、網かけ))を出力します。
表(行・セル)情報
- 線画などを使い一定のパターンで描画された領域を表とみなし、表情報を生成します。
- 表・行・セルの位置とそれらを囲む矩形のサイズを出力します。
- セル情報には段落・行・文字の情報を含んで出力します。
画像情報
- PDFに含まれる画像データは、外部ファイルとして出力します。
お知らせ
-
お知らせ2025年3月7日
-
Windows 64 ビット版の単体販売は終了しました。
-
改訂情報2024年11月28日
-
PDFXML 変換ライブラリ V3.0 改訂14版 をリリースしました。
→ 改訂情報ページ
-
改訂情報2024年6月13日
-
PDFXML 変換ライブラリ V3.0 改訂13版 をリリースしました。
→ 改訂情報ページ
-
改訂情報2024年4月11日
-
PDFXML 変換ライブラリ V3.0 改訂12版 をリリースしました。
→ 改訂情報ページ
-
改訂情報2023年11月9日
-
PDFXML 変換ライブラリ V3.0 改訂11a版 をリリースしました。
→ 改訂情報ページ
-
改訂情報2023年10月12日
-
PDFXML 変換ライブラリ V3.0 改訂11版 をリリースしました。
→ 改訂情報ページ
関連情報
お問い合わせ
- Webフォーム
- Webフォームからお問い合わせ
- 電子メール
- sis@antenna.co.jp