PDFのメタデータとはなんですか? どうやって内容を確認できますか。

更新日:

PDFのメタデータとはなんですか? どうやって内容を確認できますか。

PDFのメタデータとは

PDF文書(または、ドキュメント)のメタデータとは、文書のタイトル、著者、生成・変更日付のような、PDF文書の内容に関して、より上位の属性情報のことをいいます。

PDFのメタデータには次の二つの種類があります。

  1. PDF内のメタデータストリームというデータに格納するメタデータ
  2. PDF文書全体についての文書情報データ

メタデータストリーム

メタデータストリームはPDF 1.4以降で導入され、PDF文書レベルまたは文書の内部の部品ごとに対応付けて設定できます。

PDF文書レベルのメタデータストリームはPDFファイル内部にあるカタログ辞書(のMetadataキー)というデータに登録されます。 その内容はAcrobat(有料版)では、「文書のプロパティ」ダイアログの中央右にある「その他のメタデータ」ボタンをクリックすると表示されるダイアログで確認できます。Acrobat Readerでは「その他のメタデータ」ボタンは表示されません(Adobe Acrobat Reader 2024.001.20643で確認)。

「文書のプロパティ」ダイアログ
「文書のプロパティ」ダイアログ
「その他のメタデータボタン」をクリックすると表示される画面
「その他のメタデータボタン」をクリックすると表示される画面

文書レベルのメタデータストリームは通常のPDFではオプションですが、PDF/Aでは必須です。PDF/Aの準拠レベルなどの情報が保存されます。

メタデータストリームは、PDFファイル内の画像データやグラフィックスデータなどの部品毎にも設定できます。これは、他のツールで制作されたメタデータ付きの作品をPDFの中に埋め込むときなどに利用されます。

メタデータストリームのデータ構造はXML形式で、その詳細は、Extensible Metadata Platform (XMP)(ISO 16684-1:2019)によって規定されています。

(関連)PDF/Aとはなにか

文書情報データ

文書情報データはPDFファイル末尾の文書情報辞書に登録されます。Acrobat Reader などのPDF閲覧ソフトではPDFのプロパティとして表示されます。(例)

「文書のプロパティ」ダイアログ

メタデータの項目

文書情報辞書の項目と文書レベルのメタデータストリームの項目の対応関係は次の表のとおりです。

項目 文書情報辞書 メタデータストリーム
文書のタイトル Title dc:title
文書の生成者の名前 Author dc:creator
文書の主題 Subject dc:description
文書に関連付けられるキーワード Keywords pdf:Keywords
文書が他の形式からコンバートされたものである場合、元の文書を生成した準拠製品の名前 Creator xmp:CreatorTool
この文書が他の形式からコンバートされたものである場合、PDF に変換した準拠製品の名前 Producer pdf:Producer
文書が作成された日付と時刻 CreationDate xmp:CreateDate
文書が最後に変更された日付と時刻 ModDate xmp:ModifyDate
文書がトラッピング情報を含むように変更されているかどうかを示す Trapped pdf:Trapped

メタデータストリームには著作権のステータス、著作権情報、著作権情報URLを登録もできます。

文書情報辞書の更新日が、メタデータストリームの日付よりも新しい場合、メタデータストリームを認識しないPDF編集ツールで変更されたと判断し、文書情報辞書で意味的に同等の項目の値を採用することになっています。

なお、PDF 2.0では、メタデータストリームが文書情報辞書よりも重要とされ、文書情報辞書は作成日(Creation Date)と更新日(Mod Date)を除いて非推奨となりました。

参考資料

ISO 16684-1:2019 Graphic technology Extensible metadata platform (XMP)
Part 1: Data model, serialization and core properties

XMP namespace definitions

XMP Specification

XMP™ (Extensible Metadata Platform)仕様についてのメモ

関連情報