PDFのメタデータとはなんですか? どうやって内容を確認できますか。
更新日:
PDFのメタデータとは
PDF文書(または、ドキュメント)のメタデータとは、文書のタイトル、著者、生成・変更日付のような、PDF文書の内容に関して、より上位の属性情報のことをいいます。
PDFのメタデータには次の二つの種類があります。
- PDF内のメタデータストリームというデータに格納するメタデータ
- PDF文書全体についての文書情報データ
メタデータストリーム
メタデータストリームはPDF 1.4以降で導入され、PDF文書レベルまたは文書の内部の部品ごとに対応付けて設定できます。
PDF文書レベルのメタデータストリームはPDFファイル内部にあるカタログ辞書(のMetadataキー)というデータに登録されます。 その内容はAcrobat(有料版)では、「文書のプロパティ」ダイアログの中央右にある「その他のメタデータ」ボタンをクリックすると表示されるダイアログで確認できます。Acrobat Readerでは「その他のメタデータ」ボタンは表示されません(Adobe Acrobat Reader 2024.001.20643で確認)。
文書レベルのメタデータストリームは通常のPDFではオプションですが、PDF/Aでは必須です。PDF/Aの準拠レベルなどの情報が保存されます。
メタデータストリームは、PDFファイル内の画像データやグラフィックスデータなどの部品毎にも設定できます。これは、他のツールで制作されたメタデータ付きの作品をPDFの中に埋め込むときなどに利用されます。
メタデータストリームのデータ構造はXML形式で、その詳細は、Extensible Metadata Platform (XMP)(ISO 16684-1:2019)によって規定されています。
(関連)PDF/Aとはなにか
文書情報データ
文書情報データはPDFファイル末尾の文書情報辞書に登録されます。Acrobat Reader などのPDF閲覧ソフトではPDFのプロパティとして表示されます。(例)
メタデータの項目
文書情報辞書の項目と文書レベルのメタデータストリームの項目の対応関係は次の表のとおりです。
項目 | 文書情報辞書 | メタデータストリーム |
---|---|---|
文書のタイトル | Title | dc:title |
文書の生成者の名前 | Author | dc:creator |
文書の主題 | Subject | dc:description |
文書に関連付けられるキーワード | Keywords | pdf:Keywords |
文書が他の形式からコンバートされたものである場合、元の文書を生成した準拠製品の名前 | Creator | xmp:CreatorTool |
この文書が他の形式からコンバートされたものである場合、PDF に変換した準拠製品の名前 | Producer | pdf:Producer |
文書が作成された日付と時刻 | CreationDate | xmp:CreateDate |
文書が最後に変更された日付と時刻 | ModDate | xmp:ModifyDate |
文書がトラッピング情報を含むように変更されているかどうかを示す | Trapped | pdf:Trapped |
メタデータストリームには著作権のステータス、著作権情報、著作権情報URLを登録もできます。
文書情報辞書の更新日が、メタデータストリームの日付よりも新しい場合、メタデータストリームを認識しないPDF編集ツールで変更されたと判断し、文書情報辞書で意味的に同等の項目の値を採用することになっています。
なお、PDF 2.0では、メタデータストリームが文書情報辞書よりも重要とされ、文書情報辞書は作成日(Creation Date)と更新日(Mod Date)を除いて非推奨となりました。