PDF、組版と文書変換のアンテナハウス株式会社

サイトマップ

スペース

タグ付きPDFとはどんなもの

更新日: 2018/1/15

タグ付きPDFという言葉を見かけるようになりましたが、タグ付きPDFとは一体どういったものなのでしょうか。

はじめに

欧米の政府関係機関においては、タグ付きPDFはPDFアクセシビリティの重要な要素として普及している。それに対して、日本ではタグ付きPDFについてはあまり注目されてこなかった。しかし、2016年4月より施行された障害者差別解消法では、官公庁・行政機関は、障害者より要求があったときは実施に伴う負担が過重でない範囲で情報をアクセシブルにすることが義務付けられている。こうしたことで日本でも官公庁や行政はタグ付きPDFの提供が始まっている。

タグ付きPDFとはなにか

文書の各部分に、部・章、見出し、引用、箇条書き、表などの構成上・意味上の役割を与えることを文書の構造化という。文書の構造化により、読み手が意味をより理解し易くなる。タグ付きPDFは、内部に文書構造を指定するタグを付与したPDFのことである。タグ付きPDFでは、PDFの中でテキストや画像などのコンテンツをマークで囲い、マークにタグを付与する。また、文書の階層や表などの構造を表すタグを定めて、構造を表すタグとコンテンツを表すタグを使ってタグのツリー構造(タグツリー)を作成する。

タグ付きPDFは必須機能では無くオプション機能である。そして、現在、作成され配布されているPDFの大部分はタグ付きPDFではない。この理由は次に述べるように、視覚的に読むだけならPDFの内部に文書構造を指定するタグを持たせる必要はないからである。

PDFはオフィスソフトなどで文書を編集した結果をプリンタで印刷する操作で作成するのが一般的であり、PDFは印刷物のデジタル表現である。印刷物においては、章・節などの区切りは改丁・改ページ・改段で、見出しは文字のサイズや行取りで、段落の種類は行頭・行末の余白でといったように視覚的なスタイル付けによって文書構造が表現されている。人間が文書の意味を理解するときは、こうした視覚情報を暗黙のうちに援用している。

タグ付きPDFでできること

タグ付きPDFが必要になるのは、PDFを視覚的に読むときではなく、PDF内部のデータを別の目的で使うときである。タグ付きPDFの仕組みを利用すると次のようなことができる。

PDFの内容の読み上げ順序の指定

PDFをコンピュータで読み上げるときは内部のテキストを順番に読む。PDFの内部でのテキストの並びと表示されるテキストの並びとは一致していないことがある。このとき画面の表示と読み上げ順が異なってしまう。タグツリーがあれば、ツリーの順番にタグを辿っていき、そのタグに結びつけられたコンテンツを読み上げることで、正しい読み上げ順序となる。

また、印刷されたページには、柱やページ番号のようにナビゲーションのための情報や、本文領域の上や下の罫線、本文と脚注の間の罫線、テキストボックスの枠線や背景など領域を判別しやすくするための情報などの修飾的情報がある。音声で読み上げる必要のない情報を区別して除外できる。

PDFを変換して再利用する

PDFの内部にセクション・見出し・表・段落などの論理的な構造の指定があれば、PDFからオフィスアプリケーションなどの編集用ファイルに戻すときにより適切な変換ができる。また、PDFからHTML(Webページ)に変換するときも、見出し・表・箇条書きのような論理的な構造を使って、より良い結果を得ることができる。

PDFのリフロー表示

タグ付きPDFで決めている標準タグは、Webページを記述するためのHTMLに類似している。タグ付きPDFに準拠するリーダーは、PDFを印刷レイアウトで表示するとともに、PDF内部に設定されているタグを使ってレイアウトして画面表示もできる。これによりPDFを、あたかもHTMLをスマホの画面上にブラウザで表示するように、画面の端でテキストを折り返して表示(リフロー表示という)ができる。(CAS-UB ブログ「PDFのリフロー表示。タグ付きPDFとタグの付いていないPDFの比較。」を参照)

アクセシビリティサポート

アクセリビリティサポートの中核は既に説明した読み上げ順序や論理構造であるが、さらにタグ付きPDFの仕組を使えば、①文書全体やマークした範囲の言語指定、②イメージ・数式などテキストに翻訳できない項目の代わりに読み上げるための代替テキストの設定、③略語・頭字語などに対する展開語(例えばISOという頭字語にInternational Organization for Standardization)の指定ができる。

タグ付きPDFの標準タグと属性

タグ付きPDFでは標準タグの種類を決めている。標準以外のタグを使うこともできるが、その場合は標準的なタグとの対応関係が分かるようにしなければならない。また、属性の標準も決めている。属性の多くはリフロー表示のためのレイアウト属性とPDFの内容を他の形式に変換する時に参照されるものである。他に、箇条書きのラベルと表のセルに関する属性もある。

標準タグはその役割によって分類されている。次にどのようなタグがあるかを示す。

グループ化のためのタグ

他のタグをグループ化するために使うタグである。タグツリーはトップレベルのタグを一つだけもつ。完全なドキュメントのときトップレベルのタグは、Documentとする。ドキュメントの断片のときPart、Art、Sect、Divのどれか一つをトップレベルのタグとするのが良い。

他のグループ化のタグには、ブロック引用(BlockQuote)、キャプション(Caption)、目次(TOC)、目次項目(TOCI)、インデックス(Index)がある。

ブロックレベルのタグ

段落(P)、見出し(H、H1~H6)、箇条書き(L、LI、Lbl、LBody)のようにドキュメントの行を積み重ねていく方向に配置するテキストやその他の内容領域を示す。

テーブルのためのタグ

テーブル(Table)タグは、ブロックレベルのタグである。下位のタグとしては、テーブル行(TR)、テーブルヘッダーセル(TH)、テーブルデーターセル(TD)、テーブルヘッダー(THead)、テーブルボディ(TBody)、テーブルフッター(TFoot)がある。これらはテーブルの内部を構造化するものでブロックレベルのタグではない。

テーブルの標準属性

テーブルは行と列から構成されるが、幅広い表の構造を表現するにはセル結合などのための機能も必要である。このためにRowSPan(自然数)、ColSpan(自然数)、Headers(配列)、Scope(名前)、Summary(文字列)といった属性が使える。

行内のためのタグ

テキストの一部分を表すタグである。行内で文字の進行方向に積み重ねる。スパン(Span)、引用(Quote)、ノート(Note)、参照(Reference)、目録エントリー(BibEntry)、コード(Code)、リンク(Link)、注釈(Annot)がある。

イラストのためのタグ

イラストタグは図(Figure)、数式(Formula)、フォーム(Form)のどれかである。イラストが文書内の段落の一部にあるときはFigureタグを使って表現する。

タグ付きPDFの例

次のような一ページの簡単なPDFをタグ付きPDFにする例を示す。

PDFのページ内容

この文書は、見出し1とその本文、見出し2とその本文、画像のキャプションと画像、表のキャプションと表、という順序になっている。本文領域の上にヘッダー、下にページ番号が印刷されている。

PDFのコンテントには、例えば、次のようにマークアップできる。

コンテンツツリー

タグ付きPDFでタグツリーをどのように作るかは一意では無く自由度が高い。ここではルートタグは、Sectとし、見出し1と本文、見出し2と本文、画像、表とキャプションの4ブロックがすべて兄弟関係と考えてタグを付ける。第一階層はすべてルートタグ(Sect)の子供とする。

こうして作成したタグツリーは次のようになる。

タグツリー

タグ付きPDFを利用するPDFプロファイル仕様

PDFの全機能はあまりにも多い。そこで、利用者の立場から用途を絞った仕様が提案されている。こうした機能の使い方を定める仕様をプロファイル仕様という。タグ付きPDFは、PDFのプロファイル仕様である長期保存(PDF/Aファミリー)やPDFのアクセシビリティー(PDF/UA)の一部として採用されている。


お問い合わせは

本ページへのご意見・ご質問は、info@antenna.co.jpまでお気軽にお問合せください。


あなたにはこんな記事もおすすめ! PDF資料室
スペース