透明テキスト付きPDFって何? どうやって作るの?
更新日:
このページの目的
スキャンした画像だけのPDFにもかかわらず、文字を検索したり、コピーが可能な場合があります。こうしたPDFは透明テキスト付きと呼ばれ、紙文書の電子化に欠かせない仕組みのひとつと考えられています。
このページでは、透明テキスト付きPDFの活用場面や、どのように作るのかについて解説します。
透明テキスト付きPDFとは
透明テキスト付きPDF(Searchable PDFと呼ばれることもあります)は、PDFのページ上で目に見える文字の位置に、目に見えない(透明の)テキストを重ねて配置したPDFファイルです(注)。
ここでは、文字とは人間が読み書きする字の形をした図形(ベクトル画像またはビットマップ画像)のことをいい、テキストとは文字をコンピュータで扱える番号(文字コードといいます)で表現したデータのことを意味しています。
透明テキスト付きPDFが一番有効になるのは、PDFファイルの内部に記録されている内容を全文検索して、その前後に記載されている内容を閲覧したいときでしょう。また、PDFファイルの内容をテキストとして取り出したいときや音声で読み上げたいときにも有効です。
特殊な使い方としては、PDFファイルを提供した相手についての情報を、相手に気が付かれないように透明テキストで埋め込んでおき、万一PDFファイルが情報漏洩した時に、埋め込んだ情報を使って、渡した相手を特定できるかもしれません。
どのようなPDFファイルを透明テキスト付きにするか
通常、透明テキスト付きにするのは、PDFファイルの内容が写真のようなビットマップ画像で作られているときです。PDFファイルの内容を検索するためには、内容がコンピュータで検索できるようになっていなければなりません。
しかし、ビットマップ画像はテキストとして扱えないため、スキャナーで作成した画像のみのPDFではテキスト検索ができません。
そこで、文字にあたる部分に透明テキストを付加することで、内容を検索できるようになります。
透明テキスト付きPDFから、テキストを抽出することもできます。例えば、上に示したPDFを表示して、「すべてを選択」すると次のように透明テキストを選択できます。
テキストをコピーしてメモ帳に張り付けると次のようになっています。この例で示した透明テキスト付きPDFは、スキャナー機能をもつ複合機付属のユーティリティ(OCR)で作成されたものですが、見出しや画像の一部分がテキストになっていないことが分かります。
XSL-FO&CSS2種類のスタイルシートをサポートする XML 高機能自動組版ソフトウェア nANTEoNNrA mHOUaSEtterV7 AH Formatte「は、XSL-FO を使った組版やcss を使った XML/HTML が使える、組版・印刷ソフトウェアです。 国内外でAH Formatter はもっとも優れたXSしFO 準拠製品との 評価を確立しており、多言語を必要とするマニュアルや情報誌、教材、 論文、官報など幅広くこ使用いいただいています。 AH Formatte「はWebページ用に普及している技術であるcss もこ利用いただけます。 マニュアルのような複雑なレイアウトにはXSL-FO を、比較的単純なレイアウトには直感的な css をお薦めしています。 園大規模文書の組版が可能なため、数万ページに及ぶようなテク二カルマニュアルなどの 組版に最適です。 '高速に組版処理し、POF を生成するため、Web でのPDF配信など、 ウェブアプリケーションなどへの応用にも最適です。 園70以上の言語に対応しており、40言語以上でのハイフネーション機能を標準で内蔵して います。このため複数の言語が混在している文書の生成などにも最適です。 鵬印刷用のPDF/X や長期保存用のPDF/A、アクセシブルなタグ付きPOF などさまざまな POF形式の出力が可能です。また、しおりを作成したり、POF中に他のPDF の任意の ページを埋め込むことも可能です。 'SVG. MathML. EMF. WMF. 0GM画像は、ベクタのままPOF中に描画します。 このため画質の劣化がー切なく、表現豊かな文書組版が可能です。 ■豊富な独自拡張要素・プロパティで、より複雑なレイアウトが表現可能です。 'その他、新機能や製品マニュアルはWebページでこ覧いただけます。(URL は裏面記載) Web ぺー AH Formatter を使った自動組版のシステム例
なお、OfficeなどのアプリケーションからPDFドライバーなどで作成したPDFファイル(一般にはボーンデジタルPDFといいます)には、作成時にテキストが保存されているので、透明テキスト付きPDFにする意味はありません。
透明テキスト付きPDFの活用場面
透明テキスト付きPDFが活用される典型的な例は、紙の資料をスキャナーでスキャンして取り込んだ結果をPDFファイルとして保存するときです。このほか、領収書などの取引証憑をスマホで撮影して電子化し保存する場合も同様です。
ボーンデジタルPDFの中には、文字をテキストとしてコピーしたり、検索できないことがあるかもしれません。その場合は、検索できない箇所だけを透明テキスト付きPDFにすると良いでしょう。
透明テキスト付きPDFの作り方
OCRで透明テキスト付きPDFを作るためのステップは次のようになります。
- (PDFファイルをもとにするとき)PDFファイルのページをビットマップ画像に変換します。
- その画像に対して、文字認識ソフト(OCR)を使って、文字を認識して、コンピュータで扱えるテキストにします。
- OCRで作成したテキストに透明の属性を設定して、もとの画像の上の文字と同じ位置に重ねてPDFファイルを作成します。
スキャナーで読み取って画像にするときは 1.のステップが不要で、2.のステップから開始します。
なお、現在、市場で販売されているスキャナー機能付き複合機やスキャナー専用機の多くには、スキャンした画像をOCR処理して透明テキスト付きPDFにするソフトウェアが添付されています。このような製品を使えば、上記のステップを意識することなく、スキャンした結果を透明テキスト付きPDFとして保存できます。
透明テキストの編集
OCRでは文字認識の精度は必ずしも100%ではありませんので、テキストにした結果、誤った文字になってしまうことがあるかもしれません。透明テキスト付きPDFではテキストが透明になっているため、OCRの認識結果が正しいかどうかは一見してもわかりません。
そこで、透明テキストを目に見えるようにして編集する機能があると便利です。できることなら、透明テキスト付きPDFを配布する前に編集ソフトでチェックしたいものです。