PDFをWordやExcelに変換する方法は?
更新日:
このページの目的
PDFはWordやExcelなどで再利用したり、編集したりできないとお考えではありませんか?
実は、PDFファイルの多くは、変換ソフトウェアを使って、WordやExcelなどのオフィス・ファイルに変換して再利用できます。ここでは、他の人からもらったPDFや、自分や会社の同僚が昔作ったPDFの文章や画像を利用する方法と注意事項を整理してみました。
無料で使えるPDFからWordやExcelなどのOfficeファイルへの変換ソフトの評価版もご案内しています。
セキュリティが設定されていない:原則としてオフィス文書に変換できる
PDFからオフィスに変換できるかどうかは、セキュリティが設定されているかどうかで異なります。
PDFには作成者がセキュリティを設定できます。PDFの作成者がセキュリティを設定していなければ、PDFのままでWordや一太郎に変換できますが、PDFのセキュリティ設定で「内容のコピー」の項目が「許可しない」になっている場合、PDF内部からデータのコピーやデータの抽出ができないため、PDFのままでは変換処理を行えません。
- 変換できるPDF
-
- セキュリティの設定されていないPDF
- セキュリティは設定されているが「内容のコピー」の項目が「許可する」になっているPDF
- 変換できないPDF
-
- 閲覧パスワードが設定されていて、パスワードを知らされていないため、開けないPDF
- セキュリティの設定で「内容のコピー」が「許可しない」になっているPDF
- PDFのセキュリティ
-
PDFには、閲覧を制限するユーザーパスワード(閲覧パスワード)と、編集を制限するオーナーパスワード(編集パスワード)の2種類のセキュリティを設定できます。
ユーザーパスワードについてはPDFを開く際に、パスワードの入力を求められるため、容易に確認できますが、編集パスワードはPDFを開いただけでは確認できません。PDFに設定されている編集制限を確認するためには、Adobe Readerで次の操作を行う必要があります。
- Adobe ReaderでPDFを開く
- [ファイル]メニューから[プロパティ]を選択する
- [セキュリティ]タブを開く
(参考)PDFの標準セキュリティ機能
注意閲覧を制限するパスワードと編集を制限するパスワードが同時に設定されているPDFの場合、『瞬簡PDF 変換』では「内容のコピー」許可の有無にかかわらず編集を制限するパスワードによるセキュリティ解除が必要です。
セキュリティが設定されている:印刷→スキャンしてOCR処理する
変換できないPDFについても、一旦紙に印刷して、印刷結果をスキャナーで読み取って画像化すれば、OCR(光学式文字読取)で処理が可能となります。
画像をWordやExcelに変換できるOCRソフトはいろいろあります。アンテナハウスの『瞬簡PDF 変換』では、紙の原稿を直接スキャナーから読み取って画像化し、Word・Excel・Powerpoint・一太郎に変換する機能が備わっています。
PDFのセキュリティ設定が印刷不許可になっていると印刷ができませんので、この方法は使えません。どうしても変換したいならば、パソコンのディスプレイに表示した結果をスクリーン・キャプチャして、それを画像ファイルとして保存すると良いでしょう。
- OCRとは?
-
OCRとは画像化された文字(紙をスキャナーで取り込んだ文字等)を、コンピュータ上で扱える文字に変換する機能です。この機能を使えば、画像として保存されている文字を、編集可能な文字として出力できます。
ただし、OCRでは文字認識の誤りや、文字の種類(フォント)設定、大きさなどを完全に認識できませんので、どうしても変換の精度が落ちます。この認識精度は、スキャナーで画像化するときの条件によっても変わってきます。変換精度は画像の作り方にも依存します。
アンテナハウスの『瞬簡PDF 変換』には、画像化されたデータを変換する場合にテキスト・表・画像にしたい箇所をそれぞれ手動で設定して、より正確な変換をサポートする「OCR結果の補正」機能が備わっています。
OCR処理に影響する画像の解像度を操作画面上から変更して変換できるなど、使いやすい機能でOCRの認識精度を補完した変換を行うことができます。
→ 瞬簡PDF 変換 OCR変換機能
電子文書の方が電子化文書より精度の良い変換ができる
PDFには大きく分けて、電子化文書としてのPDFと電子文書としてのPDFの2種類があります。アンテナハウスのPDFからオフィスへの変換は、この2種類に対して異なる処理方法をとっており、一般には、電子文書の方がうまく変換できます。
電子化文書と電子文書
- 電子化文書としてのPDFとは
- 紙の書類をスキャナーなどで読み取って画像化し、それをPDFに変換したものです。文書の部分が画像です。
- 電子文書としてのPDFとは
- Officeなどのアプリケーションで作成した電子文書から、紙を経由しないで、PDFに出力したものです。文書の部分は画像ではありません。
電子化文書としてのPDFと電子文書としてのPDFではPDFとしての特性がまったく異なります。このためオフィス・ファイルへの適切な変換方法は異なります。
電子文書としてのPDFでも、DTPソフト(印刷デザイン専門のソフト)等で作成して文字をアウトライン化したようなPDFでは文字の情報がなくなってしまいますので、電子化文書と同じ扱いになります。
電子文書としてのPDFはPDF内部を解読して変換
この機能はアンテナハウスの『瞬簡PDF 変換』の独自機能です。
電子文書PDFの内部には、Adobe ReaderなどのPDF表示・印刷ソフトウェアがPDFをパソコンの画面などに可視化するための様々な情報が含まれています。
PDF内部の情報には、テキスト情報や、フォント設定(フォントファミリー、フォントサイズなど)をはじめ詳細なデータがありますが、これらを解読してOffice文書にします。次項で説明するOCR方式と比べて精度の高いオフィスファイルを作成できます。
電子化文書としてのPDFは、OCR機能で変換
電子化文書PDFの内部にはスキャナーなどで取り込んだ画像が含まれています。従って、OCR機能をもつ変換ソフトを使って画像部分をオフィス・ファイルに変換します。
フローチャート
以上の説明をフローチャートに整理してみました。
PDFに含まれる文書や画像の情報が、自分(同じ会社内)で作成したものでない場合、著作権が第三者に帰属しています。PDFからOffice文書への変換は複製に相当しますので、著作権侵害にならないようにご注意ください。
15日間無料で使えるPDFからExcelへの変換ソフトの評価版
PDFファイルのレイアウトを保ったまま Word、Excel、PowerPointなどのファイルに変換できるソフトの評価版を無料で配布しています。ぜひお試しください。