PDFをデータソースにしてExcel変換して業務効率向上!
PDFに保存されたデータを管理できるとしたら?
PDFによる資料授受が増えていませんか?以前は、紙による見積書や注文書を発送するやりとりが主でしたが、今ではPDFデータをメールに添付してやりとりするなどの変化が、多くの企業で見られると思います。
また、2022年の改正電子帳簿保存法への対応に伴って、請求書がPDFで届くケースも以前より増えたのではないでしょうか。
紙からスキャンされたデータではなく、システムから直接出力されたPDFであれば、保存されたデータをそのままコピーして扱うことにより、手入力によるミスを防ぎ、システム的に取り込むことができれば、作業の効率化にもつながります。
さらにこの作業自体がシステム化・自動化できれば、これまでこうした紙での帳票に必要だった発送などの作業を軽減して、別の作業へより注力することができます。
PDFで保管された帳票をExcelで集計
PDFは、閲覧やセキュリティに重点を置いたファイルフォーマットです。特に数字の内容が重要な、見積書・注文書・請求書はPDFで発行されるケースも多いです。
実際に会計システムへ登録するにあたっては、請求総額など特定の部分だけ分かればよい場合もあれば、表組の中から細かくデータの抽出が必要な場合もあります。
レイアウトによっては、PDFからのコピー&ペーストでExcelなどの表計算ソフトに取り込むことができる場合もありますが、多くの場合は単純なコピー&ペーストをしても、余計なデータを抽出してデータが崩れるなどが起こり得ます。
PDFからExcelにデータを落とし込むことができれば、PDF内のデータを様々な集計やシステム投入の役に立つデータ源にすることができます。
複数ページにまたがった表をExcelの1シートにしたい
PDFは、あくまでも印刷レイアウトを想定しているフォーマットの為、ページサイズに収まらない大きな表組が作成されている場合は、ページ数をまたいで表現しているときがあります。
ページをまたぐのはPDFの都合ですが、正確に確認したい場合は、PDFの内容を1つのページに集約するように再構成するか、あるいは表組自体をExcelに落とし込めばデータとして確認しやすくなります。
特定のページの表組の抽出や表組だけ印刷向きが異なるPDF
PDFが単純な単票ではなく、様々な資料の集合体となっている場合があります。1つのPDFファイルの中に入っているうちのデータ一覧が保存されている所だけを取り出してデータ化することで、手元で解析や集計に役立てたい場面があるのではないでしょうか。
また通常ドキュメントは縦方向の横書きでドキュメントの体裁がとられますが、表組の場合だけ印刷の向きが変わったり、場合によっては設定している用紙サイズ自体が、混在する場合もあったりします。
このように複雑なフォーマットを取っていると、閲覧する際も表示方向を都度回転させるなどの手間が発生し、データを抽出するツールが対応しておらず、方向が違う部分だけ別途出力をする、別紙として受領する等を行っているケースもあるのではないでしょうか。
PDFtoCellsで実現できること!
『PDFtoCells 変換ライブラリ(PDFtoCells)』では、PDFの表から、あるいはPDFの文字情報そのものを解析してExcelに変換することで、PDFに記録されたデータを集計等に活用することができるクラスライブラリです。
以下のような用途をもとに、現在の業務で抱えている課題を解決できる機能があるかどうか、ぜひご確認ください。
PDFからExcelを生成して集計や分析を可能に
『PDFtoCells』は、アンテナハウス独自の機能でPDFを解析しExcelにすることができます。本来PDFファイルには、Officeドキュメントのような表組の埋め込みが行われているわけではなく、PDFファイルから抽出するにしても文字データ・数字データから判断する必要があります。
アンテナハウスが培ってきたPDF変換技術により、PDF内部の情報を適切に判断し、Excelへの変換を実現します。.NET Core 3.1に対応したインターフェースを持つため、システムにPDFを読み込ませてExcelに変換する自動化処理を実装することも可能です。
セキュリティ上パスワードがかかったPDFも、あらかじめパスワードを呼び出し側で定義しておくことで、パスワード無しのPDFへ再度変換する等の手間なくPDFを変換することができます。
PDFを取り込む際は、XMLで記述されたオプション設定ファイルで細かく取り込み方法を定義することができます。オプション設定ファイルでは、例えば以下のようなカスタマイズが可能です。
- 変換するページの範囲指定
- ページの回転(表組などで印刷方向が変わるページへの対応、90°単位)
- 複数ページにまたがっている場合1シートに結合(通常1ページ1シート)
そのほかにもPDFからExcelに変換するにあたってのいくつかのオプションが用意されているので、業務要件に合わせて柔軟なPDFからExcelへの変換を実現することが可能です。
コマンドラインによって自動化や他システムからのコール
『PDFtoCells』は.NETインターフェースだけではなく、コマンドラインからも同様に利用することが可能です。コマンドラインでもXMLによるオプション設定ファイルの定義が可能な為、.NET開発環境でなくてもシンプルなツールや自動化処理、PHPやPythonなどへ組み込んでPDF活用を充実させることが可能です。
定型的な業務であれば、所定のフォルダにPDFを保存しておき、スケジュール機能でバッチを呼び出して自動変換させることや、RPAを使い一連の自動作業の中に組み込むことで、より業務の自動化や品質を高めることができます。
PDFレイアウトをExcelフォーマットで再現
『PDFtoCells』の特徴的な機能として、表組からのデータ抽出をするだけではなく、PDFドキュメントの中身を可能な限り正確なExcelフォーマットに変換することもできます。
例えば、課題管理表やスケジュール表のような形式でPDFに保存されている場合も、Excelのファイルフォーマットに変換することでテンプレートとして活用したり、元の内容を更新したりすることが可能となります。
課題管理表のようなものであれば縦長に、スケジュール表は時間軸によっては横長になり、PDFページをまたいで表現される場合もありますが、Excelに変換すれば、1シート上で表現できて視認性も高まります。
PDF上のフォントやセル色をそのまま再現することもできますし、オプションにより、フォント等の再現性よりも処理速度を優先した変換処理に変えることも可能です。業務や運用用途に合わせて変換方法を指定できます。
まとめ
『PDFtoCells』の主要な機能について説明いたしました。Excelによる集計や解析は、多くの企業の多くの場面で必要とされるものですので、PDFをデータソースとした仕組みが構築できることにより、業務改善や効率化が期待できる場合は、ぜひ『PDFtoCells』の導入をご検討ください。
また、アンテナハウスでは『PDFtoCells』以外にもPDFやOffice系ドキュメントの変換のほか、様々な業務ソリューションを支援する製品群をリリースしております。
業務に関する課題や改善についてお悩みの場合は、ぜひアンテナハウス公式サイトをご覧いただくか、アンテナハウスの営業窓口までお気軽にご連絡ください。
- 電子メール
- sis@antenna.co.jp