2–1 『PDFtoCells 変換ライブラリ』の概要

本製品は、PDFをMicrosoft Excel(ブック形式:xlsx)に変換するための.NET Core 3.1対応のクラスライブラリです。

PDFは紙の印刷レイアウトを電子的に再現することを主眼に策定された仕様であるため、PDF内のデータを自由に編集したり、別のアプリケーションに取り込んで再利用するなど、データを表示以外の目的で活用することが難しい側面があります。
本製品は、弊社独自の機能でPDFを読み込み、内部の情報を解析することで、表の書式情報を持たないPDFから編集可能なMicrosoft Excelブック形式(xlsx)に変換します。これにより、PDFのデータを自由に編集し、再利用することを可能にします。

本製品には、以下の特長があります。

  • 本製品は、PDFをMicrosoft Excel (ブック形式:xlsx)に変換します。
  • PDFの文字と垂直線・水平線の位置から表のレイアウト・書式を判断し、Excelに変換します。
  • PDFのページごとにシートを生成し、全体をExcelブック形式に保存します。
  • パスワードが設定されたPDFは、あらかじめセキュリティ解除することで変換できます。
  • PDFで表が複数ページにまたがるような場合、一定の条件を満たせばExcelで1シートにまとめて変換できます。
  • PDFの任意のページ範囲のみを指定してExcelに変換できます。
  • PDFに回転したページが含まれる場合、任意のページ範囲に回転角度(90°単位)を指定してExcelに変換できます。
  • PDFのページ内に矩形領域を指定し、その範囲内のみをExcelに変換できます。
  • PDFでクリッピングパスが付加されたテキストはパス内のテキストのみを変換できます。また、必要に応じパス外のテキストも追加して変換できます。
  • PDFで文字色に白色が設定されていた場合に、文字色を変更して変換できます。
  • セル内の横方向の文字位置をインデント・空白のいずれかで調整し変換できます。
  • 数字、カンマ、小数点、通貨記号などが組み合わされ数値と判断されたテキストはセル内に右詰めで変換します。右詰めの場合に、セル右端とテキスト右端の距離を右インデントで調整し変換できます。
  • 行の高さは、1行に含まれるセル内の文字サイズにより決定します。これにより画像などオブジェクトの位置がセルとずれてしまう場合は、行高の補正をしないで変換することも可能です。
  • PDFでテキストに文字のアウトラインを重ねて描画しているような場合、任意の長さの水平・垂直線を無視して変換し、不要なセルを作成しないようにできます。
  • .NETインタフェースにより、お客様のアプリケーションにPDFからExcelへの変換機能を組み込み利用できます。
  • コマンドライン インタフェースにより、簡単な指定でPDFからExcelへの変換機能を利用できます。