PDFtoCells 変換ライブラリ V1.1機能紹介:PDFからExcelに表書式を再現
PDFからExcelに表書式を再現!
PDFの表データをExcelで編集して再利用するためには、文字や数字のデータとともに行・列など表書式に関する情報を変換することが必要です。
しかし紙の印刷レイアウトを電子的に再現し可視化することを目的としたPDFには表を定義する情報が存在しないため、Excelでの再利用を難しいものにしています。
本ライブラリは、弊社がこれまで培ってきたPDF変換技術により、PDF内のテキスト情報と線・画像などのグラフィックス情報を解析して行・列やセルの表書式を生成し、Excel形式で出力する機能を実装しています。
.NETインターフェイス
本ライブラリは、.NET 8 対応のクラスライブラリです。
本ライブラリが提供する主なメソッドを以下に示します。
メソッド名 | 説 明 |
---|---|
SetEnvironment | ライブラリの格納パスをプロセス内環境変数に設定します[必須]。 本ライブラリを使用する前には必ず呼び出してください。 |
SetDocumentPath | 変換元PDFファイルのファイル名を指定します[必須]。 パスワードで保護されたPDFの場合は、解除するためのパスワード文字列を合わせて指定します。パスワードは32バイト以内でなければなりません。 |
SetOutputFilePath | 変換先ファイル名を指定します[必須]。 |
SetFormatType | 変換先ファイルのファイル形式を英大文字で指定します[必須]。 本バージョンで指定可能なファイル形式は以下のみです。 @XLSX(Excel ブック形式(xlsx)に変換) |
SetOptionFilePath | オプション設定ファイル(変換条件を記述したXML形式ファイル)を指定します。 |
SetPageRange | 変換対象とするページ範囲を指定します。 (例:”1-3, 5, 7, 10-12”) |
SetConvFontW | 変換時にフォント情報から文字幅を取得しないで処理速度を優先したい場合に指定します。 |
ChangeWhiteTextColor | PDFで白に設定されている文字色を別の色(RGB値)に変更します。 |
SetClippingText | PDFでクリッピングパスが付加されたテキストはパス内のテキストのみ変換し、パス外のテキストは無視します。 |
SetClippingTextAdd | PDFでクリッピングパスが付加されたテキストはパス内のテキストを変換し、パス外のテキストは末尾に変換します。 |
SetNotUseIndent | セルの左端とテキスト先頭との距離をインデントで調整するか、半角空白を挿入して調整するか指定します。 |
SetNotUseAlignment | セルの水平方向の文字配置に文字揃えを出力するかどうかを指定します。 |
SetMinVerticalLineLength | 指定した長さ以下の垂直線を無視し、Excelで縦罫線に変換しません。 |
SetMinHorizontalLineLength | 指定した長さ以下の水平線を無視し、Excelで横罫線に変換しません。 |
SetNoImage | 変換先にイメージ(画像)を出力するかしないかを指定します。 |
SetRightIndent | 右詰めの場合に、セルの右端とテキストの右端の距離を右インデントで調整します。 |
SetNoAdjustLineHeight | 変換時に表の行の高さを補正するかしないかを指定します。 |
DoConvert | 変換処理を実行します。正常に終了した場合は、0を戻します。 |
コマンドラインインターフェイス
本ライブラリの機能をコマンドラインにより使用できます。
コマンドライン インターフェイスで指定可能なパラメータを以下に示します。
パラメータの書式 | 説 明 |
---|---|
-d 変換元ファイルパス名 | 変換元PDFファイルのファイル名を指定します[必須]。 |
-o 変換先ファイルパス名 | 変換先ファイルのファイル名を指定します[必須]。 |
-p ファイル形式 | 変換先ファイルのファイル形式を指定します[必須]。 本バージョンで指定可能なファイル形式は以下のみです。 @XLSX(Excel ブック形式(xlsx)に変換) |
-i オプション設定ファイルパス名 | オプション設定ファイル(変換条件を記述したXML形式ファイル)を指定します。 |
-pwd パスワード文字列 | PDFのセキュリティ設定を解除するパスワードを指定します。 |
-page ページ範囲 | 変換対象とするページ範囲を指定します。ページ範囲は複数指定できます 。 |
-nfw | 変換時にフォントの文字幅情報を取得しないことで処理速度を優先したい場合に指定します(PDFによって効果が異なります)。 |
-noimg | PDF内のイメージ(画像)を出力しません。 |
-chwtxt 変更する文字色(RGB) | PDFで白色の文字色があるとき、指定した色に変更して変換します。 |
-cptxt | クリッピングパスの付加されたテキストはパス内のテキストのみ変換し、パス外のテキストは無視します。 |
-cptxtadd | クリッピングパスの付加されたテキストはパス内のテキストを変換し、末尾にパス外のテキストを変換します。 |
-noindent | セル内の文字の開始位置を半角空白により調整して変換します。 |
-noalign | セル内のテキストの横位置を文字揃えを使用しないで変換します。 |
-minvline 最小値 | セルの縦罫線に変換する垂直線の長さの最小値を設定し、指定した長さ以下の垂直線を無視して変換します。 |
-minhline 最小値 | セルの横罫線に変換する水平線の長さの最小値を設定し、指定した長さ以下の水平線を無視して変換します。 |
-rightindent | 右詰めの場合にセル右端とテキスト右端との距離を右インデントにより調整して変換します。 |
-noadjustlineh | 表の行高を補正しないで変換します。 |
-v | 本ライブラリのバージョン情報を表示します。 |
-ow | 変換先に同名ファイルがあるとき、強制的に上書きしたい場合に指定します。 |