TextPorter 機能紹介:概要
『TextPorter』は、さまざまなアプリケーションのファイルからテキストを抽出する、クラウドコンピューティング時代のサーバ組込用テキスト抽出エンジンです。Microsoft Office, PDFなど主要なアプリケーション・ファイルを識別し、作成したアプリケーションがなくても、ファイルからテキストを抽出可能です。
主要なアプリケーション・ファイルからテキスト抽出
文書を作成したアプリケーションがなくても、指定したファイル、または埋め込まれたOLEオブジェクトからテキスト文字列、プロパティを取り出せます。
対応しているファイル形式は、 「抽出対象ファイル形式」 をご覧ください。
主要なアプリケーション・ファイルの識別
ファイルを作成したアプリケーション名称とそのバージョンを識別します。
さまざまな文字コードに対応
抽出するテキストの文字符号化方式は、下記の4タイプを切り替えることができます。また、テキストファイルの文字符号化方式や改行コードの種別を変換することができます。
国際規格 | ISO-10646-UCS-2、ISO-10646-UCS-4、UTF-8、UTF-16 |
---|---|
日本語 | Shift_JIS、Windows31J、EUC-JP、ISO-2022-JP、Shift_JIS-2004、ISO-2022-JP-2004、EUC-JIS-2004 |
英 語 | ISO-8859-1 |
中国語/韓国語 | GB18030、GBK、Big5、KS_C_5601_1987 |
Windows版で長いパスのファイルに対応
Windows版で260文字以上の長さのパスを処理できるようになりました。
- コマンドラインの実行例
- レジストリ キー の設定変更
\HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\FileSystem の値を"1"に設定 - ファイルパスの頭に "\\?\" プレフィックス を付けて実行する
app_ww \\?\C:\textporter\test\-----\sample.pdf
- レジストリ キー の設定変更