OEM販売のご相談

TextPorter 機能紹介:概要

『TextPorter』は、さまざまなアプリケーションのファイルからテキストを抽出する、クラウドコンピューティング時代のサーバ組込用テキスト抽出エンジンです。Microsoft Office, PDFなど主要なアプリケーション・ファイルを識別し、作成したアプリケーションがなくても、ファイルからテキストを抽出可能です。

主要なアプリケーション・ファイルからテキスト抽出

文書を作成したアプリケーションがなくても、指定したファイル、または埋め込まれたOLEオブジェクトからテキスト文字列、プロパティを取り出せます。

対応しているファイル形式は、 「抽出対象ファイル形式」 をご覧ください。

主要なアプリケーション・ファイルの識別

ファイルを作成したアプリケーション名称とそのバージョンを識別します。

さまざまな文字コードに対応

抽出するテキストの文字符号化方式は、下記の4タイプを切り替えることができます。また、テキストファイルの文字符号化方式や改行コードの種別を変換することができます。

国際規格 ISO-10646-UCS-2、ISO-10646-UCS-4、UTF-8、UTF-16
日本語 Shift_JIS、Windows31J、EUC-JP、ISO-2022-JP、Shift_JIS-2004、ISO-2022-JP-2004、EUC-JIS-2004
英 語 ISO-8859-1
中国語/韓国語 GB18030、GBK、Big5、KS_C_5601_1987

Windows版で長いパスのファイルに対応

Windows版で260文字以上の長さのパスを処理できるようになりました。

  • コマンドラインの実行例
    • レジストリ キー の設定変更
      \HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\FileSystem の値を"1"に設定
    • ファイルパスの頭に "\\?\" プレフィックス を付けて実行する
      app_ww \\?\C:\textporter\test\-----\sample.pdf