幅広いファイルと多言語に対応したテキスト抽出ソリューション!
さまざまなファイル形式のテキスト抽出を可能にするライブラリ
業務に関わる多くの文書が電子ファイルで作成・保存されており、作成する方法やシステムによって様々なファイル形式が存在します。
通常は特定のファイルを読み込むために作成元各社のソフトウェアが必要となってしまいます。オープンフォーマットであっても、各種フォーマットの解析が必要となります。
テレワークなどの新しい働き方やクラウドによるシステムの活用といった時代においては、こうした電子ファイルの複雑さは避けては通れない課題の一つといえます。その課題を解決する一つのソリューションとして、アンテナハウス『TextPorter』をご紹介します。
TextPorterは何ができる?
『TextPorter』は、さまざまなアプリケーションのファイルからテキストを抽出することができるサーバー組み込み型テキスト抽出エンジン、およびこれらを各種システムから活用可能なライブラリです。
現在利用されている最新版のファイル形式のサポートはもちろん、旧型式のフォーマットやEメールのファイル(msg、emlなど)やCAD形式のテキストの抽出にも対応しています。
また、Microsoft Officeやジャストシステム一太郎、PDFなど、通常固有のファイル読み込みには各作成元アプリケーションがインストールされた環境でなければファイルが読み込めません。
しかし、『TextPorter』ではアンテナハウス独自のエンジンを使用することで、作成元アプリケーションがインストールされていない環境でもファイルを読み込み、テキストを抽出することが可能です。
複数のファイル形式が混在する中でのシステム運用や、様々なファイル環境を統合管理するようなシステムでは、開発・保守の複雑性の解消やコスト抑制といった解決に役立つことができます。
また、『TextPorter』は様々な文字コードにも対応しています。日本語はもちろん、国際規格であるUTF-8・UTF-16のほか、中国語のGBコードやbig5、韓国語のKS C 5601にも対応しており、多言語対応が必要なシステムにおいても活用が可能です。
ここまでできる!TextPorterの対応ファイル
『TextPorter』では具体的には、以下のファイル形式に対応しています。一部、特定バージョンやファイル形式そのものについて、動作の制限が含まれる場合もありますので、詳細をご確認の場合は、アンテナハウス公式サイトまたはアンテナハウス担当窓口にご相談ください。
ライセンス製品
Microsoft (OpenOffice.org) |
Word、Excel、PowerPoint、RTF、Works2000、Visio、Outlook |
---|---|
ジャストシステム | 一太郎 |
富士通 | OASYS |
富士フィルムビジネスイノベーション | DocuWorks |
Lotus | Lotus1-2-3 |
Corel | QuarkXPress、WordPerfect Office、CorelPresentation9 |
AutoDesk | AutoCAD、IGES |
オープンフォーマット
eml、PDF、HTML、XML
アンテナハウス製品を組み合わせて電子化を一気に加速!
アンテナハウスでは、様々なファイル変換に関するサービス・ソリューションをご用意しています。『TextPorter』だけではなく、さらにほかのサービスを組み合わせることで、電子ファイルの取り扱い要件がさらに柔軟に実現できる可能性があります。
ここではいくつかの活用例をご紹介いたしますので、ぜひ導入やご利用システムの改善・課題解決のヒントになれば幸いです。
TextPorter+OSDCでOfficeファイルの中身を抽出・可視化
『Office Server Document Converter(OSDC)』は、Word・Excel・PowerPointなどのMicrosoft OfficeファイルやPDFを、独自エンジンによりPDFや画像形式へ変換することが可能なソリューションです。
『OSDC』と『TextPorter』を活用すると、Microsoft Officeがインストールされていない環境でもMicrosoft Officeファイル内の文字列を『TextPorter』でテキスト抽出して全文検索システムのインデックスデータとして利用し、『OSDC』の変換機能で画像形式にすることによって検索結果の内容をプレビューすることが可能となります。
画像形式にできれば、スマートフォンやタブレットも含めたほとんどの機器から、ブラウザなどのフリーソフトを使うことでプレビューすることができるようになります。
また、『OSDC』のPDFのセキュリティ(パスワード・印刷制限)を付けることで閲覧制限をかけることも可能となります。
テレワークなどによって、利用環境が様々に存在するなかでも効率と安全性を維持してドキュメントを管理するためのソリューションを様々に提供することができるようになります。
PDF Tool APIでPDF文書を活用するシステムへ
『PDF Tool API』は、サーバー上でPDFの加工・編集を行うことができるライブラリです。複数PDFファイルの結合・ページ編集や、特定のページの抽出、分割といったことが可能です。
また、PDFファイルそのものの情報を取得、PDF内の画像を画像ファイルとして抽出する、パスワード設定・PDF上の機能制限設定(閲覧制限・印刷制限など)・透かし印刷といったセキュリティ機能にも対応しています。
Webでの表示の最適化を行うことで表示時間を縮めることのできるリニアライズにも対応しています。
テキスト検索機能を使って必要箇所をシステム上で特定し、複数のPDFから新しいPDF資料を生成する(統合)、もしくは大きなPDFファイルから必要箇所だけ引用するためにページを削減した抜粋版を作成する(分割)といった動作が実現することができます。
統合・分割したPDFが高いセキュリティ要件を必要としているのであれば、PDFに対してパスワードの設定、印刷の制限、電子透かしを入れるなどの安全性を確保することもできるようになります。
クラウドやテレワーク、帳票電子化・長期保存に対応する!
業務をとりまく環境は昨今大きく変化しています。インターネットの高速化やブラウザの性能向上により、クラウドで業務を行うことが一般化してきました。
また、法律の改正により電子的に保存された帳簿・帳票にも法的な能力が認められるように整備されると同時に、活用側も長期保存やデータの完全性(適切に履歴が残り、改ざんがされていない事)が証明できる仕組みを用意しなければなりません。
そして、新型コロナウイルスまん延に伴うテレワークの増加など働き方が大きく変わる時代となりました。
環境に依存せず、ファイルにセキュリティ機能を付与できるPDFは、これからこのような情勢の中、さらに必要とされることが予想されます。
保有している文書が過去の経緯やシステムの移り変わりによって様々なフォーマットであったとしても、『TextPorter』を使うことでファイル形式に問わず抽出ができるようになり、『OSDC』を使うことでPDFに変換・セキュリティ機能を付与することができます。
さらに、電子署名を付与するソリューションや、PDF標準には無い独自のセキュリティ機能を付与することのできるソリューションも用意しており、各ソリューションはご利用の皆様の要望にお応えできるよう、アップデートを常に実施しております。
PDFやMicrosoft Officeファイルは便利な反面、時には悪意のある不正スクリプトを埋め込まれることによってマルウェア的な動作を行う場合があります。
もちろん、こういった動作をさせないためのアプリケーション側の設定やシステム的な対策を行う事は必要ですが、例えば『TextPorter』を使うことで、スクリプトが含まれているようなファイルからテキストだけを抽出し、『OSDC』を使うことで、無害化(注釈情報を変換しない設定が可能) されたPDFに変換するといった安全策を実装することも可能です。
このような不正スクリプトはAdobeやMicrosoftのアプリケーションを実行することで発生することが通常です。独自のエンジンで読み込み・変換をするアンテナハウス製品で実行することは、このような不正ソフトへの対策としても有効となります。
まとめ
『TextPorter』やアンテナハウス製のソリューションを通じた活用方法について紹介いたしました。ここでの紹介はあくまで一例であり、アンテナハウスでは他にも様々なファイル変換・PDFに関するソリューションをご用意しております。
ご利用・開発をしているシステムの課題や問題解決などお悩みがありましたら、解決できるソリューションをご提供できる可能性がありますので、ぜひお気軽に弊社までご相談いただければ幸いです。
- 電子メール
- sis@antenna.co.jp