TextPorter V5.2 改訂情報
このページでは『TextPorter V5.2』の改訂情報と、アップデータをご提供いたします。
TextPorter V5.2 MR9
2016年08月09日
追加/修正内容
dmc_commの修正
- 上位モジュールでlibxml2をリンクすると保護違反となる問題に対応。
- UTF-8のテキストをWINDOWS-31Jと判定する問題に対応。
PDF(dmc_txpdf, dmc_pdfexploremp)の修正
- テキストフィールドで抽出されない文字列がある問題に対応。
- 不正な署名フィールドがあった場合に、抽出処理を中断していた問題に対応。
Excel(dmc_txxlsx, dmc_txxlsx2010)
- OLE3オプションでエラーを返さない場合がある問題に対応。
- 一部ファイルでcrash終了問題に対応。
Lotus1-2-3(dmc_txwk4)
oasys(dmc_txoa2)
改訂版配布サービスの対象
改訂版の配布方法
下記リンクをクリックしてアップデータをダウンロードしてください。
アップデート方法
ダウンロードしたファイルを解凍後、必要なディレクトリ/フォルダ/ファイルをコピーしてください。
TextPorter V5.2 MR8
2015年06月04日
追加/修正内容
全体
- "Multi Charsets"と誤判定されるテキストに対応。
- MacWrite IIに誤判定される問題に対応。
PDF(dmc_txpdf, dmc_pdfexploremp)の修正
- 文字化けが発生するPDFファイルに対応。
- 例外が発生して処理が中断する問題に対応。
- スペース変換でToUnicode Cmapに対応。
- 音声の注釈を持つPDFで保護違反になる問題に対応。
AutoCAD 2007(dmc_txdxf2k), AutoCAD 2010(dmc_txdwg2010)の修正
- ランタイムエラーが発生するAutoCADファイルに対応。
Excel(dmc_txxlsx, dmc_txxlsx2010, dmc_txxlsx2013)
Word(dmc_txdocx, dmc_txdocx2010, dmc_txdocx2013)
PowerPoint (dmc_txpptx, dmc_txpptx2010, dmc_txpptx2013)の修正
- DMC_GETTEXT_OPT_OLE3指定時、エラーとなるOLE埋め込みがあってもエラーが返らない問題に対応。
MacWrite II(dmc_txwrt)の修正
改訂版配布サービスの対象
改訂版の配布方法
V5.2 MR9の公開に伴い、ダウンロードは終了しました。
TextPorter V5.2 MR7
2014年06月10日
追加/修正内容
全体
- Solaris8, 9のサポートを廃止してSolaris10以降の対応とする。
PDF(dmc_pdfexploremp)の修正
- PDFのプロパティ抽出で文字が化ける問題に対応。
- PDFのポップアップノートで文字化が化ける問題に対応。
AutoCAD 2007(dmc_txdwg2007), AutoCAD 2010(dmc_txdwg2010)の修正
- 保護違反で落ちるAutoCADファイル(異常ファイルの可能性あり)に対応。
Excel(dmc_txxls)の修正
- U+0080からU+00FFまでの文字が化けるパターンがある問題に対応。
DocuWorks(dmc_txdxdw), DocuWorksV7(dmc_txxdw7)の修正
- DocuWorks V7にてV4形式で保存した文書が文字化けする問題に対応。
- DocuWorks V7にてプロパティが文字化けする問題に対応。
メール(dmc_txmsg)の修正
改訂版配布サービスの対象
改訂版の配布方法
V5.2 MR8の公開に伴い、ダウンロードは終了しました。
TextPorter V5.2 MR6
2013年12月20日
追加/修正内容
全体
- 無限ループチェックの閾値を0x40000から0x80000に変更。
共通部分の修正(AHCommonTextPorter)
- ICUを最新版52.1に更新。
ただし、Solaris SPARC版は32bit/64bitとも更新しない。
共通部分の修正(dmc_comm)
PDF(dmc_pdfexploremp)の修正
- infoオブジェクトが重複していてメタ情報が取得できない問題に対応。
- フォントの定義がフォント辞書にない場合に、定義されてないエラー7000になる問題に対応。
- ファイル辞書の/UFが不正な場合に、落ちる問題に対応。
- AES暗号の復号でクラッシュするケースに対応。
- 文書情報の文字化けの改善。
- メモリリーク対応。
Word(dmc_txdoc)の修正
- コールバックで保護違反になる問題に対応。
- オプションDMC_GETTEXT_OPT_OLE3を指定したときに、途中でエラーが発生しても終了コードに反映されなかった問題に対応。
- OleOutOfLimitエラーが途中で発生したときにエラーコードを返せないときがあった問題に対応。
AutoCAD 2000(dmc_txdwg2k)の修正
AutoCAD 2007(dmc_txdwg2007)の修正
AutoCAD 2010(dmc_txdwg2010)の修正
メール(dmc_txeml)の修正
Kingsoft WPS 97, 2000, 2001, 2002, 2003(dmc_txkswps)の修正
PDF(dmc_txpdf)の修正
PowerPoint(dmc_txppt)の修正
- 無限ループになる問題に対応。
- オプションDMC_GETTEXT_OPT_SHFTAGを指定したときにLinuxでセグメンテーションエラーが起きる問題に対応。
- オプションDMC_GETTEXT_OPT_OLE3を指定したときに、途中でエラーが発生しても終了コードに反映されなかった問題に対応。
- スライドマスタの抽出ができないファイルがあった問題に対応。
- メモリリーク対応。
RAR(dmc_txrar)の修正
Visio(dmc_txvsd)の修正
WordPerfect 7/8/9(dmc_txwpd)の修正
Mac Write II(dmc_txwrt)の修正
DocuWorks(dmc_txxdw)の修正
Excel(dmc_txxls)の修正
- オプションDMC_GETTEXT_OPT_OLE3を指定したときに、OLE階層エラーを上位に渡そうとしたが途中でエラーとなってテキスト抽出できない場合があった問題に対応。
- オプションDMC_GETTEXT_OPT_OLE3を指定したときに、途中でエラーが発生しても終了コードに反映されなかった問題に対応。
- メモリリーク対応。
改訂版配布サービスの対象
改訂版の配布方法
V5.2 MR7の公開に伴い、ダウンロードは終了しました。
TextPorter V5.2 MR5
2013年07月22日
追加/修正内容
共通部分の修正(dmc_comm)
- AutoDetectに失敗するWord文書がある問題に対応。
Word(dmc_txdoc)の修正
- OLE階層エラーがあってもコールバックされていない。または、OLE階層限度内でもOLE階層エラーでコールバックしていた問題に対応。
PowerPoint(dmc_txppt)の修正
- OLE階層エラーがあってもコールバックされていない。または、OLE階層限度内でもOLE階層エラーでコールバックしていた問題に対応。
Excel(dmc_txxls)の修正
- Linux 64bitでセグメンテーション違反になるExcelファイルに対応。
- OLE階層エラーがあってもコールバックされていない。または、OLE階層限度内でもOLE階層エラーでコールバックしていた問題に対応。
Excel 2007(dmc_txxlsx)の修正
- 異常終了するファイルに対応。
- シートデータが改行されずに出力される問題に対応。
PDF(dmc_pdfexploremp)の修正
- CIDから3文字のunicodeに変換するTounicodeCmapに不具合があったので対応。
- 入力ストリームの読み込みチェックを強化。
- 特定のPDFで文字が途中までしか抽出されない問題に対応。
- Linuxで、セグメンテーションエラーが発生する問題に対応。
- 破損したPDFファイル、かつ、ファイルサイズが200バイト以下の場合や、オブジェクトの数が0の場合に例外が発生していた問題に対応。
- 文字が消えたり、単語間空白が入らない場合がある問題に対応。
- XRefStmが読めず、テキスト抽出に失敗する問題に対応。
PDF(dmc_txpdf)の修正
- エラー21となるPDFファイルに対応。
- OLE階層エラーがあってもコールバックされていない。または、OLE階層限度内でもOLE階層エラーでコールバックしていた問題に対応。
Office 2007(dmc_txdocx, dmc_txpptx, dmc_txxlsx)の修正
- OLE階層エラーがでる文書で、出力階層内の文書が抽出されない問題に対応。
Office 2010(dmc_txdocx2010, dmc_txpptx2010, dmc_txxlsx2010)の修正
- OLE階層エラーがでる文書で、出力階層内の文書が抽出されない問題に対応。
一太郎(dmc_txjtd)の修正
- 一太郎で、DMC_GETTEXT_OPT_OLE2が指定されていないときOLEファイルの抽出がエラーになる問題に対応。
- OLE階層エラーがあってもコールバックされていない。または、OLE階層限度内でもOLE階層エラーでコールバックしていた問題に対応。
DocuWorks(dmc_txxdw)の修正
改訂版配布サービスの対象
改訂版の配布方法
V5.2 MR6の公開に伴い、ダウンロードは終了しました。
TextPorter V5.2 MR4
2013年01月23日
追加/修正内容
サンプルのapp_*の修正
- サンプルのapp_ww.exeなどapp_*で、終了コードとして、成功なら0、失敗なら0以外(実際はエラーの個数)を返すようにした。
Java(dmcjava.dll)の修正
- JavaインターフェースでgetDMCFileInfoV5Wが呼べなかった点を修正。
共通部(dmc_comm)、アーカイブ関係(dmc_txlzh, dmc_txrar, dmc_txzip)の修正
- Linuxで、mount.cifsしたディレクトリのファイルをテキスト抽出できない問題に対応(statすると-1が返ることが多い)。
ファイル判別(dmc_dtct)の修正
- Office2013のファイル識別が出来る用に修正、ただし抽出は不可。
共通部(dmc_txif)の修正
- 日本語ファイル名でDMC_GetPaeText_V4を呼ぶとエラーコード2001が返る問題 に対応。
Excel(dmc_txxls)の修正
- -p DMC_GETTEXT_OPT_CSV1を指定したとき、"が\"で出る問題に対応。
PDF(dmc_pdfexploremp)の修正
- PDFのプロパティ情報が127文字しか取得できなかった問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
V5.2 MR5の公開に伴い、ダウンロードは終了しました。
TextPorter V5.2 MR3
2012年10月29日
追加/修正内容
PDF(dmc_pdfexploremp)の修正
- /Annot /AP /N に必要な/Subtypeが存在しない不正なPDFでクラッシュする問題に対応。
DocuWorks(dmc_txxdw, dmc_txxdw7)の修正
- 内部圧縮されたファイルのプロパティ抽出でエラー3007になる問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
V5.2 MR4の公開に伴い、ダウンロードは終了しました。
TextPorter V5.2 MR2
2012年07月27日
追加/修正内容
共通部分の修正
- AHCommonTextPorter: Excel関係に影響。表示形式が「$#,##0,,"M";[赤]-$#,##0,,"M"」に設定されているセルが存在し、セル内に数値が入力されている場合、無限ループする問題に対応。
- dmc_txif: 存在しないファイルパスの入力でエラー2001になる問題に対応。
ファイルの存在チェックをして、なければエラー21を返す。
PDF(dmc_pdfexploremp)の修正
- /annotの/DRでフォントが定義されているPDFで、テキスト抽出ができなかった問題に対応。
- マルチスレッドでテキストが抽出できない場合があった問題に対応。
Excel(dmc_txxls), Excel 2007(dmc_txxlsx), Excel 2010(dmc_txxlsx2010)の修正
AutoCAD 2010(dmc_txdwg2010)の修正
AutoCAD関係(dmc_txdxf2k,dmc_txdxf2kb,dmc_txdxf14,dmc_txdxf14b,dmc_txdxf2007,dmc_txdxf2010)の修正
- ブロックネームをコピーする際、ヒープ破壊が起きる問題に対応。
AutoCAD 2011/2012のDXF/DWGの動作確認
- V5.2 MR2では、AutoCAD 2011/2012のDXF/DWGのテキスト抽出が可能なことを動作確認しました。
AutoCAD 2010/2011/2012は、同じカテゴリとして識別されます。
Visio(dmc_txvsd)の修正
- 拡張子がなくディレクトリが'.'を含むときにスタックオーバーフローする問題に対応。
zip(dmc_txzip)の修正
- エラー6003が出る.zipファイルがある問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
V5.2 MR3の公開に伴い、ダウンロードは終了しました。
TextPorter V5.2 MR1
2012年03月08日
追加/修正内容
共通部分の修正
- dmc_dtct: Unicodeのmsgファイルで識別できないものがあった問題を修正。
- dmc_txif: ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。
- サンプルのapp_ww, app_ll, app_ss, app_x86ss: DMC_GetTextStream_V4, DMC_GetPageTextStream_V4を実行しても何も出力されない場合がある問題に対応。
PDF(dmc_pdfexploremp)の修正
- 1ページに大量(4000個以上)のXObjectがあると処理が終わらない問題に対応。
- Trailer のID に ’)’が存在する場合に、暗号の解除ができなかった問題に対応。
Excel 2007(dmc_txxlsx)の修正
- ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。OoxOdfUtilの修正による。
- OLE階層制限のエラー(4005)を返してなかった問題に対応。
Excel 2010(dmc_txxlsx2010)の修正
- ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。OoxOdfUtilの修正による。
- OLE階層制限のエラー(4005)を返してなかった問題に対応。
Word 2007(dmc_txdocx)の修正
- ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。OoxOdfUtilの修正による。
- タブが出力されない問題に対応。
- OLE階層制限のエラー(4005)を返してなかった問題に対応。
Word 2010(dmc_txdocx2010)の修正
- ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。OoxOdfUtilの修正による。
- タブが出力されない問題に対応。
- OLE階層制限のエラー(4005)を返してなかった問題に対応。
PowerPoint 2007(dmc_txpptx)の修正
- ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。OoxOdfUtilの修正による。
- OLE階層制限のエラー(4005)を返してなかった問題に対応。
PowerPoint 2010(dmc_txpptx2010)の修正
- ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。OoxOdfUtilの修正による。
- OLE階層制限のエラー(4005)を返してなかった問題に対応。
DocuWorks(dmc_txxdw, dmc_txxdw7)の修正
- モディファイするとプロパティが出力されない問題に対応。
アーカイブファイル(dmc_txlzh, dmc_txrar, dmc_txzip)の修正
- ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。
HTML(dmc_txhtml)の修正
- 文字実体参照で始まるタイトルが適切に扱えない問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
V5.2 MR2の公開に伴い、ダウンロードは終了しました。
TextPorter V5.2
2011年12月02日
追加/修正内容
機能追加
- Outlook 2003のUnicodeに対応
- Outlook 2007/2010に対応
エンジンは、dmc_txmsg2007, dmc_txmsg2010
- OpenOffice.org 3.3に対応
識別文字列(DocFormat)は、従来と同じ。
- Libre Office 3.3/3.4に対応
識別文字列(DocFormat)は、OpenOffice.orgと同じ。
- Visio 2010に対応
識別文字列(DocFormat)は、"Visio 2003/2007/2010"に変更。
PDFExplorer(dmc_pdfexploremp)の修正
- 巨大なコンテンツストリームでAccess Violationが発生する場合があるので、メモリ確保のチェックを強化。
- 画像に重複するクリップパスがある場合、問題が発生しうるので対処。
- グラフィック状態のスタックが不正なPDFでクラッシュする場合に対処。
- Contentsの解凍で、異常に大きなコンテンツになり、メモリー不足が発生する場合に対処。
- ストリングが異常に長い不正なPDFに対処。PDFRefarence「Appendix C」に従い、ストリングの長さが32,767以上なら、解析処理から抜けるようにした。
- Solaris 8で非常に処理が遅いPDFファイルがあるのに対処。
RTF(dmc_txrtf)の修正
- Outlook 2002でhtml指定して出力した.msgファイル(OLE複合ファイル)に大きなRTF(HTMLが記述されている)が入っている場合に対処。現状は、64KBまで対処。
メール(dmc_txeml)の修正
- dmc_txeml : 保護違反になるデータに対応。
改訂版配布サービスの対象
改訂版の配布方法
V5.2 MR1の公開に伴い、ダウンロードは終了しました。