TextPorter V5.0 改訂情報
このページでは『TextPorter V5.0』の改訂情報と、アップデータをご提供いたします。
TextPorter V5.0 MR13
2015年05月15日
追加/修正内容
全体
- "Multi Charsets"と判定されるテキストがある問題に対応。
- MacWrite IIに誤判定されるデータファイルに対応。
PDF(dmc_pdfexploremp)の修正
- 文字化けが発生するPDFファイルに対応。
- 例外が発生して処理が中断するPDFファイルに対応。
- CIDが0x0000 の文字がスペースに変換をToUnicode Cmapに文字が定義されていれば、Cmapに従ってUnicodeに変換。
AutoCAD (dmc_txdxf2k)の修正
- ランタイムエラーが発生するAutoCADファイルに対応。
Excel(dmc_txxls)の修正
- 無限ループになるファイルに対応。
- 表示形式による指数指定時にExcelと文字列が異なる。
Word(dmc_txdoc)の修正
- Linux環境で、-p DMC_GETTEXT_OPT_OUT 指定でセグメンテーション違反が発生するWord 98ファイルに対応。
MacWrite II(dmc_txwrt)の修正
- 誤判定されたファイルで無限ループになる問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
下記リンクをクリックしてアップデータをダウンロードしてください。
アップデート方法
ダウンロードしたファイルを解凍後、必要なディレクトリ/フォルダ/ファイルをコピーしてください。
TextPorter V5.0 MR12
2014年06月17日
追加/修正内容
全体
- Solaris8, 9のサポートを廃止してSolaris10以降の対応とする。
PDF(dmc_pdfexploremp)の修正
- PDFのプロパティ抽出で文字が化ける問題に対応。
- PDFのポップアップノートで文字化が化ける問題に対応。
AutoCAD 2007(dmc_txdwg2007)の修正
- 保護違反で落ちるAutoCADファイル(異常ファイルの可能性あり)に対応。
Excel(dmc_txxls)の修正
- U+0080からU+00FFまでの文字が化けるパターンがある問題に対応。
DocuWorks(dmc_txdxdw)の修正
- DocuWorks V7にてV4形式で保存した文書が文字化けする問題に対応。
Mac Write II(dmc_txmsg)の修正
改訂版配布サービスの対象
改訂版配布サービスの対象
改訂版の配布方法
V5.0 MR13の公開に伴い、ダウンロードは終了しました。
TextPorter V5.0 MR11
2013年12月24日
追加/修正内容
全体
- 無限ループチェックの閾値を0x40000から0x80000に変更。
共通部分の修正(AHCommonTextPorter)
- ICUを最新版52.1に更新。
ただし、Solaris SPARC版は32bit/64bitとも更新しない。
共通部分の修正(dmc_comm)
PDF(dmc_pdfexploremp)の修正
- infoオブジェクトが重複していてメタ情報が取得できない問題に対応。
- フォントの定義がフォント辞書にない場合に、定義されてないエラー7000になる問題に対応。
- ファイル辞書の/UFが不正な場合に、落ちる問題に対応。
- AES暗号の復号でクラッシュするケースに対応。
- 文書情報の文字化けの改善。
- メモリリーク対応。
Word(dmc_txdoc)の修正
- コールバックで保護違反になる問題に対応。
- オプションDMC_GETTEXT_OPT_OLE3を指定したときに、途中でエラーが発生しても終了コードに反映されなかった問題に対応。
- OleOutOfLimitエラーが途中で発生したときにエラーコードを返せないときがあった問題に対応。
AutoCAD 2000(dmc_txdwg2k)の修正
AutoCAD 2007(dmc_txdwg2007)の修正
メール(dmc_txeml)の修正
Kingsoft WPS 97, 2000, 2001, 2002, 2003(dmc_txkswps)の修正
PDF(dmc_txpdf)の修正
PowerPoint(dmc_txppt)の修正
- 無限ループになる問題に対応。
- オプションDMC_GETTEXT_OPT_SHFTAGを指定したときにLinuxでセグメンテーションエラーが起きる問題に対応。
- オプションDMC_GETTEXT_OPT_OLE3を指定したときに、途中でエラーが発生しても終了コードに反映されなかった問題に対応。
- スライドマスタの抽出ができないファイルがあった問題に対応。
- メモリリーク対応。
RAR(dmc_txrar)の修正
Visio(dmc_txvsd)の修正
WordPerfect 7/8/9(dmc_txwpd)の修正
Mac Write II(dmc_txwrt)の修正
DocuWorks(dmc_txxdw)の修正
Excel(dmc_txxls)の修正
- オプションDMC_GETTEXT_OPT_OLE3を指定したときに、OLE階層エラーを上位に渡そうとしたが途中でエラーとなってテキスト抽出できない場合があった問題に対応。
- オプションDMC_GETTEXT_OPT_OLE3を指定したときに、途中でエラーが発生しても終了コードに反映されなかった問題に対応。
- メモリリーク対応。
改訂版配布サービスの対象
改訂版の配布方法
V5.0 MR12の公開に伴い、ダウンロードは終了しました。
TextPorter V5.0 MR10
2013年07月29日
追加/修正内容
共通部分の修正(dmc_comm)
- AutoDetectに失敗するWord文書がある問題に対応。
Word(dmc_txdoc)の修正
- OLE階層エラーがあってもコールバックされていない。または、OLE階層限度内でもOLE階層エラーでコールバックしていた問題に対応。
PowerPoint(dmc_txppt)の修正
- OLE階層エラーがあってもコールバックされていない。または、OLE階層限度内でもOLE階層エラーでコールバックしていた問題に対応。
Excel(dmc_txxls)の修正
- Linux 64bitでセグメンテーション違反になるExcelファイルに対応。
- OLE階層エラーがあってもコールバックされていない。または、OLE階層限度内でもOLE階層エラーでコールバックしていた問題に対応。
Excel 2007(dmc_txxlsx)の修正
- 異常終了するファイルに対応。
- シートデータが改行されずに出力される問題に対応。
PDF(dmc_pdfexploremp)の修正
- CIDから3文字のunicodeに変換するTounicodeCmapに不具合があったので対応。
- 入力ストリームの読み込みチェックを強化。
- 特定のPDFで文字が途中までしか抽出されない問題に対応。
- Linuxで、セグメンテーションエラーが発生する問題に対応。
- 破損したPDFファイル、かつ、ファイルサイズが200バイト以下の場合や、オブジェクトの数が0の場合に例外が発生していた問題に対応。
- 文字が消えたり、単語間空白が入らない場合がある問題に対応。
- XRefStmが読めず、テキスト抽出に失敗する問題に対応。
PDF(dmc_txpdf)の修正
- エラー21となるPDFファイルに対応。
- OLE階層エラーがあってもコールバックされていない。または、OLE階層限度内でもOLE階層エラーでコールバックしていた問題に対応。
Office 2007(dmc_txdocx, dmc_txpptx, dmc_txxlsx)の修正
- OLE階層エラーがでる文書で、出力階層内の文書が抽出されない問題に対応。
Office 2010(dmc_txdocx2010, dmc_txpptx2010, dmc_txxlsx2010)の修正
- OLE階層エラーがでる文書で、出力階層内の文書が抽出されない問題に対応。
一太郎(dmc_txjtd)の修正
- 一太郎で、DMC_GETTEXT_OPT_OLE2が指定されていないときOLEファイルの抽出がエラーになる問題に対応。
- OLE階層エラーがあってもコールバックされていない。または、OLE階層限度内でもOLE階層エラーでコールバックしていた問題に対応。
DocuWorks(dmc_txxdw)の修正
改訂版配布サービスの対象
改訂版の配布方法
V5.0 MR11の公開に伴い、ダウンロードは終了しました。
TextPorter V5.0 MR9
2013年01月23日
追加/修正内容
サンプルのapp_*の修正
- サンプルのapp_ww.exeなどapp_*で、終了コードとして、成功なら0、失敗なら0以外(実際はエラーの個数)を返すようにした。
Java(dmcjava.dll)の修正
- JavaインターフェースでgetDMCFileInfoV5Wが呼べなかった点を修正。
共通部(dmc_comm)、アーカイブ関係(dmc_txlzh, dmc_txrar, dmc_txzip)の修正
- Linuxで、mount.cifsしたディレクトリのファイルをテキスト抽出できない問題に対応(statすると-1が返ることが多い)。
ファイル判別(dmc_dtct)の修正
- Office2013のファイル識別が出来る用に修正、ただし抽出は不可。
共通部(dmc_txif)の修正
- 日本語ファイル名でDMC_GetPaeText_V4を呼ぶとエラーコード2001が返る問題 に対応。
Excel(dmc_txxls)の修正
- -p DMC_GETTEXT_OPT_CSV1を指定したとき、"が\"で出る問題に対応。
PDF(dmc_pdfexploremp)の修正
- PDFのプロパティ情報が127文字しか取得できなかった問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
V5.0 MR10の公開に伴い、ダウンロードは終了しました。
TextPorter V5.0 MR8
2012年10月29日
追加/修正内容
PDF(dmc_pdfexploremp)の修正
- /Annot /AP /N に必要な/Subtypeが存在しない不正なPDFでクラッシュする問題に対応。
DocuWorks(dmc_txxdw, dmc_txxdw7)の修正
- 内部圧縮されたファイルのプロパティ抽出でエラー3007になる問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
V5.0 MR8の公開に伴い、ダウンロードは終了しました。
TextPorter V5.0 MR7
2012年08月01日
追加/修正内容
共通部分の修正
- AHCommonTextPorter: Excel関係に影響。表示形式が「$#,##0,,"M";[赤]-$#,##0,,"M"」に設定されているセルが存在し、セル内に数値が入力されている場合、無限ループする問題に対応。
- dmc_txif: 存在しないファイルパスの入力でエラー2001になる問題に対応。
ファイルの存在チェックをして、なければエラー21を返す。
PDF(dmc_pdfexploremp)の修正
- /annotの/DRでフォントが定義されているPDFで、テキスト抽出ができなかった問題に対応。
- マルチスレッドでテキストが抽出できない場合があった問題に対応。
Excel(dmc_txxls), Excel 2007(dmc_txxlsx)の修正
AutoCAD関係(dmc_txdxf2k,dmc_txdxf2kb,dmc_txdxf14,dmc_txdxf14b,dmc_txdxf2007,dmc_txdxf2010)の修正
- ブロックネームをコピーする際、ヒープ破壊が起きる問題に対応。
Visio(dmc_txvsd)の修正
- 拡張子がなくディレクトリが'.'を含むときにスタックオーバーフローする問題に対応。
zip(dmc_txzip)の修正
- エラー6003が出る.zipファイルがある問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
V5.0 MR8の公開に伴い、ダウンロードは終了しました。
TextPorter V5.0 MR6
2012年03月15日
追加/修正内容
共通部分の修正
- dmc_dtct: Unicodeのmsgファイルで識別できないものがあった問題を修正。
- dmc_txif: ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。
- サンプルのapp_ww, app_ll, app_ss, app_x86ss: DMC_GetTextStream_V4, DMC_GetPageTextStream_V4を実行しても何も出力されない場合がある問題に対応。
PDF(dmc_pdfexploremp)の修正
- 1ページに大量(4000個以上)のXObjectがあると処理が終わらない問題に対応。
- Trailer のID に ’)’が存在する場合に、暗号の解除ができなかった問題に対応。
Excel 2007(dmc_txxlsx)の修正
- ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。OoxOdfUtilの修正による。
- OLE階層制限のエラー(4005)を返してなかった問題に対応。
Excel 2010(dmc_txxlsx2010)の修正
- ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。OoxOdfUtilの修正による。
- OLE階層制限のエラー(4005)を返してなかった問題に対応。
Word 2007(dmc_txdocx)の修正
- ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。OoxOdfUtilの修正による。
- タブが出力されない問題に対応。
- OLE階層制限のエラー(4005)を返してなかった問題に対応。
Word 2010(dmc_txdocx2010)の修正
- ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。OoxOdfUtilの修正による。
- タブが出力されない問題に対応。
- OLE階層制限のエラー(4005)を返してなかった問題に対応。
PowerPoint 2007(dmc_txpptx)の修正
- ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。OoxOdfUtilの修正による。
- OLE階層制限のエラー(4005)を返してなかった問題に対応。
PowerPoint 2010(dmc_txpptx2010)の修正
- ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。OoxOdfUtilの修正による。
- OLE階層制限のエラー(4005)を返してなかった問題に対応。
アーカイブファイル(dmc_txlzh, dmc_txrar, dmc_txzip)の修正
- ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題に対応。
HTML(dmc_txhtml)の修正
- 文字実体参照で始まるタイトルが適切に扱えない問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
V5.0 MR7の公開に伴い、ダウンロードは終了しました。
TextPorter V5.0 MR5
2012年01月16日
追加/修正内容
PDF(dmc_pdfexploremp)の修正
- 巨大なコンテンツストリームでAccess Violationが発生する場合があるので、メモリ確保のチェックを強化。
- 画像に重複するクリップパスがある場合、問題が発生しうるので対処。
- グラフィック状態のスタックが不正なPDFでクラッシュする場合に対処。
- Contentsの解凍で、異常に大きなコンテンツになり、メモリー不足が発生する場合に対処。
- ストリングが異常に長い不正なPDFに対処。PDFRefarence「Appendix C」に従い、ストリングの長さが32,767以上なら、解析処理から抜けるようにした。
- Solaris 8で非常に処理が遅いPDFファイルがあるのに対応。
メール(dmc_txeml)の修正
- 保護違反になるデータに対応。
- テンポラリファイルが残る現象に対応。
RTF(dmc_txrtf)の修正
- Outlook 2002でhtml指定して出力した.msgファイル(OLE複合ファイル)に大きなRTF(HTMLが記述されている)が入っている場合に対処。現状は、64KBまで対処。
Visio(dmc_txvsd)の修正
- 文字列を得ている部分でデータの文字列長を無検査だったものに対応。
DocuWorks(dmc_txxdw)の修正
- モディファイするとプロパティが出力されない問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
V5.0 MR6の公開に伴い、ダウンロードは終了しました。
TextPorter V5.0 MR4
2011年06月07日
追加/修正内容
共通部分の修正
- dmc_comm: 判定ではねられるWordファイルがあったのを修正。
HTML(dmc_txhtml)の修正
改訂版配布サービスの対象
改訂版の配布方法
V5.0 MR5の公開に伴い、ダウンロードは終了しました。
TextPorter V5.0 MR3
2011年02月09日
追加/修正内容
共通部分の修正
- dmc_txif: アーカイブファイルでのUTF-8出力で余分な0xBFを出していた点を修正。
- dmc_txif: 対象のファイルがオープンできないときのメモリリークを修正。
PDF(dmc_txpdf)の修正
- dmc_txpdf: 横長ページのときの不具合対処。
Excel 2003まで(dmc_txxls)の修正
- dmc_txxls: 長い文字列が分割されているときに文字化けするのを修正。
電子メール(dmc_txeml)の修正
XML(dmc_txxml)の修正
zip(dmc_txzip)の修正
- '/'で終わるパス、すなわちファイルのないディレクトリだけのエントリがあったときに発生するメモリリークを修正。
改訂版配布サービスの対象
改訂版の配布方法
V5.0 MR4の公開に伴い、ダウンロードは終了しました。
TextPorter V5.0 MR2
2010年07月22日
追加/修正内容
共通部分の修正
- dmc_comm: OLEの判定でディレクトリ数をshortで計算していたが、32Kオーバーの値になるファイルがあったので、intに修正。
- dmc_dtct: .xhtmlファイルを通るようにした。
Excel 2007(dmc_txxlsx)の修正
- DMC_GetProperty_V5で、日本語ファイルが使えなかった問題を修正。
Word 2007(dmc_txdocx)の修正
- DMC_GetProperty_V5で、日本語ファイルが使えなかった問題を修正。
PowerPoint 2007(dmc_txpptx)の修正
- DMC_GetProperty_V5で、日本語ファイルが使えなかった問題を修正。
PDF(dmc_txpdf)の修正
- dmc_txpdf: より自然な単語分割になるようにした。
dmc_txpdf: PDFの仕様書にしたがって、マイナス記号とハイフン記号を区別するようにした。PDF内のエンコーディングに関して、正しく処理してない部分があったのを修正した。この結果、マイナス記号が〓として抽出されたり、〓が?として抽出されるPDFが出てくるが、それはPDFが正しく作られてないのが原因である。
dmc_txpdf: 文字列長の計算をコンパイラ・ライブラリ非依存にした。
改訂版配布サービスの対象
改訂版の配布方法
V5.0 MR3の公開に伴い、ダウンロードは終了しました。
TextPorter V5.0 MR1
2010年04月28日
追加/修正内容
共通部分の修正
- text_oem.h: エラーのシンボルにミススペルがあったのを修正。
以下のSuppotedをSupportedにした。
NotSuppoted, OleNotSuppoted, InsertFileNotSuppoted, PWDfileNotSuppoted, CompressedFileNotSuppoted
互換性のため、ミススペルのシンボルも残しているが、次のバージョンアップかMRで削除する予定。
本ライブラリユーザには、早急に正しいシンボルに修正し、再ビルドすることを強く推奨する。
- dmc_comm: WindowsでAHCommonがAHDMCではなくdmc_commを使うように修正。
- AHCommonTextPorter: AHCommon00.dllからAHCommonTextPorter.dllにファイル名を変更。
Excel 2007(dmc_txxlsx)の修正
- GetPageText系をページ番号0で呼んでも総ページ数が得られない問題を修正。
Word 2007(dmc_txdocx)の修正
- GetPageText系をページ番号0で呼んでも総ページ数が得られない問題を修正。
PowerPoint 2007(dmc_txpptx)の修正
- GetPageText系をページ番号0で呼んでも総ページ数が得られない問題を修正。
PDF(dmc_txpdf, pdfexplorermp)の修正
- dmc_txpdf: マルチスレッド用のロケール関係の保護は不要になったので、削除。
PDFExplorer最新版対応。
- pdfexplorermp : 破損PDFに対する耐性を強化。
AcroForm内の文字化け修正など対応強化。
OpenOffice.org 3.1 Calc(dmc_ods)の修正
- GetPageText系をページ番号0で呼んでも総ページ数が得られない問題を修正。
OpenOffice.org 3.1 Writer(dmc_txodt)の修正
- GetPageText系をページ番号0で呼んでも総ページ数が得られない問題を修正。
OpenOffice.org 3.1 Presentation(dmc_txodp)の修正
- GetPageText系をページ番号0で呼んでも総ページ数が得られない問題を修正。
その他の修正
- dmc_txvsd: LinuxとSolarisで日本語ファイル名のvsdファイルがセグメンテーションフォルトになる問題を修正。
改訂版配布サービスの対象
改訂版の配布方法
V5.0 MR2の公開に伴い、ダウンロードは終了しました。
TextPorter V5.0
2010年03月08日
追加/修正内容
変更点
改訂版配布サービスの対象
改訂版の配布方法
V5.0 MR1の公開に伴い、ダウンロードは終了しました。