2014年06月18日
追加/修正内容
PDF(dmc_pdfexploremp)の修正
- PDFのプロパティ抽出で文字が化ける問題に対応。
- PDFのポップアップノートで文字化が化ける問題に対応。
Excel(dmc_txxls)の修正
- U+0080からU+00FFまでの文字が化けるパターンがある問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
下記リンクをクリックしてアップデータをダウンロードしてください。
アップデート方法
ダウンロードしたファイルを解凍後、必要なディレクトリ/フォルダ/ファイルをコピーしてください。
2013年12月13日
追加/修正内容
全体
- 無限ループチェックの閾値を0x40000から0x80000に変更。
PDF(dmc_pdfexploremp)の修正
- infoオブジェクトが重複していてメタ情報が取得できない問題に対応。
- フォントの定義がフォント辞書にない場合に、定義されてないエラー7000になる問題に対応。
- ファイル辞書の/UFが不正な場合に、落ちる問題に対応。
- AES暗号の復号でクラッシュするケースに対応。
- 文書情報の文字化けの改善。
- メモリリーク対応。
PowerPoint(dmc_txppt)の修正
- 無限ループになる問題に対応。
- オプションDMC_GETTEXT_OPT_SHFTAGを指定したときにLinuxでセグメンテーションエラーが起きる問題に対応。
- スライドマスタの抽出ができないファイルがあった問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
V4.2 MR17の公開に伴い、ダウンロードは終了しました。
2013年07月31日
追加/修正内容
共通部分の修正(dmc_comm)
- AutoDetectに失敗するWord文書がある問題に対応。
Excel(dmc_txxls)の修正
- Linux 64bitでセグメンテーション違反になるExcelファイルに対応。
Excel 2007(dmc_txxlsx)の修正
- 異常終了するファイルに対応。
- シートデータが改行されずに出力される問題に対応。
PDF(dmc_pdfexploremp)の修正
- CIDから3文字のunicodeに変換するTounicodeCmapに不具合があったので対応。
- 入力ストリームの読み込みチェックを強化。
- 特定のPDFで文字が途中までしか抽出されない問題に対応。
- Linuxで、セグメンテーションエラーが発生する問題に対応。
- 破損したPDFファイル、かつ、ファイルサイズが200バイト以下の場合や、オブジェクトの数が0の場合に例外が発生していた問題に対応。
- 文字が消えたり、単語間空白が入らない場合がある問題に対応。
- XRefStmが読めず、テキスト抽出に失敗する問題に対応。
PDF(dmc_txpdf)の修正
Word 2007(dmc_txdocx)、Word 2010(dmc_txdocx2010)の修正
- 「OLE HANDLER」という文言が出力される問題に対応。
一太郎(dmc_txjtd)の修正
- 一太郎で、DMC_GETTEXT_OPT_OLE2が指定されていないときOLEファイルの抽出がエラーになる問題に対応。
DocuWorks(dmc_txxdw)の修正
改訂版配布サービスの対象
改訂版の配布方法
V4.2 MR16の公開に伴い、ダウンロードは終了しました。
2013年01月30日
追加/修正内容
共通部(dmc_comm)、アーカイブ関係(dmc_txlzh, dmc_txrar, dmc_txzip)の修正
- Linuxで、mount.cifsしたディレクトリのファイルをテキスト抽出できない問題に対応(statすると-1が返ることが多い)。
ファイル判別(dmc_dtct)の修正
- Office2013のファイル識別が出来る用に修正、ただし抽出は不可。
Excel(dmc_txxls)の修正
- -p DMC_GETTEXT_OPT_CSV1を指定したとき、"が\"で出る問題に対応。
PDF(dmc_pdfexploremp)の修正
- PDFのプロパティ情報が127文字しか取得できなかった問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
V4.2 MR15の公開に伴い、ダウンロードは終了しました。
2012年08月03日
追加/修正内容
共通部分の修正
- AHCommonTextPorter: Excel関係に影響。表示形式が「$#,##0,,"M";[赤]-$#,##0,,"M"」に設定されているセルが存在し、セル内に数値が入力されている場合、無限ループする問題に対応。
- dmc_txif: 存在しないファイルパスの入力でエラー2001になる問題に対応。
ファイルの存在チェックをして、なければエラー21を返す。
COMインターフェース(dmc_com/To_com)の修正
PDF(dmc_pdfexploremp)の修正
- 1ページに大量(4000個以上)のXObjectがあると処理が終わらない問題に対応。
- Trailer のID に ’)’が存在する場合に、暗号の解除ができなかった問題に対応。
- /annotの/DRでフォントが定義されているPDFで、テキスト抽出ができなかった問題に対応。
- マルチスレッドでテキストが抽出できない場合があった問題に対応。
Excel(dmc_txxls), Excel 2007(dmc_txxlsx)の修正
AutoCAD関係(dmc_txdxf2k,dmc_txdxf2kb,dmc_txdxf14,dmc_txdxf14b,dmc_txdxf2007,dmc_txdxf2010)の修正
- ブロックネームをコピーする際、ヒープ破壊が起きる問題に対応。
Visio(dmc_txvsd)の修正
- 拡張子がなくディレクトリが'.'を含むときにスタックオーバーフローする問題に対応。
zip(dmc_txzip)の修正
- エラー6003が出る.zipファイルがある問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
V4.2 MR14の公開に伴い、ダウンロードは終了しました。
2012年01月27日
追加/修正内容
PDFExplorer(dmc_pdfexploremp)の修正
- Solaris 8で非常に処理が遅いPDFファイルがあるのに対応。
Word 2007(dmc_txdocx)の修正
- ヘッダーに設置した「テキストボックス」内のテキストが抽出されない問題に対応。
メール(dmc_txeml)の修正
- 保護違反になるデータに対応。
- テンポラリファイルが残る現象に対応。
HTML(dmc_txhtml)の修正
RTF(dmc_txrtf)の修正
- Outlook 2002でhtml指定して出力した.msgファイル(OLE複合ファイル)に大きなRTF(HTMLが記述されている)が入っている場合に対処。現状は、64KBまで対処。
Visio(dmc_txvsd)の修正
- 文字列を得ている部分でデータの文字列長を無検査だったものに対応。
DocuWorks(dmc_txxdw)の修正
- モディファイするとプロパティが出力されない問題に対応。
改訂版配布サービスの対象
改訂版の配布方法
V4.2 MR13の公開に伴い、ダウンロードは終了しました。
2011年07月27日
追加/修正内容
共通部分(dmc_comm)の修正
- 判定ではねられるWordファイルがあったのを修正。
PDFExplorer(dmc_pdfexploremp)の修正
- 巨大なコンテンツストリームでAccess Violationが発生する場合があるので、メモリ確保のチェックを強化。
- 画像に重複するクリップパスがある場合、問題が発生しうるので対処。
- グラフィック状態のスタックが不正なPDFでクラッシュする場合に対処。
- Contentsの解凍で、異常に大きなコンテンツになり、メモリー不足が発生する場合に対処。
- ストリングが異常に長い不正なPDFに対処。PDFRefarence「Appendix C」に従い、ストリングの長さが32,767以上なら、解析処理から抜けるようにした。
PDF(dmc_txpdf)の修正
改訂版配布サービスの対象
改訂版の配布方法
V4.2 MR12の公開に伴い、ダウンロードは終了しました。
2011年01月21日
追加/修正内容
共通部分の修正
- dmc_txif: アーカイブファイルでのUTF-8出力で余分な0xBFを出していた点を修正。
PDF(dmc_txpdf)の修正
- dmc_txpdf: 横長ページのときの不具合対処。
電子メール(dmc_txeml)の修正
改訂版配布サービスの対象
改訂版の配布方法
V4.2 MR11の公開に伴い、ダウンロードは終了しました。
2010年07月07日
追加/修正内容
共通部分の修正
- dmc_comm: OLEの判定でディレクトリ数をshortで計算していたが、32Kオーバーの値になるファイルがあったので、intに修正。
- dmc_dtct: .xhtmlファイルを通るようにした。
PDF(dmc_txpdf)の修正
- dmc_txpdf: より自然な単語分割になるようにした。
dmc_txpdf: PDFの仕様書にしたがって、マイナス記号とハイフン記号を区別するようにした。PDF内のエンコーディングに関して、正しく処理してない部分があったのを修正した。この結果、マイナス記号が〓として抽出されたり、〓が?として抽出されるPDFが出てくるが、それはPDFが正しく作られてないのが原因である。
改訂版配布サービスの対象
改訂版の配布方法
V4.2 MR10の公開に伴い、ダウンロードは終了しました。
2010年04月27日
追加/修正内容
共通部分の修正
- text_oem.h: エラーのシンボルにミススペルがあったのを修正。
以下のSuppotedをSupportedにした。
NotSuppoted, OleNotSuppoted, InsertFileNotSuppoted, PWDfileNotSuppoted, CompressedFileNotSuppoted
互換性のため、ミススペルのシンボルも残しているが、次のバージョンアップかMRで削除する予定。
本ライブラリユーザには、早急に正しいシンボルに修正し、再ビルドすることを強く推奨する。
- dmc_comm: LinuxでTMPDIR環境変数を指定してもテンポラリファイルが/tmpになる問題を修正。PDFExplorer最新版対応。V5のdmc_txpdfをバックポートするために必要な関数追加。
- dmc_dtct: パスワード付きWord 2007の判定方法変更。
- XfoCommonTextPorter: メモリが獲得できないときにランタイムエラーになる問題を修正。
Excel 2007(dmc_txxlsx)の修正
- GetPageText系をページ番号0で呼んでも総ページ数が得られない問題を修正。
Word 2007(dmc_txdocx)の修正
- GetPageText系をページ番号0で呼んでも総ページ数が得られない問題を修正。
PowerPoint 2007(dmc_txpptx)の修正
- GetPageText系をページ番号0で呼んでも総ページ数が得られない問題を修正。
PDF(dmc_txpdf, pdfexplorermp)の修正
- dmc_txpdf: マルチスレッド用のロケール関係の保護は不要になったので、削除。
PDFExplorer最新版対応。
- pdfexplorermp : 破損PDFに対する耐性を強化。
AcroForm内の文字化け修正など対応強化。
その他の修正
- dmc_txeml: SHIFT_JISでbase64エンコードされたメールをUTF-8で出力すると文字化けする問題を修正。
- dmc_txvsd: LinuxとSolarisで日本語ファイル名のvsdファイルがセグメンテーションフォルトになる問題を修正。
- dmc_txzip: 途中でBOM付き改行が出力される問題を修正。
DMC_GETTEXT_OPT1_COMPRESS2を指定しているとき、既にサイズフルになっているにも関わらず展開処理を行ってしまう問題を修正。
改訂版配布サービスの対象
改訂版の配布方法
V4.2 MR9の公開に伴い、ダウンロードは終了しました。