Office Server Document Converter 機能紹介:HTML変換「Docx2HTML出力版」
Office Server Document Converter V9.0 から、
docxファイルのHTML変換に特化した「Docx2HTML出力版」を追加しました。
「Docx2HTML出力版」の特色
Microsoft Word で編集・保存したdocx形式のファイルをシンプルで編集しやすいHTMLに変換します。使い慣れたWordで作成した文書から簡単にWebページを作ることができます。
Word文書をHTMLに変換する独自開発のプログラム
- 変換エンジンはMicrosoft Wordで編集・保存したdocxファイルを独自解析してHTMLに変換
- Microsoft Wordがなくても変換できる
シンプルで余分なタグのないHTMLを作成
- Microsoft WordのHTML出力機能とは異なり、HTML標準仕様に準拠した正確で編集しやすいHTMLに変換
- コンテンツ(HTML)のみ出力するので、出力後の編集や管理がしやすくなり、既存のWebページへの組み込みも簡単に行える
「Docx2HTML出力版」の新しい機能
新しいバージョン V10.0 では、より実用的にご利用いただけるように、いくつもの新機能や機能強化を行いました。
また、スマホ向けに適した目次表示も可能になりました。
HTMLを分割出力
Word文書中の章や節など、指定したアウトラインレベル単位で分割してHTMLを出力できるようになりました。
コマンドラインからの実行時に「-split」オプションに続けて分割したいアウトラインレベル(1~3)を指定することで、Word文書中で指定されてたアウトラインレベルの見出しスタイルや段落箇所で文書を分割して、各アウトラインレベルごとのHTMLファイルとして出力します。
ページを分割することで長文で作成した文書も、1ページのスクロール量を抑えられたり、一度に読み込むファイル容量を抑えられるので、軽量で読みやすいWebページを作成できます。
この時、Wordの目次機能で挿入した目次がある場合は、すべてのHTMLに目次箇所とそのリンクを出力します。
目次箇所はオプションの指定で別のHTMLファイルとして出力することも可能です。この場合はアウトラインレベルごとに分割した各HTMLには、目次箇所を出力しません。出力した目次箇所のHTMLファイルは、JavaScriptを利用して各HTMLに読み込んだり、目次用のページを作成するなどに利用できます。
便利なページ移動リンク
HTMLを分割して出力する場合、「-pagenavi」オプションを指定することで、分割したHTMLのページを順番に移動できる「前へ/次へ」リンクを出力できます。
リンクは本文箇所の上部と下部に出力します。出力するリンクは日本語、または英語を指定できます。
目次の変換を強化
目次箇所をレイアウトしやすくしたり、便利に利用できるようにいくつもの強化をしました。
- 目次箇所全体を、HTMLの<nav class="toc-wrap">タグで出力するようにしました。(xhtmlの場合は<div class="nav-area">タグ)
- 上記タグの内側を<div id="toc">タグで囲うことで、目次箇所を別ファイルにした場合に読み込みできるようにしました。
- 目次の見出し段落のclass属性に「toc-heading」※1を出力するようにしました。
- 目次の各項目の段落のclass属性に「toc-[n]」※1([n]は目次レベルの値 1~6)を出力するようにしました。
- HTMLを分割出力した場合に、すべの分割したHTMLに目次箇所を出力します。またこの時、自身のHTMLファイルを示す目次項目(ページ内で最上位の階層レベル)の段落<p>タグのclass属性に「active」を出力します。
- HTMLを分割出力した場合に、オプションの指定で目次箇所を別のHMTLファイル(toc-inc.html)として出力することもできます。※2
※1 この値はWordの目次機能の「組み込み」で挿入して未編集の場合のデフォルト値です。
※2 JavaScriptでの読み込み用に<nav>タグの内部のみを別のHTMLファイルとして出力します。<html>、<head>、<body>などのタグは出力されません。
スマホ表示に便利な目次表示
スマホ表示時に目次の表示/非表示用のボタンが設置できるように、タグを出力するようにしました。
※ボタンの設置や動作にはjavascriptとcssが必要です。
その他の新しいオプション機能
- Word上で作成した表の装飾(一部)を、HTMLのスタイルに出力できるようになりました。
- htmlの言語コードを指定できるようになりました。
「Docx2HTML出力版」の主な機能
オプション指定で多彩なHTMLを変換ができる
コマンドラインの変換動作を変換オプションのパラメータで指定できます。
コマンドライン オプション の例をご紹介します。
- デフォルトではWordの空の行(改行のみの行)をHTML出力時に無視します。本オプションを指定すると <p> </p> タグを出力します。【右側がオプション指定】
- -emptyP
- Wordでは編集を重ねると文書ファイル内に参照されていないIDがdocxファイル内に沢山できるが、デフォルトでは文書ファイル内をスキャンして、内部的に参照されていないID を削除します。本オプションを指定すると削除しません。【右側がオプション指定】
- -nonrefid
- 本オプションを指定すると、ブロックタグの終わりに改行を出力します。出力後の編集や管理がしやすくなります。【左側がオプション指定】
- -endl
- デフォルトではHTML文法のタグを出力します。本オプションを指定すると、XML文法のタグを出力します。【右側がオプション指定】
- -xhtml
- 文書に挿入された画像はデフォルトでは “image”フォルダーに収まります。本オプションを指定すると、出力HTMLファイル毎に“出力ファイル名.images”フォルダーを作成します。ファイル名は自動生成の連番となります。
- -fileimages
- 文書に挿入された画像は、デフォルトでは外部のフォルダに出力します。本オプションを指定すると、画像はHTMLファイルに埋め込まれます。
- -embedimg
変換オプション設定ファイル
- 変換オプション設定ファイルは、変換オプションのパラメータ値を保存するファイル
- コマンドライン実行時に、変換オプション設定ファイル名を指定して読み込む
- 同じ設定による変換を繰り返す場合、毎回オプションを指定する代わりに、変換オプション設定ファイルを指定する
- 変換オプション設定ファイルの使い方。(以下の例では、ファイル名を settings.xml とします)
- -settings settings.xml
<?xml version="1.0"?> <word-to-html-settings> <enable-XHTML enable="true"/> <enable-endl enable="true"/> <enable-empty-paragraph enable="false"/> <enable-non-reference-id enable="false"/> </word-to-html-settings>
組込みインターフェイス
組込みインターフェイスとして、 コマンドラインインターフェイス、 .NETインターフェイス、Javaインターフェイス を用意しています。 これらを利用して、 アプリケーションへの組み込みが簡単に行えます。
制限事項
- Wordの旧文書形式(拡張子doc)文書を変換することはできません。
- MicrosoftのOneDrive上のフォルダーとファイルを、変換対象または変換先として指定することはできません。
- 本製品はWordで作成した文書のレイアウト指定をすべて捨てて、コンテンツを純粋なHTMLのタグで表現します。
- 表の幅、罫線の太さなどの設定、背景、表の中の文字の揃え指定などはすべて無視します。これらの指定は、出力したHTMLに対してCSSで指定してください。