ドキュメント変換のプロパティ

default.xmlファイル内に、ドキュメント変換に関するプロパティを設定します。

Endeca Web Crawlerは、IAS Document Conversion Moduleを使用して、HTML、SGML、XML、text、JavaScript以外のすべてのドキュメントからのテキスト抽出を実行します。次の表に記載されているプロパティを使用して、このモジュールの動作を構成できます。

プロパティ名 プロパティの値
doc-conversion.attempts.max 整数値です(デフォルトは2)。モジュールによるドキュメント変換の最大試行回数を指定します。
doc-conversion.timeout 整数値です(デフォルトは60000)。ドキュメント変換のタイムアウト値をミリ秒単位で指定します。

IAS Document Conversion Moduleは、PDFのコピー禁止オプションを尊重します。つまり、PDF作成アプリケーションによってコピー禁止オプション(PDF内のテキストのコピーや抽出を禁止するオプション)が設定されていた場合、IAS Document Conversion ModuleはそのPDFからテキストを抽出しません。テキストを抽出するには、コピー禁止オプションを設定せずにPDFを再作成する必要があります。

大きなファイルとコンテンツのダウンロード制限

http.content.limitプロパティによって、ダウンロード可能なコンテンツの最大サイズの制限が設定されることに注意してください。コンテンツがこの制限より大きい場合、そのような大きなコンテンツは一切ダウンロードされず、次の例に示すような警告メッセージが出力されます。
WARN com.endeca.eidi.web.UrlProcessor
Content limit exceeded for http://xyz.com/pdf/B2B_info.pdf. Page will be skipped.

この問題は、大きなPDFファイルでしばしば発生します。このメッセージが定期的に出力される場合は、http.content.limitプロパティの設定を大きくしてください。