default.xmlファイル内に、ドキュメント変換に関するプロパティを設定します。
Endeca Web Crawlerは、IAS Document Conversion Moduleを使用して、HTML、SGML、XML、text、JavaScript以外のすべてのドキュメントからのテキスト抽出を実行します。次の表に記載されているプロパティを使用して、このモジュールの動作を構成できます。
プロパティ名 | プロパティの値 |
---|---|
doc-conversion.attempts.max | 整数値です(デフォルトは2)。モジュールによるドキュメント変換の最大試行回数を指定します。 |
doc-conversion.timeout | 整数値です(デフォルトは60000)。ドキュメント変換のタイムアウト値をミリ秒単位で指定します。 |
IAS Document Conversion Moduleは、PDFのコピー禁止オプションを尊重します。つまり、PDF作成アプリケーションによってコピー禁止オプション(PDF内のテキストのコピーや抽出を禁止するオプション)が設定されていた場合、IAS Document Conversion ModuleはそのPDFからテキストを抽出しません。テキストを抽出するには、コピー禁止オプションを設定せずにPDFを再作成する必要があります。
WARN com.endeca.eidi.web.UrlProcessor Content limit exceeded for http://xyz.com/pdf/B2B_info.pdf. Page will be skipped.
この問題は、大きなPDFファイルでしばしば発生します。このメッセージが定期的に出力される場合は、http.content.limitプロパティの設定を大きくしてください。