構成
この項では、Endeca Web Crawlerの構成に関するリファレンス情報について説明します。
構成ファイル
Endeca Web Crawlerでは、次の一連の構成ファイルを使用します。
default.xmlファイル
default.xml
ファイルはEndeca Web Crawlerのメイン構成ファイルです。
site.xmlファイル
site.xml
ファイルは、グローバル構成ファイルである
default.xml
をオーバーライドするプロパティ値を提供します。
crawl-urlfilter.txtファイル
crawl-urlfilter.txt
ファイルは、URLを含めたり除外したりするための正規表現を提供します。
regex-normalize.xmlファイル
regex-normalize.xml
ファイルは、URLを正規化するための置換を提供します。
mime-types.xmlファイル
mime-types.xml
ファイルは、ファイル拡張子とMIMEタイプのマッピングを提供します。
parse-plugins.xmlファイル
parse-plugins.xml
ファイルは、MIMEタイプとパーサーのマッピングを提供します。
form-credentials.xmlファイル
form-credentials.xml
ファイルは、フォームベース認証を使用するサイト向けの資格証明を提供します。
log4j.propertiesファイル
log4j.properties
ファイルを変更することによって、log4jロガーのプロパティを変更します。
IAS Document Conversion Moduleの有効化
テキスト、HTML、XML、SGML、JavaScript以外のドキュメントを変換するため、Web CrawlerはデフォルトでIAS Document Conversion Moduleを呼び出すようになっています。
IAS Document Conversion Moduleの無効化
ドキュメント変換やライセンスに関する警告を防止するため、必要に応じてIAS Document Conversion Moduleを無効にできます。このモジュールをすべてのクロールでグローバルに無効にできます。また、このモジュールをクロール単位で無効にすることもできます。
ドキュメント変換オプションについて
JVMのプロパティ名と値を変更することによって、IAS Document Conversion Moduleのデフォルトの動作を変更できます。
レコード・ストア・インスタンスに出力を書き出すようにWebクロールを構成
ディスク上の出力ファイルに書き出す(デフォルトの動作)のではなく、レコード・ストア・インスタンスに直接出力を書き出すようにWeb Crawlerを構成できます。この手順では、
default.xml
のグローバルWeb Crawler構成を変更するのではなく、
site.xml
ファイルで単一のクロール構成を変更する方法について説明しています。