Endeca Web Crawlerでは、次の一連の構成ファイルを使用します。
構成ファイル名 | 用途 |
---|---|
default.xml | すべてのクロールのデフォルトの構成プロパティを格納する、グローバル構成ファイルです。このファイル内の個々の設定は、site.xmlファイルによってオーバーライドできます。このファイル名と場所はWeb Crawlerにハードコードされているため、このファイルを削除したり、ファイル名を変更したりしないでください。 |
site.xml | クロール単位の構成ファイルです。このファイル内の設定は、default.xmlファイル内の設定をオーバーライドします。このファイルは、クロールごとに設定を調整するのに使用します。 |
crawl-urlfilter.txt | 含めるURLや除外するURLを指定するための正規表現のリストを格納します。これらの正規表現は、クローラによるアクセスを許可するURLを決定します。urlfilter.filter-seeds構成プロパティをtrueに設定すると、シードにもフィルタを適用できます。 |
regex-normalize.xml | URLに対する置換を指定するURL正規化のリストを格納します。それぞれの正規化は正規表現と置換表現によって表されます。urlnormalizer.normalize-seeds構成プロパティをtrueに設定すると、シードにも正規化を適用できます。 |
mime-types.xml | IASが認識可能なMIMEタイプのリストを格納します。個々のファイル拡張子のMIMEタイプを参照するのに使用されます。 |
parse-plugins.xml | MIMEタイプをパーサーにマッピングします(たとえば、"text/html"をHTMLパーサーにマッピングします)。 |
form-credentials.xml | フォームベース認証用の資格証明ファイルです。 |
log4j.properties | log4j構成ファイルです。特定のコンポーネントに関するログ記録を指定するために使用されます。 |