構成ファイル

Endeca Web Crawlerでは、次の一連の構成ファイルを使用します。

構成ファイル名 用途
default.xml すべてのクロールのデフォルトの構成プロパティを格納する、グローバル構成ファイルです。このファイル内の個々の設定は、site.xmlファイルによってオーバーライドできます。このファイル名と場所はWeb Crawlerにハードコードされているため、このファイルを削除したり、ファイル名を変更したりしないでください。
site.xml クロール単位の構成ファイルです。このファイル内の設定は、default.xmlファイル内の設定をオーバーライドします。このファイルは、クロールごとに設定を調整するのに使用します。
crawl-urlfilter.txt 含めるURLや除外するURLを指定するための正規表現のリストを格納します。これらの正規表現は、クローラによるアクセスを許可するURLを決定します。urlfilter.filter-seeds構成プロパティをtrueに設定すると、シードにもフィルタを適用できます。
regex-normalize.xml URLに対する置換を指定するURL正規化のリストを格納します。それぞれの正規化は正規表現と置換表現によって表されます。urlnormalizer.normalize-seeds構成プロパティをtrueに設定すると、シードにも正規化を適用できます。
mime-types.xml IASが認識可能なMIMEタイプのリストを格納します。個々のファイル拡張子のMIMEタイプを参照するのに使用されます。
parse-plugins.xml MIMEタイプをパーサーにマッピングします(たとえば、"text/html"をHTMLパーサーにマッピングします)。
form-credentials.xml フォームベース認証用の資格証明ファイルです。
log4j.properties log4j構成ファイルです。特定のコンポーネントに関するログ記録を指定するために使用されます。

構成ファイルの場所

IASをインストールすると、構成ファイルは次の場所に置かれます。
  • workspace/conf/web-crawler/defaultディレクトリには、site.xmlファイルを除き、前述のすべてのファイルが格納されます。このディレクトリはグローバル構成ディレクトリであり、このディレクトリの名前は変更しないでください。また、default.xmlファイルを削除しないでください。ここに置かれるほとんどのファイルの設定は、クロール別の構成ディレクトリに置かれるファイルによってオーバーライドできます。
  • workspace/conf/web-crawler/polite-crawlディレクトリには、site.xmlファイルとcrawl-urlfilter.txtファイルのみが格納されています。
  • workspace/conf/web-crawler/non-polite-crawlディレクトリにも、site.xmlファイルとcrawl-urlfilter.txtファイルのみが格納されています。このsite.xmlには、よりアグレッシブな設定が格納されています。たとえば、フェッチャの遅延なし(ポライト・バージョンでは1秒の遅延あり)、最大52スレッド(ポライト・バージョンでは1スレッド)などの設定が含まれています。