site.xmlファイルは、グローバル構成ファイルであるdefault.xmlをオーバーライドするプロパティ値を提供します。
default.xmlファイルは、頻繁に変更するものではありません。このファイルは製品に1つのみ含まれており、workspace/conf/web-crawler/defaultディレクトリに置かれます。
site.xmlファイルは、デフォルトの設定をクロール単位でオーバーライドする変更を行うためのファイルです。site.xmlファイルに追加可能なプロパティは、default.xmlファイルに含まれるプロパティと同じです。site.xmlファイルは、workspace/conf/web-crawler/polite-crawlとworkspace/conf/web-crawler/non-polite-crawlの両ディレクトリに含まれていますが、workspace/conf/web-crawler/defaultディレクトリには含まれていません。
これら2つの構成ファイルを使用する際の方針として、default.xmlファイルが格納され、site.xmlファイルは格納されないディレクトリが1つのみ存在するという点があげられます。このディレクトリは、デフォルト構成ディレクトリです。
次に、それぞれのクロール固有の構成のための個別のディレクトリを作成します。これらのクロール別のディレクトリには、default.xmlファイルは置かず、個別のクロール構成用にカスタマイズされたsite.xmlファイルを置きます。
クロール実行時には、-cコマンドライン・オプションを使用して、このクロール別の構成ディレクトリを指定します。ただし、Web Crawlerは最初にworkspace/conf/web-crawler/defaultディレクトリ内の構成ファイルを読み込み、次にクロール別のディレクトリ内の構成ファイル(デフォルトのファイルをオーバーライドできる)を読み込むようにハードコード化されています。そのため、workspace/conf/web-crawler/defaultディレクトリおよびdefault.xmlファイルの名前と場所は変更しないようにすることが重要です。
次の表は、non-polite-crawlとpolite-crawlのそれぞれのディレクトリにあるsite.xmlファイルの違い、およびそれらのファイルとグローバルのdefault.xmlファイルの違いについてまとめたものです。
構成プロパティ | default.xml | polite site.xml | non-polite site.xml |
---|---|---|---|
http.robots.ignore | false | false | true |
fetcher.delay | 2.0 | 1.0 | 0.0 |
fetcher.threads.total | 100 | 使用しません | 52 |
fetcher.threads.per-host | 1 | 1 | 52 |
output.file.directory | workspace | polite-crawl-workspace | non-polite-crawl-workspace |
output.file.name | webcrawler-output | polite-crawl | non-polite-crawl |
output.file.is-xml | false | true | true |
output.file.is-compressed | true | false | false |