site.xmlファイル

site.xmlファイルは、グローバル構成ファイルであるdefault.xmlをオーバーライドするプロパティ値を提供します。

default.xmlファイルは、頻繁に変更するものではありません。このファイルは製品に1つのみ含まれており、workspace/conf/web-crawler/defaultディレクトリに置かれます。

site.xmlファイルは、デフォルトの設定をクロール単位でオーバーライドする変更を行うためのファイルです。site.xmlファイルに追加可能なプロパティは、default.xmlファイルに含まれるプロパティと同じです。site.xmlファイルは、workspace/conf/web-crawler/polite-crawlworkspace/conf/web-crawler/non-polite-crawlの両ディレクトリに含まれていますが、workspace/conf/web-crawler/defaultディレクトリには含まれていません。

site.xmlファイルの使用方針

これら2つの構成ファイルを使用する際の方針として、default.xmlファイルが格納され、site.xmlファイルは格納されないディレクトリが1つのみ存在するという点があげられます。このディレクトリは、デフォルト構成ディレクトリです。

次に、それぞれのクロール固有の構成のための個別のディレクトリを作成します。これらのクロール別のディレクトリには、default.xmlファイルは置かず、個別のクロール構成用にカスタマイズされたsite.xmlファイルを置きます。

クロール実行時には、-cコマンドライン・オプションを使用して、このクロール別の構成ディレクトリを指定します。ただし、Web Crawlerは最初にworkspace/conf/web-crawler/defaultディレクトリ内の構成ファイルを読み込み、次にクロール別のディレクトリ内の構成ファイル(デフォルトのファイルをオーバーライドできる)を読み込むようにハードコード化されています。そのため、workspace/conf/web-crawler/defaultディレクトリおよびdefault.xmlファイルの名前と場所は変更しないようにすることが重要です。

site.xmlファイルとdefault.xmlファイルの違い

次の表は、non-polite-crawlpolite-crawlのそれぞれのディレクトリにあるsite.xmlファイルの違い、およびそれらのファイルとグローバルのdefault.xmlファイルの違いについてまとめたものです。

構成プロパティ default.xml polite site.xml non-polite site.xml
http.robots.ignore false false true
fetcher.delay 2.0 1.0 0.0
fetcher.threads.total 100 使用しません 52
fetcher.threads.per-host 1 1 52
output.file.directory workspace polite-crawl-workspace non-polite-crawl-workspace
output.file.name webcrawler-output polite-crawl non-polite-crawl
output.file.is-xml false true true
output.file.is-compressed true false false