クロール・スコーピングの構成について

Web Crawlerは、複数のシードのクロールを処理するための基本的なクロール・スコーピング・スキームを実装しています。このクローラでは、シードと同じホストまたはシードと同じドメインのURLのみにアクセスするように、クロールのスコープを設定できます。

次のプロパティを使用してクロールのスコープを構成します。
crawlscope.modeプロパティの設定は、クロール・スコーピングのモード(URLへのアクセスを許可する方法)を決定します。このプロパティでは、次のいずれかのモードを設定します。
crawlscope.on-redirected-seedプロパティのブール値の設定は、シードへのアクセスでリダイレクトが発生した場合に、そのリダイレクトをどのように扱うかに影響します。このプロパティによって、クロール・スコープのフィルタリングがリダイレクトされたシードに適用されるか、またはオリジナルのシードに適用されるかが決定されます。 このリダイレクト・フィルタリング・プロパティは、クロール・スコープ・モードがSAME_HOSTおよびSAME_DOMAINの場合のみ適用されることに注意してください。

これらのプロパティが動作する例として、シードがhttp://xyz.comに設定されており、それがhttp://xyz.go.comにリダイレクトされる場合を考えます。クロールでSAME_HOSTモードを使用し、crawl.scope.on-redirected-seedプロパティをtrueに設定している場合、ここからリンクされているすべてのURLはhttp://xyz.go.comに対してフィルタリングされます。リダイレクト・プロパティがfalseに設定されている場合は、ここからリンクされているすべてのURLはhttp://xyz.comに対してフィルタリングされます。

ドメイン名の解析には、crawlscope.top-level-domainsの2つのプロパティが使用されます。