Web Crawlerは、複数のシードのクロールを処理するための基本的なクロール・スコーピング・スキームを実装しています。このクローラでは、シードと同じホストまたはシードと同じドメインのURLのみにアクセスするように、クロールのスコープを設定できます。
次のプロパティを使用してクロールのスコープを構成します。
- crawlscope.mode
- crawlscope.on-redirected-seed
- crawlscope.top-level-domains.generic
- crawlscope.top-level-domains.additional
crawlscope.modeプロパティの設定は、クロール・スコーピングのモード(URLへのアクセスを許可する方法)を決定します。このプロパティでは、次のいずれかのモードを設定します。
- ANY: すべてのURLへのアクセスを許可します。このモードではアクセス可能なURLに関する制限がないため、クロールのスコーピングはオフになります。
- SAME_DOMAIN: URLがシードのURLと同じドメインのものである場合にかぎり、アクセスを許可します。クローラは、ドメイン名が調査対象のホストのものであるかどうかを判別しようと試みます。
- SAME_HOST(デフォルト): URLがシードのURLと同じホストのものである場合にかぎり、アクセスを許可します。
crawlscope.on-redirected-seedプロパティのブール値の設定は、シードへのアクセスでリダイレクトが発生した場合に、そのリダイレクトをどのように扱うかに影響します。このプロパティによって、クロール・スコープのフィルタリングがリダイレクトされたシードに適用されるか、またはオリジナルのシードに適用されるかが決定されます。
- true (デフォルト): SAME_HOSTまたはSAME_DOMAINの分析が、オリジナルのシードではなくリダイレクトされたシードに対して行われるように指定します。
- false: SAME_HOSTまたはSAME_DOMAINのフィルタリングがオリジナルのシードに対して適用されるように指定します。
このリダイレクト・フィルタリング・プロパティは、クロール・スコープ・モードが
SAME_HOSTおよび
SAME_DOMAINの場合のみ適用されることに注意してください。
これらのプロパティが動作する例として、シードがhttp://xyz.comに設定されており、それがhttp://xyz.go.comにリダイレクトされる場合を考えます。クロールでSAME_HOSTモードを使用し、crawl.scope.on-redirected-seedプロパティをtrueに設定している場合、ここからリンクされているすべてのURLはhttp://xyz.go.comに対してフィルタリングされます。リダイレクト・プロパティがfalseに設定されている場合は、ここからリンクされているすべてのURLはhttp://xyz.comに対してフィルタリングされます。
ドメイン名の解析には、crawlscope.top-level-domainsの2つのプロパティが使用されます。