クロール・スコーピングのプロパティ

default.xmlファイル内に、クロールの対象となるURLを制御するためのクロール・スコーピングを実装します。

クロール・スコープは、あるURLがクロール対象内にあると判断されるための条件を定義するものです。クロールでフェッチする必要があるURLは、クロール・スコープ内にあります。

クロール・スコーピングは、crawl-urlfilter.txtファイル内の正規表現やカスタム・プラグインなどの他のすべてのフィルタの前に適用されます。このURLフィルタリングの順序は、たとえURLがクロール・スコープ・フィルタを通過したとしても、crawl-urlfilter.txtファイルによって除外される可能性があることを意味します。一方、クロール・スコープ・フィルタによって除外されたURLが、crawl-urlfilter.txtファイルによって追加されることはありません。

次の表に、クロール・スコープのプロパティを示します。
プロパティ名 プロパティの値
crawlscope.mode ANYSAME_DOMAINまたはSAME_HOSTです(デフォルトはSAME_HOST)。クロール・スコーピングのモードを指定します。
crawlscope.on-redirected-seed ブール値です(デフォルトはtrue)。URLのシード、またはリダイレクトされたシードに基づいてURLをフィルタ処理するかどうかを指定します。
crawlscope.top-level-domains.generic トップレベル・ドメイン名の空白区切りリストです。ドメイン名の取得に影響が生じる可能性があるため、このリストは変更しないでください。一般的なトップレベル・ドメイン名のリストが含まれています。
crawlscope.top-level-domains.additional トップレベル・ドメイン名の空白区切りリストです(デフォルトは空)。クロールに関連する追加のトップレベル・ドメイン名を指定します。