default.xmlファイル内に、クロールの対象となるURLを制御するためのクロール・スコーピングを実装します。
クロール・スコープは、あるURLがクロール対象内にあると判断されるための条件を定義するものです。クロールでフェッチする必要があるURLは、クロール・スコープ内にあります。
クロール・スコーピングは、crawl-urlfilter.txtファイル内の正規表現やカスタム・プラグインなどの他のすべてのフィルタの前に適用されます。このURLフィルタリングの順序は、たとえURLがクロール・スコープ・フィルタを通過したとしても、crawl-urlfilter.txtファイルによって除外される可能性があることを意味します。一方、クロール・スコープ・フィルタによって除外されたURLが、crawl-urlfilter.txtファイルによって追加されることはありません。
プロパティ名 | プロパティの値 |
---|---|
crawlscope.mode | ANY、SAME_DOMAINまたはSAME_HOSTです(デフォルトはSAME_HOST)。クロール・スコーピングのモードを指定します。 |
crawlscope.on-redirected-seed | ブール値です(デフォルトはtrue)。URLのシード、またはリダイレクトされたシードに基づいてURLをフィルタ処理するかどうかを指定します。 |
crawlscope.top-level-domains.generic | トップレベル・ドメイン名の空白区切りリストです。ドメイン名の取得に影響が生じる可能性があるため、このリストは変更しないでください。一般的なトップレベル・ドメイン名のリストが含まれています。 |
crawlscope.top-level-domains.additional | トップレベル・ドメイン名の空白区切りリストです(デフォルトは空)。クロールに関連する追加のトップレベル・ドメイン名を指定します。 |