URLフィルタのプロパティ

default.xmlファイル内で、URLフィルタ・プラグインの処理方法を構成します。

プロパティ名 プロパティの値
urlfilter.regex.file ファイル名です(デフォルトはcrawl-urlfilter.txt)。urlfilter-regex(RegexURLFilter)プラグインによって使用される正規表現が格納された、構成ディレクトリ内のファイルを指定します。
urlfilter.order URLフィルタ・クラスの名前の空白区切りリストです(デフォルトは空)。URLフィルタが適用される順序を指定します。
urlfilter.filter-seeds ブール値です(デフォルトはfalse)。シードにURLフィルタリングを適用するかどうかを指定します。

クロール・スコープのフィルタリングとの関係

クロール・スコープ・フィルタが構成されている場合、このファイルのカスタム・プラグイン内の正規表現を含む他のすべてのフィルタが適用される前に、クロール・スコープ・フィルタが適用されることに注意してください。つまり、クロール・スコープによっていったんURLが除外されると、そのURLをこのファイル内の表現によって追加できません。