default.xmlファイル内で、URLフィルタ・プラグインの処理方法を構成します。
プロパティ名 | プロパティの値 |
---|---|
urlfilter.regex.file | ファイル名です(デフォルトはcrawl-urlfilter.txt)。urlfilter-regex(RegexURLFilter)プラグインによって使用される正規表現が格納された、構成ディレクトリ内のファイルを指定します。 |
urlfilter.order | URLフィルタ・クラスの名前の空白区切りリストです(デフォルトは空)。URLフィルタが適用される順序を指定します。 |
urlfilter.filter-seeds | ブール値です(デフォルトはfalse)。シードにURLフィルタリングを適用するかどうかを指定します。 |
クロール・スコープ・フィルタが構成されている場合、このファイルのカスタム・プラグイン内の正規表現を含む他のすべてのフィルタが適用される前に、クロール・スコープ・フィルタが適用されることに注意してください。つまり、クロール・スコープによっていったんURLが除外されると、そのURLをこのファイル内の表現によって追加できません。