URLノーマライザの種類

Endeca Web Crawlerには、次の3つのURLノーマライザがあります。

BasicURLNormalizerは次の変換を実行します。 これらの変換は、実際にはregex-normalize.xmlファイルによって実行されることに注意してください。

PassURLNormalizerは、いかなる変換も実行しません。なぜこのようなノーマライザが含まれているかというと、特定のスコープで1つ以上のノーマライザを定義する必要があるものの、実際の変換処理は不要である場合に便利だからです。

RegexURLNormalizerを利用すると、検出したすべてのURLまたは任意のURLに対して正規表現による置換を指定できます。これは、URLからセッションIDを除去するような変換で便利です。このクラスでは、urlnormalizer.regex.fileプロパティで指定されるファイルを使用します。

URLノーマライザのデフォルトの順序

urlnormalizer.orderプロパティのデフォルトのクラスは次のとおりです。
  • org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer
  • org.apache.nutch.net.urlnormalizer.regex.RegexURLNormalizer