URL正規化のプロパティ

default.xmlファイル内に、URL正規化に関するプロパティを設定します。

URL正規化とは、一貫性のある方法でURLを変更し、標準化するプロセスです。URL正規化の目的は、文法的に異なる2つのURLが同一であるかどうかを判断できるように、正規化されたURLに変換することです。

Web Crawlerは、同じリソースを複数回クロールすることを避けるためにURL正規化を実行します。次の表に記載されているプロパティを使用して、Web CrawlerがURLを正規化する方法を構成できます。
プロパティ名 プロパティの値
urlnormalizer.order URL正規化クラスの名前の空白区切りリストです。URL正規化が実行される順序を指定します。ノーマライザが1つもアクティブ化されていない場合、何も出力せずに処理をスキップします。リストに含まれていない他のノーマライザがアクティブ化されている場合は、リストに含まれているノーマライザが実行された後、それらの他のノーマライザがランダムな順序で実行されます。
urlnormalizer.regex.file ファイル名です(デフォルトはregex-normalize.xml)。RegexUrlNormalizerクラスによって使用される構成ファイルの名前です。このファイルは構成ディレクトリ内に置いておく必要があります。
urlnormalizer.loop.count 整数値です(デフォルトは1)。すべての変換が実行されるようにするため、ノーマライザを実行するループ回数を指定します。
urlnormalizer.normalize-seeds ブール値です(デフォルトはfalse)。シードを正規化するかどうかを指定します。