regex-normalize.xmlファイルは、URLを正規化するための置換を提供します。
regex-normalize.xmlファイルは、RegexUrlNormalizerクラスの構成ファイルです。このファイルを使用することによって、URL正規化のための置換で使用される正規表現を指定できます。このファイルには、サンプルの正規表現としていくつかの規則が含まれています。
<regex> <pattern> </pattern> <substitution>%20</substitution> <regex>この表現では、パターンの値として1個の空白文字が使用されています。この表現は、URL内で空白文字が見つかったら、それを%20(16進)としてエンコードするという意味です。たとえば、URLにPrice List.htmlという名前のドキュメントが含まれている場合は、そのドキュメントが正しく処理されるようにPrice%20List.htmlとエンコードされます。
このファイルの名前は、default.xml構成ファイル内のurlnormalizer.regex.fileプロパティによってWeb Crawlerに指定します。