regex-normalize.xmlファイル

regex-normalize.xmlファイルは、URLを正規化するための置換を提供します。

regex-normalize.xmlファイルは、RegexUrlNormalizerクラスの構成ファイルです。このファイルを使用することによって、URL正規化のための置換で使用される正規表現を指定できます。このファイルには、サンプルの正規表現としていくつかの規則が含まれています。

たとえば、空白文字を含むURLのサイトをクロールする場合は、次の正規表現を追加して強制的にURLエンコーディングを適用する必要があります。
<regex>
    <pattern> </pattern>
     <substitution>%20</substitution>
<regex>
この表現では、パターンの値として1個の空白文字が使用されています。この表現は、URL内で空白文字が見つかったら、それを%20(16進)としてエンコードするという意味です。たとえば、URLにPrice List.htmlという名前のドキュメントが含まれている場合は、そのドキュメントが正しく処理されるようにPrice%20List.htmlとエンコードされます。
ファイルを変更するときには、次の点に注意してください。

このファイルの名前は、default.xml構成ファイル内のurlnormalizer.regex.fileプロパティによってWeb Crawlerに指定します。