robots.txtによる除外基準、およびHTMLページ内のMETA ROBOTSタグを無視するように、またはそれらに従うようにWeb Crawlerを構成できます。
デフォルトでは、default.xml内でhttp.robots.ignore propertyがfalseに設定されています。ただし、conf/web-crawler/non-polite-crawlディレクトリ内のsite.xmlにはhttp.robots.ignoreプロパティのオーバーライドが含まれており、そのファイルではこのプロパティはtrueに設定されています。
<html> <head> <title>Sample Page</title> <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> </head>この場合、NOINDEXタグが存在するため、クローラはこのページの内容を索引付けしません(つまりテキストやタイトルは抽出されません)。また、NOFOLLOWタグが存在するため、このページから外部リンクを抽出する動作も行われません。また、METAタグに従うごとに次のようなメッセージがログに記録されます。
The HTML meta tags for robots contains "noindex", no text and title are extracted for: URL
The HTML meta tags for robots contains "nofollow", no outlinks are extracted for: URL
このプロパティがtrueに設定されると、robots.txtファイル、およびHTMLページ内のすべてのMETA ROBOTSタグは無視されます(たとえば、META ROBOTSタグにNOFOLLOWが設定されている場合でも外部リンクは抽出されます)。