robots.txtファイルの順守について

robots.txtによる除外基準、およびHTMLページ内のMETA ROBOTSタグを無視するように、またはそれらに従うようにWeb Crawlerを構成できます。

デフォルトでは、default.xml内でhttp.robots.ignore propertyがfalseに設定されています。ただし、conf/web-crawler/non-polite-crawlディレクトリ内のsite.xmlにはhttp.robots.ignoreプロパティのオーバーライドが含まれており、そのファイルではこのプロパティはtrueに設定されています。

このプロパティがfalseに設定されており、HTMLページに次のMETAタグが含まれている場合を考えます。

<html>
<head>
<title>Sample Page</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>

この場合、NOINDEXタグが存在するため、クローラはこのページの内容を索引付けしません(つまりテキストやタイトルは抽出されません)。また、NOFOLLOWタグが存在するため、このページから外部リンクを抽出する動作も行われません。また、METAタグに従うごとに次のようなメッセージがログに記録されます。

The HTML meta tags for robots contains "noindex", no text and title are extracted for: URL

The HTML meta tags for robots contains "nofollow", no outlinks are extracted for: URL

このプロパティがtrueに設定されると、robots.txtファイル、およびHTMLページ内のすべてのMETA ROBOTSタグは無視されます(たとえば、META ROBOTSタグにNOFOLLOWが設定されている場合でも外部リンクは抽出されます)。