対象となるホストの指定

crawl-urlfilter.txtファイルを設定し、クロール対象を特定のドメインに限定します。

各構成ディレクトリ(defaultpoliteおよびnon-polite)にあるすべてのcrawl-urlfilter.txtファイルでは、次の行がコメント・アウトされています。
# accept hosts in MY.DOMAIN.NAME
# +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME.com/

対象となるホストを指定するには:

  1. テキスト・エディタでcrawl-urlfilter.txtを開きます。
  2. "MY.DOMAIN.NAME"をクロール対象のドメイン名に置き換えます。コメントではない行に対しても、この置換を行います。
  3. 次のように、ファイルの最後にあるプラス記号をマイナス記号に置き換え、コメントを更新します。
    # exclude everything else
    -.
  4. ファイルを保存して閉じます。

対象となるホストの指定例

次に示す行によって、対象となるホストを指定します。
# accept hosts within endeca.com
+^http://([a-z0-9]*\.)*endeca.com/
ファイルの最後にある次の行を変更します。
# include everything
+.
前述の行のプラス記号をマイナス記号に置き換えます。次のようになります。
# exclude everything else
-.

これら2つの変更によって、endeca.comドメインがクローラの対象となり、それ以外のすべてのドメインは除外されます。