フェッチャとは、Webサイトから実際にページをフェッチするWeb Crawlerのコンポーネントです。default.xmlファイル内に、フェッチャに関するプロパティを設定します。
プロパティ名 | プロパティの値 |
---|---|
fetcher.delay | 秒数です(デフォルトは2.0)。同一のサーバーに対して連続してリクエストを行う場合に、リクエスト間にフェッチャが挿入する遅延時間の秒数を指定します。1つのホストに対して複数のスレッドを使用する場合、この遅延時間はスレッド単位で計測されます。全スレッドを合せて計測されるのではありません。 |
fetcher.delay.max | 秒数です(デフォルトは30)。ページのリクエスト間の最大待機時間を指定します。 |
fetcher.threads.total | 整数です(デフォルトは100)。フェッチャが使用するスレッドの数を指定します。この値によって、同時に実行されるリクエストの最大数が決定されます(各スレッドで1つの接続を処理するため)。 |
fetcher.threads.per-host | 整数です(デフォルトは1)。1つのホストへの同時アクセスを許可する最大スレッド数を指定します。 |
fetcher.retry.max | 整数です(デフォルトは3)。1つのページに対する再試行の最大回数を指定します。この再試行回数以内にフェッチできなかった場合、そのページはスキップされます。 |
fetcher.retry.delay | 秒数です(デフォルトは5)。同一ページに対して続けて再試行する際に、再試行の間に挿入される遅延時間を指定します。この値がfetcher.delayの値よりも小さい場合は、fetcher.delayの値が使用されます。 |