コンテンツのダウンロード制限の設定

多くのコンテンツが含まれるファイル(大きなPDFやSWFファイルなど)をクローラがダウンロードする場合、コンテンツの制限を超えたためにページがスキップされたことを示す警告メッセージが出力されることがあります。この問題を解消するには、すべてのコンテンツがダウンロードされるように、コンテンツのダウンロード制限の設定を大きくします。

このサイズ制限を超えるコンテンツはダウンロードされません(つまりページはスキップされます)。

コンテンツのダウンロード制限を設定するには:

  1. テキスト・エディタでdefault.xmlを開きます。
  2. http.content.limitプロパティにダウンロードの長さの制限値をバイト単位で設定します。
    注意: コンテンツ制限を負の値または0に設定すると、コンテンツに対して制限は課されなくなります。ただし、Web Crawlerが非常に大きなファイルを検出し、クロールに長い時間がかかるようになる可能性があるため、この設定はお薦めされません。
  3. ファイルを保存して閉じます。

コンテンツのダウンロード制限を超えるコンテンツのクロールの例

コンテンツのサイズがhttp.content.limitプロパティの設定よりも大きい場合の例を次に示します。
WARN com.endeca.eidi.web.UrlProcessor
Content limit exceeded for http://xyz.com/pdf/B2B_info.pdf. Page is skipped.