コマンド・ラインから再開可能クロールを実行します。
以前のクロールと同じワークスペース・ディレクトリを使用する場合、および有効な履歴がstate/webディレクトリに存在する場合は、再開可能クロールを実行できます。再開クロール作業では、ステータスが保留中の履歴内のURLを実行して、クロール対象の新規URLも生成します。
-dフラグの値を以前のクロールの値より大きくする必要があります。また、新規レコードが取得されないことに注意してください(以前のクロールがその深さを完了していない場合を除く)。また、シードの変更もできません。ただし、再開クロールの構成は変更できます。
再開可能クロールを実行する手順は次のとおりです。
Crawler completeメッセージがWeb Crawlerから表示されると、クロールが終了します。出力ファイルはワークスペース・ディレクトリのoutputサブディレクトリに書き込まれますが、以前の出力ファイルは名前が変更され、output\archiveサブディレクトリに移動されます。
次の例は、デフォルトの洗練された構成を使用した再開クロールです。読みやすさのため、タイムスタンプとモジュール名は切り詰められます。完全クロールと同様に、完全な出力には、クロール・メトリックおよびクロール・ホストの進行サマリーが含まれます。
.\bin\web-crawler -d 1 -c ..\workspace\conf\web-crawler\polite-crawl -r Resuming an old crawl. Seed URLs are ignored. Initialized crawldb: com.endeca.eidi.web.db.BufferedDerbyCrawlDb Using executor settings: numThreads = 100, maxThreadsPerHost=1 Resuming the crawl. Starting crawler shut down, waiting for running threads to complete Finished level: host: endeca.com, depth: 1, max depth reached Progress: Level: Cumulative crawl summary (level) host-summary: endeca.com to depth 2 host depth completed total blocks endeca.com 0 0 0 0 endeca.com 1 36 36 1 endeca.com 2 0 141 1 endeca.com all 36 177 2 host-summary: total crawled: 36 completed. 177 total. Shutting down CrawlDb Progress: Host: Cumulative crawl summary (host) Host: endeca.com: 35 fetched. 0.4 mB. 35 records. 0 redirected. 0 retried. 1 gone. 377 filtered. Progress: Perf: All (cumulative) 40.0s. 0.9 Pages/s. 9.6 kB/s. 35 fetched. 0.4 mds. 0 redirected. 0 retried. 1 gone. 377 filtered. Crawl complete.