完全クロールをコマンド・ラインから実行します。
完全クロールとは、クローラがシード内の全URL(フィルタによって除外されているURLを除く)を処理することを意味します。デフォルトでは、IASによりクロール履歴がworkspace/state/webディレクトリに作成されます。
複数のクロールを同時に同じマシンで実行できます。複数のクロールを実行している場合、各クロールに固有のワークスペース・ディレクトリが必要です。すべてのクロールで同じ構成を使用できますし、クロール固有の構成も使用できます。
完全クロールを実行するには:
Crawler completeメッセージがWeb Crawlerから表示されると、クロールが終了します。出力ファイルは、ワークスペース・ディレクトリのoutputサブディレクトリに書き込まれます。
デフォルトではコンソールですべてのメッセージが受信されることに注意してください。出力をログ(>crawl.logなど)にリダイレクトするか、ファイル・アペンダをlog4j.propertiesログ構成ファイルで指定することで、クロール・ログを作成できます。
フェッチされたページ、リダイレクトされたページ、再試行されたページ、なくなったページ(つまり、404エラーなどの理由によりページが利用できない)およびフィルタ処理されたページの各ページ数などのページ情報がクロール・サマリーに含まれます。
.\bin\web-crawler -c ..\workspace\conf\web-crawler\polite-crawl -d 0 -s http://www.endeca.com INFO 2009-07-27 09:38:47,528 0 com.endeca.eidi.web.Main [main] Adding seed: http://www.endeca.com INFO 2009-07-27 09:38:47,544 16 com.endeca.eidi.web.Main [main] Seed URLs: [http://www.endeca.com] INFO 2009-07-27 09:38:49,606 2078 com.endeca.eidi.web.db.CrawlDbFactory [main] Initialized crawldb: com.endeca.eidi.web.db.BufferedDerbyCrawlDb INFO 2009-07-27 09:38:49,606 2078 com.endeca.eidi.web.Crawler [main] Using executor settings: numThreads = 100, maxThreadsPerHost=1 INFO 2009-07-27 09:38:50,841 3313 com.endeca.eidi.web.Crawler [main] Fetching seed URLs. INFO 2009-07-27 09:38:51,622 4094 com.endeca.eidi.web.Crawler [main] Seeds complete. INFO 2009-07-27 09:38:51,653 4125 com.endeca.eidi.web.Crawler [main] Starting crawler shut down, waiting for running threads to complete INFO 2009-07-27 09:38:51,653 4125 com.endeca.eidi.web.Crawler [main] Progress: Level: Cumulative crawl summary (level) INFO 2009-07-27 09:38:51,653 4125 com.endeca.eidi.web.Crawler [main] host-summary: www.endeca.com to depth 1 host depth completed total blocks www.endeca.com 0 1 1 1 www.endeca.com 1 0 38 1 www.endeca.com all 1 39 2 INFO 2009-07-27 09:38:51,653 4125 com.endeca.eidi.web.Crawler [main] host-summary: total crawled: 1 completed. 39 total. INFO 2009-07-27 09:38:51,653 4125 com.endeca.eidi.web.Crawler [main] Shutting down CrawlDb INFO 2009-07-27 09:38:51,700 4172 com.endeca.eidi.web.Crawler [main] Progress: Host: Cumulative crawl summary (host) INFO 2009-07-27 09:38:51,715 4187 com.endeca.eidi.web.Crawler [main] Host: www.endeca.com: 1 fetched. 0.0 mB. 1 records. 0 redirected. 0 retried. 0 gone. 19 filtered. INFO 2009-07-27 09:38:51,715 4187 com.endeca.eidi.web.Crawler [main] Progress: Perf: All (cumulative) 2.0s. 0.5 Pages/s. 4.8 kB/s. 1 fetched. 0.0 mB. 1 records. 0 redirected. 0 retried. 0 gone. 19 filtered. INFO 2009-07-27 09:38:51,715 4187 com.endeca.eidi.web.Crawler [main] Crawl complete.