完全クロールの実行

完全クロールをコマンド・ラインから実行します。

完全クロールとは、クローラがシード内の全URL(フィルタによって除外されているURLを除く)を処理することを意味します。デフォルトでは、IASによりクロール履歴がworkspace/state/webディレクトリに作成されます。

複数のクロールを同時に同じマシンで実行できます。複数のクロールを実行している場合、各クロールに固有のワークスペース・ディレクトリが必要です。すべてのクロールで同じ構成を使用できますし、クロール固有の構成も使用できます。

注意: デフォルトの構成を使用している場合、Web Crawlerのルート・ディレクトリ(つまり、IAS\versionディレクトリ)からWebクロールを実行する必要があります。クロールを他のディレクトリから実行するには、相対パスではなくlib\pluginsディレクトリへの絶対パスを使用するように、plugin.folders構成プロパティを変更する必要があります。

完全クロールを実行するには:

  1. コマンド・プロンプトを開きます。
  2. Web Crawlerのルート・ディレクトリにナビゲートします。

    絶対パスがplugin.folders構成プロパティで設定されていると、起動スクリプトを外部ディレクトリから実行できることに注意してください。

  3. web-crawlerスクリプトを少なくとも-d-sのフラグで実行します。オプションのフラグを使用してクロールをカスタマイズできます(-wフラグを使用してワークスペース・ディレクトリを指定するなど)。次に例を示します。
    .\bin\web-crawler -c conf\web\myconfig -d 2 -s mysites.lst

    クロールが正常に開始されると、INFO進捗メッセージが表示されます。

Crawler completeメッセージがWeb Crawlerから表示されると、クロールが終了します。出力ファイルは、ワークスペース・ディレクトリのoutputサブディレクトリに書き込まれます。

デフォルトではコンソールですべてのメッセージが受信されることに注意してください。出力をログ(>crawl.logなど)にリダイレクトするか、ファイル・アペンダをlog4j.propertiesログ構成ファイルで指定することで、クロール・ログを作成できます。

次の例は、洗練されたデフォルト構成を使用した完全クロールです。読みやすさのため、タイムスタンプとモジュール名は切り詰められます。完全な出力には、次のサマリーが含まれます。
  • クロール・メトリック情報(Perfセクション)
  • ホスト別とシード深度別に編成されたクロール進捗情報

フェッチされたページ、リダイレクトされたページ、再試行されたページ、なくなったページ(つまり、404エラーなどの理由によりページが利用できない)およびフィルタ処理されたページの各ページ数などのページ情報がクロール・サマリーに含まれます。

完全クロールの実行例

.\bin\web-crawler -c ..\workspace\conf\web-crawler\polite-crawl -d 0 -s http://www.endeca.com
INFO    2009-07-27 09:38:47,528 0       com.endeca.eidi.web.Main [main]  Adding seed: http://www.endeca.com
INFO    2009-07-27 09:38:47,544 16      com.endeca.eidi.web.Main [main]  Seed URLs: [http://www.endeca.com]
INFO    2009-07-27 09:38:49,606 2078    com.endeca.eidi.web.db.CrawlDbFactory [main]  Initialized crawldb: com.endeca.eidi.web.db.BufferedDerbyCrawlDb
INFO    2009-07-27 09:38:49,606 2078    com.endeca.eidi.web.Crawler      [main] Using executor settings: numThreads = 100, maxThreadsPerHost=1
INFO    2009-07-27 09:38:50,841 3313    com.endeca.eidi.web.Crawler      [main] Fetching seed URLs.
INFO    2009-07-27 09:38:51,622 4094    com.endeca.eidi.web.Crawler      [main] Seeds complete.
INFO    2009-07-27 09:38:51,653 4125    com.endeca.eidi.web.Crawler      [main] Starting crawler shut down, waiting for running threads to complete
INFO    2009-07-27 09:38:51,653 4125    com.endeca.eidi.web.Crawler      [main] Progress: Level: Cumulative crawl summary (level)
INFO    2009-07-27 09:38:51,653 4125    com.endeca.eidi.web.Crawler      [main] host-summary: www.endeca.com to depth 1
host    depth   completed       total   blocks
www.endeca.com  0       1       1       1
www.endeca.com  1       0       38      1
www.endeca.com  all     1       39      2

INFO    2009-07-27 09:38:51,653 4125    com.endeca.eidi.web.Crawler      [main] host-summary: total crawled: 1 completed. 39 total.
INFO    2009-07-27 09:38:51,653 4125    com.endeca.eidi.web.Crawler      [main] Shutting down CrawlDb
INFO    2009-07-27 09:38:51,700 4172    com.endeca.eidi.web.Crawler      [main] Progress: Host: Cumulative crawl summary (host)
INFO    2009-07-27 09:38:51,715 4187    com.endeca.eidi.web.Crawler      [main]
Host: www.endeca.com:  1 fetched. 0.0 mB. 1 records. 0 redirected. 0 retried. 0
gone. 19 filtered.
INFO    2009-07-27 09:38:51,715 4187    com.endeca.eidi.web.Crawler      [main] Progress: Perf: All (cumulative) 2.0s. 0.5 Pages/s. 4.8 kB/s. 1 fetched. 0.0 mB.
 1 records. 0 redirected. 0 retried. 0 gone. 19 filtered.
INFO    2009-07-27 09:38:51,715 4187    com.endeca.eidi.web.Crawler      [main] Crawl complete.