再開可能クロールの実行

コマンド・ラインから再開可能クロールを実行します。

以前のクロールと同じワークスペース・ディレクトリを使用する場合、および有効な履歴がstate/webディレクトリに存在する場合は、再開可能クロールを実行できます。再開クロール作業では、ステータスが保留中の履歴内のURLを実行して、クロール対象の新規URLも生成します。

-dフラグの値を以前のクロールの値より大きくする必要があります。また、新規レコードが取得されないことに注意してください(以前のクロールがその深さを完了していない場合を除く)。また、シードの変更もできません。ただし、再開クロールの構成は変更できます。

注意: デフォルトの構成を使用している場合は、Web Crawlerルート・ディレクトリ(WindowsインストールIAS\<version>ディレクトリ)からWebクロールを実行する必要があります。クロールを他のディレクトリから実行するには、相対パスではなくlib\pluginsディレクトリへの絶対パスを使用するように、plugin.folders構成プロパティを変更する必要があります。

再開可能クロールを実行する手順は次のとおりです。

  1. コマンド・プロンプトを開きます。
  2. Web Crawlerのルート・ディレクトリにナビゲートします。

    たとえば、WindowsのデフォルトのインストールではIAS\<version>です。

    絶対パスがplugin.folders構成プロパティで設定されていると、起動スクリプトを外部ディレクトリから実行できることに注意してください。

  3. web-crawlerスクリプトを-rおよび-d)フラグで実行します。ワークスペース・ディレクトリの場所の指定が必要な場合は、-wフラグを使用します。次に例を示します。
    .\bin\web-crawler -r -d 3

    クロールが正常に開始されると、次のINFOメッセージが最初に読み込まれます。

    Resuming an old crawl. Seed URLs are ignored.

Crawler completeメッセージがWeb Crawlerから表示されると、クロールが終了します。出力ファイルはワークスペース・ディレクトリのoutputサブディレクトリに書き込まれますが、以前の出力ファイルは名前が変更され、output\archiveサブディレクトリに移動されます。

次の例は、デフォルトの洗練された構成を使用した再開クロールです。読みやすさのため、タイムスタンプとモジュール名は切り詰められます。完全クロールと同様に、完全な出力には、クロール・メトリックおよびクロール・ホストの進行サマリーが含まれます。

再開クロールの実行例

.\bin\web-crawler -d 1 -c ..\workspace\conf\web-crawler\polite-crawl -r
Resuming an old crawl.  Seed URLs are ignored.
Initialized crawldb: com.endeca.eidi.web.db.BufferedDerbyCrawlDb
Using executor settings: numThreads = 100, maxThreadsPerHost=1
Resuming the crawl.
Starting crawler shut down, waiting for running threads to complete
Finished level: host: endeca.com, depth: 1, max depth reached
Progress: Level: Cumulative crawl summary (level)
host-summary: endeca.com to depth 2
host          depth   completed   total   blocks
endeca.com    0       0           0       0
endeca.com    1       36          36      1
endeca.com    2       0           141     1
endeca.com    all     36          177     2

host-summary: total crawled: 36 completed. 177 total.
Shutting down CrawlDb
Progress: Host: Cumulative crawl summary (host)
Host: endeca.com:  35 fetched. 0.4 mB. 35 records.
  0 redirected. 0 retried. 1 gone. 377 filtered.
Progress: Perf: All (cumulative) 40.0s. 0.9 Pages/s.
  9.6 kB/s. 35 fetched. 0.4 mds. 0 redirected.
  0 retried. 1 gone. 377 filtered.
Crawl complete.