このトピックでは、再開可能クロールの概要について説明します。
再開可能クロール(別名: 再起動可能クロール)は、以前の完全クロールまたは再開クロールのシードURLを使用するクロールです。また、より深いレベル、または異なる構成設定のセット、あるいはその両方を使用します。
クロールを再開するには、-r (または--resume)コマンドライン・フラグを使用します。履歴にはすでにクロールされたシードURLおよびURLリストが含まれているため、再開可能クロールは、ワークスペース・ディレクトリにある以前に作成されたクロール履歴を使用します。再開可能クロールでは、履歴でステータスが「完了」のURLは再クロールされません。
再開可能クロールの想定されるユースケース・シナリオは次のとおりです。
- クロールの実行に成功しました(深さ0を使用したテスト・クロールなど)。そこで同じクロール(同じシードおよび同じ構成)を再度実行しますが、このときは深さを深くします。ただし、最初のクロールで出力が得られたため、これらのページの再クロールは必要ありませんが、かわりに最初のクロールが完了した場所から開始します。
- クロールの実行に成功しました。そこで同じクロール(同じシード)を実行しますが、異なる構成を使用します。この場合も、以前クロールしたページを再クロールせず、最初のクロールの出力を保持します。
再開クロールのルールは次のとおりです。
- 以前のクロールを正常に実行しておく必要があります。つまり、以前のクロールで、再開クロールの開始ポイントとして使用する履歴(状態)データベースを生成しておく必要があります。クロールを正常に停止した場合(履歴データベースが最新の場合)、停止されたクロール(コマンド・ウィンドウで[Ctrl]キーを押しながら[C]キーを押すなど)は、クロールが成功したと判断されます。
- 同じシードの使用が必要です。つまり、-sフラグを使用して、再開クローラに異なるシードを指定できません(このフラグを使用した場合は無視されます)。かわりに、Web Crawlerが履歴データベースからシードを使用します。履歴データベースにはクロールされたURLリストも格納されるため、これらのURLは再開クロールによって再クロールされません。
- 同じワークスペース・ディレクトリの使用が必要です。-wフラグを使用して、異なるワークスペース・ディレクトリを指定できません。再開クロールでは、以前のクロールと同じ履歴データベースを使用する必要があるためです(また、新たにクロールされた情報でそのデータベースを更新する必要もあります)。
- -dフラグを使用して、以前のクロールより深くクロールする必要があります。以前のクロールより深さが浅いクロールまたは深さが同じクロールを指定した場合、レコードは生成されません。(ただし、以前のクロールと同じ深さでも、その深さのクロールが完了していない場合は、レコードが生成されます。)この同じルールは、(-lフラグを使用して)実行される最大リクエスト数にも適用されます。
- -cフラグを使用して、再開クロールに異なる構成を適用できます。クロールされていないページでは新規構成が使用されますが、すでにクロールされたページは影響を受けません。
- 構成を変更できるため、新規の出力ファイル名を指定できます。
- -fフラグは使用できません。