完全クロールについて

このトピックでは、完全クロールの概要について説明します。

完全クロールとは、クローラがシード内の全ページ(フィルタによって除外されているページを除く)を処理することを意味します。完全クロールの一環として、URLのメタデータ情報を含むクロール履歴が作成されます。履歴はクロールのワークスペース・ディレクトリに作成されます。

クロール・データベースによって永続性が提供されるため、以降の再開可能クロールで履歴を使用できます。たとえば、ユーザーがコマンド・ウィンドウで[Ctrl]キーを押しながら[C]キーを押して完全クロールを停止した場合、クローラは終了する前に履歴ファイルをクローズします。その後クロールが再開されると(-rフラグを通じて)、再開されたクロールはステータスがpendingとなっている最初のURLから処理を開始します。

クロールのワークフロー

Web Crawlerは完全クロールを次のように処理します。
  1. クローラはクロール履歴を作成します。以前のデータベースが存在する場合は、上書きされます。
  2. 履歴にクロールの深さが入力されます。
  3. クローラは、シードからアクセス対象のURLのリストを生成し、それらを履歴内のキューに格納します。どのURLもまだアクセスされていないため、各URLにpendingのステータスが設定されます。
  4. クローラはキューからURLを取得し、ページにアクセスして処理し、履歴内のURLのステータスをcompleteに変更します。
  5. クローラは、キュー内のすべてのURLが処理されるまで手順4を繰り返します。