列挙フィルタ、生成フィルタのどちらにも、フィルタリング処理における 5 つのフェーズがあります。
セットアップ: 初期化処理を行います。ロボットが存在する間、一度だけ発生します。
メタデータ: そのリソースについて利用可能なメタデータに基づき、リソースをフィルタリングします。リソースがネットワークを介して取得される前に、メタデータのフィルタリングがリソースごとに 1 回実行されます。表 19–1 は、共通のメタデータタイプの例を示しています。
メタデータタイプ |
説明 |
例 |
---|---|---|
完全な URL |
リソースの場所 |
http://home.siroe.com/ |
プロトコル |
URL のアクセス部分 |
http、ftp、file |
ホスト |
URL のアドレス部分 |
www.siroe.com |
IP アドレス |
ホストの数値バージョン |
198.95.249.6 |
PATH |
URL のパス部分 |
/index.html |
深さ |
開始ポイント URL からのリンク数 |
5 |
データ: リソースのデータに基づいてリソースをフィルタリングします。データのフィルタリングは、ネットワークを介してデータが取得されたあとにリソースごとに 1 回実行されます。フィルタリングに使用できるデータには、次のものがあります。
content-type
content-length
content-encoding
content-charset
last-modified
expires
列挙: 検査すべきほかのリソースを参照するかどうかを判断するため、現行のリソース中の参照を列挙します。
生成: リソースのリソース記述 (RD) を生成し、検索サーバーデータベースにその RD を保存します。
シャットダウン: 必要な終了操作を実行します。この処理は、ロボットが存在する間、一度だけ発生します。