検索サーバーロボットは、ドメイン内のリソースを特定し、レポートを作成するエージェントです。これには、2 種類のフィルタを使用します。列挙子フィルタとジェネレータフィルタです。
列挙子フィルタは、ネットワークプロトコルを使用してリソースを検出します。列挙子フィルタは、各リソースをテストし、適切な基準に一致した場合はリソースを列挙します。たとえば、列挙子フィルタは HTML ファイルからハイパーテキストリンクを抽出し、そのリンクを使用して別のリソースを検索できます。
ジェネレータフィルタは各リソースをテストし、リソース記述 (RD) を作成する必 要があるかどうかを確認します。リソースがテストに合格した場合、ジェネレータは検索サーバーデータベースに格納される RD を作成します。
ロボットを管理するために必要な設定と保守タスクについては、次の節で説明します。
図 19–1 は、ロボットが URL と関連するネットワークリソースを調べる方法を示しています。列挙機能と生成機能の両方が各リソースをテストします。リソースが列挙テストに合格すると、ロボットがそのリソースをほかの URL について検査します。リソースがジェネレータテストに合格すると、ロボットは検索サーバーデータベースに格納されているリソース記述を生成します。
ロボット設定ファイルでは、ロボットの動作が定義されます。これらのファイルは、/var/opt/SUNWportal/searchservers/searchserverid/config ディレクトリにあります。次のリストは、各ロボット設定ファイルを説明しています。
ロボットが生成する RD の分類に使用されるルールを含みます。
ロボットが使用する列挙フィルタと生成フィルタを定義します。
ロボットのサイト定義、開始ポイント URL、MIME タイプに基づくフィルタリングルール、および URL パターンを含みます。
ロボットのオペレーティングプロパティーのほとんどを定義します。
検索サーバー管理インタフェースを使用すれば、ほとんどのプロパティーを設定できるので、通常は robot.conf ファイルを編集する必要はありません。ただし、上級ユーザーはこのファイルを手動で編集することにより、インタフェースを介してでは設定できないプロパティーを設定することができます。
ロボットはリソースを見つけて、それらの記述をデータベースに追加するかどうかを決定します。どのサーバーを訪問し、サーバーのどの部分のインデックスを作成するかの判断は、サイト定義と呼ばれます。
ロボットのサイトの定義は、サーバー管理者のもっとも重要な作業の 1 つです。ロボットは、インデックス作成が必要なすべてのサーバーに送信しなければなりませんが、同時に、データベース領域を過度に拡張して正確な情報の検索を困難にする可能性のある外部サイトを排除することも必要です。
ロボットは、インデックスの作成のために選択したさまざまなサイトへのリンクを抽出し、追跡します。システム管理者は、次のようなさまざまな設定によって、これらのプロセスを制御できます。
ロボットの起動、停止、スケジューリング
ロボットが訪問するサイトの定義
巡回の頻度を指定する巡回属性
フィルタを定義することによる、ロボットがインデックスを作成するリソースタイプ
インデックス属性を定義することによる、ロボットがデータベースに作成するエントリの種類
ロボットの巡回属性についての説明は、『Sun Java System Portal Server 7.2 Technical Reference』を参照してください。
フィルタを使用すると、リソースの属性をフィルタ定義と比較することでリソースを識別できるようになるので、これを除外することも、含むこともできます。ロボットは多くの事前定義されたフィルタを提供します。一部のフィルタはデフォルトで有効です。次のフィルタは事前定義されています。アスタリスク (*) の付いたファイルがデフォルトで有効です。
アーカイブファイル*
オーディオファイル*
バックアップファイル*
バイナリファイル*
CGI ファイル*
画像ファイル*
Java、JavaScript、スタイルシートファイル*
ログファイル*
Lotus Domino ドキュメント
Lotus Domino オープンビュー
プラグインファイル
Power Point ファイル
リビジョン管理ファイル*
ソースコードファイル*
スプレッドシートファイル
システムディレクトリ (UNIX)
システムディレクトリ (NT)
一時ファイル*
ビデオファイル*
新規フィルタ定義の作成、フィルタ定義の変更、またはフィルタの有効化または無効化が可能です。詳細は、「リソースフィルタリング処理」を参照してください。
ロボットには次の 2 つのデバッグツールまたはユーティリティーがあります。
検索データを最新に維持するには、ロボットがサイトを定期的に検索して、インデックスを作成する必要があります。ロボットの巡回とインデックス作成は処理リソースとネットワークの帯域幅を消費する場合があるため、ピーク以外の時間帯にロボットを実行するようにスケジュール設定してください。管理コンソールを使用すると、管理者はロボットを実行するスケジュールをセットアップすることができます。