Sun Java System Portal Server 7.2 管理ガイド

検索サーバーロボットについて

検索サーバーロボットは、ドメイン内のリソースを特定し、レポートを作成するエージェントです。これには、2 種類のフィルタを使用します。列挙子フィルタとジェネレータフィルタです。

列挙子フィルタは、ネットワークプロトコルを使用してリソースを検出します。列挙子フィルタは、各リソースをテストし、適切な基準に一致した場合はリソースを列挙します。たとえば、列挙子フィルタは HTML ファイルからハイパーテキストリンクを抽出し、そのリンクを使用して別のリソースを検索できます。

ジェネレータフィルタは各リソースをテストし、リソース記述 (RD) を作成する必 要があるかどうかを確認します。リソースがテストに合格した場合、ジェネレータは検索サーバーデータベースに格納される RD を作成します。

ロボットを管理するために必要な設定と保守タスクについては、次の節で説明します。

ロボットの動作の仕組み

図 19–1 は、ロボットが URL と関連するネットワークリソースを調べる方法を示しています。列挙機能と生成機能の両方が各リソースをテストします。リソースが列挙テストに合格すると、ロボットがそのリソースをほかの URL について検査します。リソースがジェネレータテストに合格すると、ロボットは検索サーバーデータベースに格納されているリソース記述を生成します。

図 19–1 ロボットの動作の仕組み

次の図は、ロボットの動作の仕組みを示しています。

ロボット設定ファイル

ロボット設定ファイルでは、ロボットの動作が定義されます。これらのファイルは、/var/opt/SUNWportal/searchservers/searchserverid/config ディレクトリにあります。次のリストは、各ロボット設定ファイルを説明しています。

classification.conf

ロボットが生成する RD の分類に使用されるルールを含みます。

filter.conf

ロボットが使用する列挙フィルタと生成フィルタを定義します。

filterrules.conf

ロボットのサイト定義、開始ポイント URL、MIME タイプに基づくフィルタリングルール、および URL パターンを含みます。

robot.conf

ロボットのオペレーティングプロパティーのほとんどを定義します。

検索サーバー管理インタフェースを使用すれば、ほとんどのプロパティーを設定できるので、通常は robot.conf ファイルを編集する必要はありません。ただし、上級ユーザーはこのファイルを手動で編集することにより、インタフェースを介してでは設定できないプロパティーを設定することができます。

サイトの定義

ロボットはリソースを見つけて、それらの記述をデータベースに追加するかどうかを決定します。どのサーバーを訪問し、サーバーのどの部分のインデックスを作成するかの判断は、サイト定義と呼ばれます。

ロボットのサイトの定義は、サーバー管理者のもっとも重要な作業の 1 つです。ロボットは、インデックス作成が必要なすべてのサーバーに送信しなければなりませんが、同時に、データベース領域を過度に拡張して正確な情報の検索を困難にする可能性のある外部サイトを排除することも必要です。

ロボットの巡回の制御

ロボットは、インデックスの作成のために選択したさまざまなサイトへのリンクを抽出し、追跡します。システム管理者は、次のようなさまざまな設定によって、これらのプロセスを制御できます。

ロボットの巡回属性についての説明は、『Sun Java System Portal Server 7.2 Technical Reference』を参照してください。

ロボットデータのフィルタリング

フィルタを使用すると、リソースの属性をフィルタ定義と比較することでリソースを識別できるようになるので、これを除外することも、含むこともできます。ロボットは多くの事前定義されたフィルタを提供します。一部のフィルタはデフォルトで有効です。次のフィルタは事前定義されています。アスタリスク (*) の付いたファイルがデフォルトで有効です。

新規フィルタ定義の作成、フィルタ定義の変更、またはフィルタの有効化または無効化が可能です。詳細は、「リソースフィルタリング処理」を参照してください。

ロボットユーティリティーの使用

ロボットには次の 2 つのデバッグツールまたはユーティリティーがあります。

ロボットのスケジュール設定

検索データを最新に維持するには、ロボットがサイトを定期的に検索して、インデックスを作成する必要があります。ロボットの巡回とインデックス作成は処理リソースとネットワークの帯域幅を消費する場合があるため、ピーク以外の時間帯にロボットを実行するようにスケジュール設定してください。管理コンソールを使用すると、管理者はロボットを実行するスケジュールをセットアップすることができます。