付録 F 検索の属性

付録 F
検索の属性

この付録では、Sun Java^TM System 管理コンソールを利用して検索エンジンに設定できる属性について説明します。

「サービス管理」から「検索」を選択すると、タブを持つ 2 色のメニューバーが表示されます。この付録は、メニューバー上部のトピックス (タブ) に従って構成されています。

上記のいずれかのタブを選択すると、それに関連するサブトピックが下のメニューバーに一覧表示されます。デフォルトの検索ページでは、「サーバーの設定」が選択されます。それぞれのサブトピックでは、1 つまたは複数の表を使用して、サブトピックの属性について説明します。この表には、属性、デフォルト値、説明の列があります。「属性」は、ページに表示される項目名を示します。「デフォルト値」は「属性」のデフォルト値、「説明」は「属性」の説明とその形式を示します。

表 F-1 は、それぞれの「検索」ページで使用できる「サーバーの選択」属性を示します。

表 F-1 検索サーバーの選択属性
属性	デフォルト値	説明
サーバーの選択	http://servername:80/portal	検索サーバーの完全修飾サーバー名

サーバー

「サーバー」セクションでは、サーバーの設定を行います。一時ファイルとして使用するディレクトリを選び、ログにどの情報を、どの程度詳細に記録するかを選択します。「サーバー」属性は 2 つのページに表示されます。

設定

ロボット

設定

このページには、検索サーバーの管理および操作に関する基本設定が含まれます。

表 F-2 サーバー設定属性
属性	デフォルト値	説明
サーバールート	/var/opt/SUNWps/https-servernamefull/portal	設定、ログ、データベースおよびロボット情報ファイルを格納する。検索を実行したときに作成、および更新されるすべての検索ファイルのルートディレクトリでもある。このディレクトリの設定は変更できない
一時ファイル	/var/opt/SUNWps/https-servernamefull/portal/tmp	検索中に検索の管理に使用されるすべての一時ファイルを格納する。このファイルには、メインデータベースにはまだ追加されていない、新しく生成されたリソース記述も含まれる。検索が完了すると、これらのファイルは削除される
ドキュメントレベルのセキュリティ	オフ	ドキュメントにアクセスできるユーザーを制御する設定を変更した場合は、サーバーを再起動する必要がある値: オフ (デフォルト) に設定すると、すべてのユーザーが RD にアクセス可能になるオンに設定すると、アクセスしようとしているユーザーがアクセス権を持つかどうかについて、RD の ReadACL フィールドが調べられる。アクセス権を持つユーザーは、アクセスが許可された組織またはロールに所属するか、個人的にアクセスが許可されている。ReadACL フィールドは、「データベース」ページ、「リソース記述」ページで設定される

ロボット

このページには、検索サーバーの管理および操作に関する詳細設定が含まれます。ここでは、ユーザークエリー、インデックスのメンテナンス、リソース記述の管理、およびデバッグ用のそれぞれのログファイルを設定します。

表 F-3 サーバーの詳細設定属性
属性	デフォルト値	説明
検索 (rdm)	/var/opt/SUNWps/https-servername/portal/logs/rdm.log	エンドユーザーが作成したデータベースのクエリーを記録する。「検索ログを無効にする」チェックボックスにチェックマークを付けると、このログは記録されないこの場合、ユーザークエリー (rdm) レポートを表示することはできない
検索ログを無効にする	False (チェックボックスがオフ) - 有効	クエリーログの使用を制御するレポートセクションでは、このログを基に、最もよく使用されるクエリーを一覧表示したレポートを作成する値: チェックボックスがオン: 無効チェックボックスがオフ: 有効。ユーザークエリーは、すべてこのログに入力される
インデックスのメンテナンス	/var/opt/SUNWps/https-servername/portal/logs/searchengine.log	検索エンジンに関連するトランザクションを記録する。リソース記述の登録は記録されない
RD マネージャ	/var/opt/SUNWps/https-servername/portal/logs/rdmgr.log	ロボットまたはインポートエージェントからデータベースへ登録したリソース記述の記録。このログは、RD マネージャ (rdmgr) レポートとして表示される
RDM サーバー	/var/opt/SUNWps/https-servername/portal/logs/rdmserver.log	RDM トランザクション上のデバッグ情報を記録する。詳細レベルは、ログレベルで制御する。このログは、RDM サーバー (rdmsvr) レポートとして表示される
ログレベル	1	RDM サーバーログファイルに含まれる詳細情報の量を制御する指定できるレベルは、2、10、20、50、100 および 999 1 (デフォルト) に設定すると、エラーのみが記録される。値を大きくするほど、RDM サーバーのログファイルに含まれる情報が詳細になる

ロボット

ロボットのプロパティは、非常に複雑です。検索 (クローリング) するサイトを決めたら、そのサイトが有効かどうかを確認し、取得するドキュメントのタイプを決め、検索を行うスケジュールを決めます。

ここで説明する内容は次のとおりです。

概要

「ロボットの「概要」」には、ロボットの動作が表示されます。このパネルは 30 秒ごとに更新され、ロボットの状態がオフ、アイドリング、実行中、一時停止のどの状態にあるのかを示します。実行中の場合は、検索のどの段階が処理されているか、その進捗状況が示されます。更新頻度は、search.conf ファイルの robot-refresh パラメータで定義されます。

右上の 2 つのボタンは、それぞれ状態に合わせて切り替わります。ロボットがオフの場合、ボタンは「開始」または「状態を削除」になります。実行中またはアイドリング状態の場合は、ボタンは「終了」または「一時停止」になります。一時停止状態の場合、ボタンは「終了」または「再開」になります。「属性」ボタンのいずれかを選択すると、「レポート」セクションに切り替わり、その属性の最新の詳細レポートを表示できます。

表 F-4 ロボットの「概要」属性
属性	デフォルト値	説明
ロボットは	現在の状態	ロボットの状態。値は、アイドル、実行中、一時停止、またはオフ
更新時刻	最終更新日時	ロボットによる作業の進捗状況を示すために、このページは更新される
開始位置	指定された数値	検索対象として選択したサイト数。サイトは「ロボット」、「サイト」ページでは、無効 (検索されない) になる
URL プール	待機中の URL の数	調査する URL の数。検索を開始すると、開始位置の URL が URL プールに入力される。検索作業が進行すると、ロボットは他の URL へのリンクを発見する。これらの URL はプールに追加される。プール内のすべての URL が検索されると、URL プールは空になり、ロボットはアイドリング状態になる
抽出	秒あたりの接続数	1 秒あたりに参照されたリソース数抽出とは、データベースに取り込むリソース、ドキュメント、またはハイパーリンクを発見し、不要な項目をフィルタリングするプロセスである
フィルタリング	拒否された URL の数	除外された URL の総数
インデックス作成	秒あたりの URL の数	1 秒間にリソース記述に変換されるリソースまたはドキュメントの数インデックス作成とは、検索データベースに取り込むために、ドキュメントに収集されたすべての情報をリソース記述に変換する段階である
除外 URL	フィルタによって除外された URL の数	フィルタリング条件を満たさなかった URL の数
	エラーによって除外された URL の数	ロボットでファイルが見つからないというエラーが検出された URL の数
リソース記述	提供された RD の数	データベースに追加されたリソース記述の数
	提供された RD のバイト数	データベースに追加されたバイト数
全体の状態	取得された URL の数	実行中に取得された URL の数
	RD の平均サイズのバイト数	リソース記述あたりの平均バイト数
	稼動時間 (日数、時間、分、および秒)	ロボットを実行した時間

サイト

このセクションの最初のページには、検索を実行できるサイトが表示されます。

ラジオボタンを使用して、サイトを「オン」または「オフ」にできます。ロボットを実行しても、オフにしたサイトは検索されません。「編集」リンクは、検索サイトを定義する方法を変更するページを表示します。

サイトを削除するには、チェックボックスをオンにして、「削除」をクリックします。

新しいサイトを追加するには、「新規」をクリックします。URL またはドメインをテキストボックスに追加し、検索の深さを選択します。「作成」を選択すると、デフォルト値を使用して作成します。または、デフォルト以外の値を使用するために、「作成と編集」をクリックし、「編集」ページへ進み検索サイトを定義します。

表 F-5 ロボット管理サイト属性
属性	デフォルト値	説明
ロックまたはクラスタの画像	サイトの状態	開いたロックは、URL にアクセス可能なことを意味する。閉じられたロックは、サイトが安全な Web サーバーであり、SSL を使用していることを意味する。クラスタは、サイトがドメインであることを意味する
オン / オフ	オン	ロボットが実行しているときに、このサイトを検索するか、しないかを指定する

「新規サイト」ページでは、インデックスを作成するサイト全体の設定ができます。

表 F-6 ロボットの新規サイト属性
属性	デフォルト値	説明
新規サイト	URL	URL の形式は、 http://www.sesta.com ドメインの形式は、 *.sesta.com
深さ	10	この URL のみは 1、URL と最初のリンクは 2、ロボットは 100、さらに、3 ～ 10、または無制限から選択する。デフォルト値は、「ロボット」、「クローリング」ページで設定する

編集ページでは、検索サイトをより詳細に定義できます。サーバータイプの指定、検索の深さの再定義、および検索データベースに追加するファイルタイプの指定ができます。URL とドメインサイトの属性は、大部分は同じです。この表に追加されている列は、どの属性が共有され、どれが固有であるかを示します。

このページでは、多くの操作が行われます。入力した検索サイトのサーバー名を確認できます。「サーバーグループ」セクションで「追加」をクリックすると、サーバーグループにさらにサーバーを追加できます。「開始位置」セクションで「追加」をクリックすると、開始位置をさらに追加できます。「フィルタ定義」セクションでは、特定のタイプのファイルを追加または削除、除外または取り込むことができ、これらのファイルに適用するフィルタの順序も変更できます。

表 F-7 ロボットのサイト編集属性
属性	URL またはドメイン	デフォルト値	説明
サイトのニックネーム	URL / ドメイン	入力されたサイト: www.sesta.com	最初のページに表示される名前。デフォルトは、入力された URL またはドメイン。この名前をここで変更できる
削除または確認するサイトを選択するチェックボックス	URL / ドメイン	チェックボックスがオフ	チェックボックスがオフ: 選択されないチェックボックスがオン: 選択される
サーバーグループ名	URL	URL: www.sesta.com	単一サーバーまたは単一サーバーの一部。エントリにはホスト名全体を含める必要がある。ホスト名だけを指定すると、そのホストだけにサイトが制限される。ホスト名に加えてディレクトリ情報を入力すると、サイトはそのディレクトリおよびすべてのサブディレクトリとして定義される
ドメインのサフィックス	ドメイン	入力されたドメイン: *.sesta.com	.sesta.com *.sesta.com のように、ドメイン内のすべてのサーバーを含む
ポート	URL / ドメイン	URL は 80、ドメインでは空白	検索中のサイトが別のポートを使用する場合は、そのポートを入力する
タイプ	URL	Web サーバー	Web サーバー、ファイルサーバー、FTP サーバー、セキュリティ保護された Web サーバー
許容されるプロトコル	ドメイン	すべてのチェックボックスがオン	http、file、ftp、https のチェックボックス
開始位置: 削除するサイトを選択するためのチェックボックス	URL / ドメイン	チェックボックスがオフ	チェックボックスがオフ: 選択されないチェックボックスがオン: 選択される
開始位置: URL	URL / ドメイン	http:// URL:80	URL またはドメイン
開始位置 - 深さ	URL / ドメイン	10	1 は、この URL のみ 2 は、この URL と最初のリンク 3-10 無制限
フィルタ定義: 削除するファイルのタイプを選択するためのチェックボックス	URL / ドメイン	チェックボックスがオフ	チェックボックスがオフ: 選択されないチェックボックスがオン: 選択される
フィルタ定義	URL / ドメイン	デフォルトの順番: アーカイブファイル、オーディオファイル、バックアップファイル、バイナリファイル、CGI ファイル、イメージファイル、Java、JavaScript、スタイルシートファイル、ログファイル、レビジョンコントロールファイル、ソースコードファイル、一時ファイル、ビデオファイル	選択可能なファイルは次のとおり: アーカイブファイル、オーディオファイル、バックアップファイル、バイナリファイル、CGI ファイル、イメージファイル、Java、JavaScript、スタイルシートファイル、ログファイル、パワーポイントファイル、レビジョンコントロールファイル、ソースコードファイル、一時ファイル、ビデオファイル、スプレッドシートファイル、プラグインファイル、ロータスドミノドキュメント、ロータスドミノ OpenView、システムディレクトリ (UNIX)、システムディレクトリ (Windows)
コメント	URL / ドメイン	空白	サイトの説明を記述するテキストフィールド。ロボットはこれを使用しない
DNS 変換	URL	空白	DNS 変換は、ドメイン名またはエイリアスを cname に変換し、URL およびクローリングの方法を変更する。形式:alias1->cname1,alias2->cname1

フィルタ

このセクションの最初のページには、定義されているすべてのフィルタルールと、それを使用するサイト定義が表示されます。それぞれのフィルタ名の前には、ドキュメントタイプを選択するためのチェックボックスと、フィルタルールをオン、オフするための 2 つのラジオボタンがあります。チェックボックスにチェックマークを付けると、そのフィルタを選択して削除することができます。新規フィルタを追加するには「新規」をクリックします。新規フィルタのページは「編集」ページを簡略化したもので、1 つのニックネームと 1 つのルールだけが要求されます。もう 1 つのオプションとして「編集」リンクがあります。これを選択すると、特定のファイルタイプに対するルールやフィルタの動作を定義するページへ移動します。それぞれのルールは、フィルタソースのドロップダウンリスト、検索条件のドロップダウンリスト、およびフィルタ文字列の詳細を入力するテキストボックスで構成されています。

表 F-8 ロボットのフィルタ編集の属性
属性	デフォルト値	説明
フィルタ名	新しい名前を入力するプロンプト。編集のために選択するファイルタイプのファイル名	そのフィルタを適用するファイルタイプを反映する、明確な名前
フィルタソースのドロップダウンリスト	新規フィルタでは URL。そのファイルタイプ用に、以前に選択された情報が表示される	URL、プロトコル、ホスト、パス、MIME タイプ
選択基準のドロップダウンリスト	新規フィルタでは is。そのファイルタイプ用に、以前に選択された情報が表示される。たとえば、バイナリファイルでは exe で終わる (ends with)	「である (is)」、「を含む (contains)」、「で始まる (begins with)」、「で終わる (ends with)」、「正規表現 (regular expression)」
タイプ (ディレクトリ、プロトコル、ファイル拡張子) を指定するテキストボックス	新規フィルタの場合は空白。そのファイルタイプ用に、以前に入力された情報が表示される。たとえば、/tmp/ を含む (contains) 一時ファイル	このテキストボックスに、一致させる項目を列挙する。たとえば、http://docs.sesta.com/manual.html と一致する項目はプロトコルは http、ホストは sesta を含む。ファイル名は html で終わる
説明	新しい説明を入力するプロンプト。以前入力したそのファイルタイプの説明が表示される	フィルタ規則の説明。ロボットはこれを使用しない
新規サイト	新規フィルタの場合は、True (チェックボックスがオン)。そのファイルタイプ用に以前に選択された値が表示される	これは、新規サイトの作成時にデフォルトフィルタの 1 つとして使用される。このチェックボックスをオンにしなくても、「ロボット」、「サイト」ページでサイトを編集してこのフィルタを新規サイトに追加できる
デフォルト	新規フィルタの場合は何も選択されていない。定義済みのファイルタイプ用に、以前に選択されたデフォルト	このフィルタと一致するドキュメントを除外するこのフィルタと一致するドキュメントを含める新規フィルタ用の選択は、既存のサイト定義には影響しない。新規フィルタを既存のサイトで使用するには、「ロボット」、「サイト」ページでサイトを編集して追加する
属性	このフィルタを使用するサイトが一覧表示される

クローリング

このページの設定によって、ロボットのオペレーションパラメータとデフォルトを制御します。速度、完了のアクション、ログファイルの設定、標準への準拠、認証パラメータ、プロキシ、詳細設定、およびリンクの抽出のセクションに分けられます。

表 F-9 ロボットのクローリング属性
属性	デフォルト値	説明
サーバー遅延	遅延なし	遅延なし (デフォルト)、1 秒、2 秒、5 秒、10 秒、30 秒、1 分、5 分
最大接続数: 同時に取得する URL 数の最大値	8	1、2、4、8 (デフォルト)、10、12、16、20
サイトあたりの最大接続	2	(無制限)、1、2、4、8、10、12、16、20
RD を送信してすべてのインデックスを作成	30 分	3 分、5 分、10 分、15 分、30 分 (デフォルト)、1 時間、2 時間、4 時間、8 時間
起動スクリプト	なし (デフォルト)	なし (デフォルト)。サンプルファイルは、/opt/SUNWps/samples/robot ディレクトリ (デフォルトのインストール) の cmdHookファイルを参照
すべての URL の処理後	アイドル (デフォルト)	アイドル状態になる (デフォルト)、シャットダウン、やり直し
連絡先の電子メール	user@domain	電子メールアドレスを入力する
ログレベル	1: 生成	0 エラーのみ、1 生成 (デフォルト)、2 列挙、変換、3 フィルタリング、4 作成、5 取得。
ユーザーエージェント	SunJavaSystemRobot/6.0	検索サーバーのバージョン
robots.txt プロトコルを無視	False (チェックボックスがオフ)	サーバーの中には、robot.txt ファイルにロボットによる検索を拒否する記述をしたものがある。このファイルを持つサイトに遭遇した場合、属性が false の時にロボットはそのサイトを検索しない。この属性が true の場合、ロボットはファイルを無視してそのサイトを検索する
認証の実行	はい	はいいいえ
ロボットのユーザー名	匿名	ロボットは匿名のユーザー名を使用してサイトにアクセスする
パスワード	user@domain	匿名ユーザーを認めるサイトの多くは、パスワードとして電子メールアドレスを要求する。このアドレスはプレーンテキストである
プロキシのユーザー名	匿名	ロボットは匿名のユーザー名を使用してサイトにアクセスする
パスワード	user@domain	匿名ユーザーを認めるサイトの多くは、パスワードとして電子メールアドレスを要求する。このアドレスはプレーンテキストである
プロキシ接続タイプ	インターネットへの直接接続	インターネットへの直接接続、プロキシ (自動設定)、プロキシ (手動設定)
自動プロキシ設定 / タイプ	ローカルプロキシファイル	ローカルプロキシファイル、リモートプロキシファイル
自動プロキシ設定 / 位置	空白	自動プロキシのファイルには、必要なプロキシ情報すべての一覧が含まれるローカルプロキシファイルの例は、robot.pac を参照。リモートプロキシファイルの例は、http://proxy.sesta.com:8080/proxy.pac を参照
手動プロキシ設定/HTTP プロキシ	空白	形式: server1.sesta.com:8080。これら 3 つの手動設定値は、/var/opt/SUNWps/https-servername/portal/config ディレクトリにあるrobot.pac ファイルに保存される
手動プロキシ設定/HTTPS プロキシ	空白	この手動設定値は、robot.pac ファイルに保存される形式: server1.sesta.com:8080
手動プロキシ設定 / FTP プロキシ	空白	この手動設定値は、robot.pac ファイルに保存される形式: server1.sesta.com:8080
HTML のリンクを追跡	True (チェックボックスがオン)	HTML からハイパーリンクを抽出する
最大リンク数	1024	1 つの HTML リソースから、ロボットが抽出できるリンク数を制限する。ロボットがサイトを検索すると、他のリソースへのリンクも発見するため、場合によっては多数のリンクをたどって元の開始位置から極端に離れたリンクまで追ってしまう可能性がある
プレーンテキストのリンクを追跡	False (チェックボックスがオフ)	プレーンテキストからハイパーリンクを抽出する
最大リンク数	1024	1 つのテキストリソースから、ロボットが抽出できるリンク数を制限する
Cookie の使用	False (チェックボックスがオフ)	True (チェックボックスがオン) の場合、ロボットはクローリングの際に cookie を使用する。クッキーを使用しないと、正常にナビゲートできないサイトも存在する。cookie はロボットの状態ディレクトリにある cookies.txt ファイルに保存される。cookies.txt の形式は、Netscape^TM Communicator のブラウザで使用されている形式と同じ
IP をソースとして使用	True (チェックボックスがオン)	ほとんどの場合、ロボットはリソースのドメイン名だけを対象に動作する。場合によっては、インターネットプロトコル (IP) アドレスによるサブネットに基づいて、フィルタリングまたは分類を可能にする必要もある。この場合、ドメイン名に加えて IP アドレスの取得も、ロボットに対して明示的に許可する必要がある。IP アドレスを取得するには、DNS をさらに検索する必要があるため、ロボットの動作速度が低下する。必要のない場合は、このオプションをオフにするとパフォーマンスが向上する
ホストの発見的解決	False (チェックボックスがオフ)	チェックマークを付けた場合、ロボットはサーバーが使用する共通の代替ホスト名を単一の名前に変換する。この設定は、1 つのサイトが同じアドレスのエイリアスとして、複数のサーバーを持っている場合に最も便利である。たとえば、www.sesta.com というサイトには他にも、www1.sesta.com、www2.sesta.com などの名前を持つ場合があるこのオプションをオンにすると、wwwn (この n は任意の整数) で始まるすべてのホスト名が内部で www に変換される。この属性はホスト名が wwwn で始まる場合にのみ有効であるこの属性は CNAME 解決がオフ (False) の場合は使用できない
ホスト名を CNAME に解決	False (チェックボックスがオフ)	True の場合、ロボットは検出したすべてのホスト名の妥当性検査を行い、標準的なホスト名に変換する。これにより、ロボットは固有の RD を正確に追跡できるようになる。False (チェックボックスがオフ) の場合、ロボットはホスト名の妥当性検査は行うが、標準的なホスト名への変換は行わない。このため、ロボットが検出したそれぞれのホスト名に重複する RD がリストされる可能性が生じるたとえば、devedge.sesta.com は、developer.sesta.com のエイリアスである。CNAME 解決がオンの場合、devedge.sesta.com として参照された URL は、developer.sesta.com で検出されたものとしてリストされる。CNAME 解決がオフの場合、RD は参照元である devedge.sesta.com を保持するホストの発見的解決は、CNAME 解決がオフ (False) の場合には有効化できない
すべてのホストからのコマンドを受け入れる	False (チェックボックスがオフ)	ロボットの持つ制御機能のほとんどは、TCP/IP ポート経由で動作する。この属性は、ロボットがローカルホストからのコマンドだけを受け入れるか (False)、あるいはネットワーク上からのコマンドをすべて受け入れる (True) かを設定するロボットの直接制御をローカルホストに限定する (False) ことが推奨される。この設定でも、管理コンソールによるロボットの遠隔制御は可能である
デフォルトの開始位置の深さ	10	1 開始位置のみ、2 ブックマークスタイル、3 ～ 10、無制限。ロボットがすべての開始位置からたどる、ハイパーリンクレベルのデフォルト値。「ロボット」、「サイト」ページでのサイトの編集により、どの開始位置に対しても深さを設定できる
ワークディレクトリ	/var/opt/SUNWps/https-servernamefull/portal/tmp	ロボットがデータを保存するために使用する、一時的な作業用ディレクトリの完全パス名。ロボットは、多数のドキュメントの全内容を取得してこのディレクトリに保存するため、ディレクトリには一度に大量のドキュメントを扱うのに充分な容量が必要である
状態ディレクトリ	/var/opt/SUNWps/https-servernamefull/portal/robot	ロボットが訪問した URL のリスト、URL プールなどの状態情報を保存するために使用する、一時ディレクトリの完全パス名。このデータベースのサイズは、かなり大きくなる可能性があるため、ワークディレクトリとは異なるパーティションに置くことが推奨される

インデックス作成

ロボットはサイトを検索し、選択されたフィルタを基準にドキュメントを収集します。さまざまな形式のドキュメントが収集されます。収集したドキュメントを統一し、読みやすくするために、形式を HTML に統一します。このページでは、各リソース記述に関連するいくつかの部分を設定します。

表 F-10 ロボットのインデックスの属性
属性	デフォルト値	説明
完全なテキスト / 部分的なテキスト	部分的なテキスト	完全なテキストの場合、リソース記述には完全なドキュメントを使用する。部分的なテキストの場合、リソース記述にはドキュメントの内から、指定されたバイト数だけを使用する
最初に抽出するバイト数	4096	バイト数を入力する
目次を抽出	True (チェックボックスがオン)	True の場合、リソース記述に目次を含める
META タグのデータを抽出	True (チェックボックスがオン)	True の場合、リソース記述に META タグを含める
ドキュメントコンバータ	すべてにチェックマークが付けられている (True)。False の場合、そのタイプのドキュメントは、インデックスが作成されない	Adobe PDF Corel Presentations Corel Quattro Pro FrameMaker Lotus Ami Pro Lotus Freelance Lotus Word Pro Lotus 1-2-3 Microsoft Excel Microsoft Powerpoint Microsoft RTF Microsoft Word Microsoft Works Microsoft Write WordPerfect StarOffice^TM Calc StarOffice^TM Impress StarOffice^TM Writer XyWrite
コンバータのタイムアウト	600	1 つのドキュメントを HTML に変換するために要する時間の許容値 (秒単位)。この時間を超過した場合、その URL は除外される

シミュレータ

このページは、URL に対するロボットのフィルタリングを、部分的にシミュレートするデバッグツールです。新規の URL を入力してチェックすることができます。URL、DNS 変換 (ホストの発見的解決を含む)、およびサイトリダイレクトをチェックします。URL で指定されるドキュメントの内容はチェックしません。このため、重複、MIME タイプ、ネットワークエラー、許可などは検出しません。シミュレータは、一覧にあるサイトをロボットが受け入れる (同意) か、受け入れない (拒否) かを表示します。

表 F-11 ロボットシミュレータのプロパティ
属性	デフォルト値	説明
URL	定義済みの URL、および空白のテキストボックス	空白のテキストボックスに URL を入力して、新規サイトへのアクセスをチェックできる。新規のサイトがクローリングを許可するかどうかをチェックする形式: http://www.sesta.com:80/
DNS エイリアスを確認	True (チェックボックスがオン)	True (チェックボックスがオン) の場合、同じアドレスのエイリアスになっているサーバーの数をチェックする
サーバーリダイレクトを確認 (302)	True (チェックボックスがオン)	True (チェックボックスがオン) の場合、サーバーのリダイレクトをすべてチェックする

サイトプローブ

このページは、DNS エイリアス、サーバーのリダイレクト、および仮想サーバーをチェックするデバッグツールです。このツールは、サイトに関する情報は返しますが、そのサイトがクローリングを許可するかどうかのテストは行いません。

表 F-12 ロボットのサイトプローブの属性
属性	デフォルト値	説明
サイト	空白	http://www.sesta.com:80 の形式で URL を入力する
DNS 情報の詳細を表示	False (チェックボックスがオフ)	True (チェックボックスがオン) の場合、IP アドレスを含む、サイトに関する詳細な情報を表示する

スケジュール

このページでは、ロボットの自動検索スケジュールを設定します。

表 F-13 ロボットのスケジュールの属性
属性	デフォルト値	説明
時間指定によるロボットの開始	00:00	ロボットが検索を開始する時刻
曜日	選択されていない	日、月、火、水、木、金、または土少なくとも 1 つの曜日にチェックマークを付ける
時間指定によるロボットの停止	00:00	ロボットを連続して作動させる場合でも、毎日 1 回はロボットを停止し、再スタートすることが推奨される。これにより、ロボットはリソースを解放して初期化することができる
曜日	選択されていない	日、月、火、水、木、金、または土

データベース

データベースの属性は、次のように分けられています。



注	データベースをパーティションで区切る場合、検索サーバーの停止が必要になるため、コマンドライン機能を使用する必要があります。

管理

「管理」の最初のページには、利用できるデータベースがリスト表示されます。新規作成、既存データベースのインデックスの再作成、パージ、および有効期限の無効化が可能です。処理の対象となるデータベースを選択するには、対応するチェックボックスにチェックマークを付けます。すべてのデータベースを選択または選択解除するときは、チェックボックスの上にある小さなアイコンを使用します。「インデックスの再作成」、「破棄」、「期限切れ」を選択すると、選択されているデータベースの名前と、処理の確認を求めるプロンプトが表示されます。処理を実行する場合は、「了解」を選択します。

スキーマを編集してインデックスを作成したフィールドを (作成者として) 追加または削除した場合、またはディスクエラーでインデックスが破損した場合は、データベースのインデックスを再作成する必要があります。スキーマを変更した後でサーバーを再起動する必要があります。

データベースのインデックスの再作成に要する時間は、データベースに含まれる RD の数に比例します。

大型のデータベースでは、サーバーの負荷が低い時にインデックスの再作成を行う必要があります。データベースの内容をパージすると、インデックス用のディスク領域は回復しますが、メインデータベースのディスク領域は回復できません。これは、この領域が新規のデータを追加したときに再利用されるためです。

データベースの有効期限が切れると、古いと見なされるすべての RD が削除されます。データベースのサイズは減少しません。デフォルトでは、RD は作成された日から 90 日で期限切れになるように設定されます。

「編集」リンクをクイックしてデータベース属性を定義するページに移動し、そのページでデータベースを編集することもできます。

表 F-14 データベース管理属性
属性	デフォルト値	説明
名前	デフォルト	検索で使用されるデータベースの名前
タイトル	空白	データベースのタイトル
説明	空白	データベースの説明を入力する

インポートエージェント

インポートエージョントとは、他のサーバーまたはデータベースからリソース記述を取得し、検索データベースにマージするためのプロセスです。

「インポート」ページの最初に、利用可能なインポートエージェントの一覧があります。新規作成、実行、編集、および既存エージェントの削除が可能です。チェックボックスにチェックマークを付けてエージェントを選択し、削除することができます。すべてのインポートエージェントを選択または選択解除するときは、チェックボックスの上にある小さなアイコンを使用します。エージェント動作のオン、オフを切り替えるには、ラジオボタンを使用します。インポートエージェントをスケジューリングするには、下のメニューバーの「スケジュール」を選択します。

既存のインポートエージェントを編集または変更する場合、または新規エージョントの作成を選択する場合は、次の属性が表示されます。

表 F-15 データベースのインポートエージェント属性
属性	デフォルト値	説明
文字セット	新規の場合は空白	入力 SOIF ストリームの文字セットを指定する。たとえば、ISO8859-1、UTF-8、UTF-16 など。ISO8859-1 から ISO8859-15 までの文字セットを使用できる
インポート元	ローカルファイル	ローカルファイルまたは検索サーバー (有効化されているサーバーがある場合) を選択する
ローカルファイルパス	新規の場合は空白	有効なリソース記述が SOIF (Summary Object Interchange Format) 形式で記述されているローカルファイルのフルパス名を指定する。別サーバー上のファイルであっても、そのパスがローカルにマウントされたようにアドレス指定できる場合は、指定できる
データベース名	デフォルト	インポート先データベースの名前
リモートサーバー	新規の場合は空白	リソース記述を取得する対象になっている検索サーバーの URL。形式: http://www.sesta.com:80
インスタンス名	新規の場合は空白	検索サーバーが使用するサーバーのインスタンス名。このインスタンス名は、インポート元のサーバーの「サーバー設定」で確認できる。この値は常に 3.01C か 3.01C SP1 のいずれかにする必要がある
検索 URI	新規の場合は空白	完全パスとファイル名を入力する。形式: /portal/search
コンパスサーバー 3.01X を使用	False (チェックボックスがオフ)	インポート元のサーバーが Compass Server 3.01X であるかどうかを指定する
SSL を有効	False (チェックボックスがオフ)	これがサーバー間のトランザクションの場合、サーバーが SSL (Secure Sockets Layer) プロトコルを使用する必要があるかどうかを指定する
認証	なし (デフォルト)	「なし」 (デフォルト) または「ユーザー / パスワード認証を使用」インポート元のシステムに対して、インポートエージェントが認証を示す方法をここで指定する。デフォルトでは認証は使用されない。インポート元のサーバーが認証を要求する場合、インポートエージェントが使用するユーザー名およびパスワードを指定する。3.01C からのインポートでは認証は要求されない。3.01C SP1 からのインポートでは認証が要求される
ユーザー	新規および使用しない場合は空白	「ユーザー / パスワード認証を使用」を選択した場合はユーザーを入力する
パスワード	新規および使用しない場合は空白	「ユーザー / パスワード認証を使用」を選択した場合はパスワードを入力する (* として表示される)
コンテンツの転送	「フルコンテンツの増分収集を使用」 (デフォルト)	「フルコンテンツの増分収集を使用」 (デフォルト) または「検索クエリーの使用」を選択するこれは、リソースのどの記述をソースからインポートするかを指定するデフォルトでは、インポートエージェントは、同じソースから最後にインポートした後に追加または変更された、すべてのリソース記述をインポートすることを要求する検索クエリーはインポートエージェントに、特定のリソース記述だけを、ソースからインポートすることを要求するように指定する。これは、ユーザーが検索データベースに対して、リソースリストを要求する場合とほぼ同じである「範囲」、「表示属性」、および「表示ヒット」のフィールドを使用してクエリーを指定する
範囲	新規の場合は空白	クエリーのテキスト。クエリーの構文は、サーバーからのエンドユーザークエリーに使用されるものと同じ
表示属性	新規の場合は空白	リソース記述の中からインポートするフィールドを指定する (大文字、小文字は区別されない)。たとえば、タイトル、作成者など。デフォルトはすべてインポートされる
表示ヒット	新規の場合は空白	インポートするリソースの説明の一致の最大数。ヒット件数を指定しない場合のデフォルトは 20
エージェント記述	新規の場合は空白	「インポート」ページの最初にある、利用可能なインポートエージェントの一覧に表示される。プログラムはこれを無視する。このフィールドが空白の場合、「リソース記述のソース」のファイル名またはサーバー名が、インポートエージェントの識別に使用される。ユーザー名とパスワードの必要性を確認する必要がある
最新のリソース記述	新規の場合は空白	このインポートエージェントによって以前インポートされた、最新のリソース記述が作成された日付。「フルコンテンツの増分収集を使用」オプションは、この日付を使用して最新のリソースを確認し、インポートすべきかどうかを決定する
ネットワークタイムアウト	新規の場合は空白	ネットワークの接続を、インポートエージェントがタイムアウトさせるまでの秒数を指定する。ネットワークのトラフィックおよび品質の変動を考慮して調整する

リソース記述

「リソース記述」の最初のページでは、データベース内のリソース記述を検索できます。たとえば、RD の誤植の修正をしたり、ロボットが検出した RD を手動でカテゴリに割り当てたりすることができます。

表 F-16 リソース記述属性
属性	デフォルト値	説明
検索対象	すべての RD	すべての RD、カテゴリ化されていない RD、カテゴリ化された RD、カテゴリごとのRD、URL 特定の RD、RD を検索する
テキストボックス	空白	検索対象の RD を識別するために固有の文字列を入力する。カテゴリごとのRD、URL 指定の RD、および属性値を含む RD に適用される
データベース	デフォルト	検索対象データベースの名前
カテゴリの選択		カテゴリツリーをブラウズし、カテゴリを選択する
削除		RD 検索で返された 1 つまたは複数の RD を選択し、削除する
次へ		RD 検索で返された次の RD セットを表示する
前へ		RD 検索で返された前の RD セットを表示する
選択内容を編集		RD 検索で返された 1 つまたは複数の RD の属性を編集する
すべて編集		RD 検索で返された、現在表示されている RD セットの属性を編集する

検索をカテゴリ単位で制限するときは、「カテゴリの選択」を選択します。「カテゴリエディタ」ページが表示され、分類から検索対象カテゴリを指定できます。カテゴリを選択するときは、「選択されているカテゴリ」テキストボックスにカテゴリを指定するか、分類をブラウズして選択します。カテゴリを選択したら、「了解」をクリックして RD 検索ページに戻ります。

表 F-17 カテゴリエディタの属性
属性	デフォルト値	説明
選択されているカテゴリ	空白	選択したカテゴリを表示するテキストフィールド
すべて展開		分類を展開する。階層内のすべてのエントリをブラウズできる
すべて縮小	空白	分類を縮小表示する。階層内の最初の 2 レベルに含まれるカテゴリだけをブラウズできる
各ページのカテゴリ	25	1 ページに表示するカテゴリの数を指定するドロップダウンリスト。指定できる値は、25、50、100、250、500、およびすべて

検索が成功すると、見つかった RD の件数が表示され、リストボックスにその RD が表示されます。RD の「編集」リンクをクリックすると、次の属性 (編集可能) と RD の部分的なテキストが表示されます。「Classification」以外の属性は、すべて「データベース」、「スキーマ」ページで編集できます。

表 F-18 データベース RD の編集可能な属性
属性	デフォルト値	説明
Author	空白	ドキュメントの作成者
Author e-mail	空白	ドキュメント作成者に連絡するための電子メールアドレス
Classification	選択した RD のカテゴリ名	分類されている場合はカテゴリ名、分類されていない場合は「No Classification」が表示される
ReadACL	空白	ドキュメントレベルのセキュリティに関連する
Content-Charset		HTTP サーバーから取得した、コンテンツの文字セットの情報
Content-Encoding	空白	HTTP サーバーから取得した、コンテンツのエンコードの情報
Content-Language	空白	HTTP サーバーから取得した、コンテンツの言語の情報
Content-Length	空白	HTTP サーバーから取得した、コンテンツの長さの情報
Content-Type	空白	HTTP サーバーから取得した、コンテンツのタイプの情報
Description	選択した RD から取得した説明	RD の説明
Expires	有効な日付	リソース記述が無効になる日付
Full-Text	空白	ドキュメントの全内容
Keywords	キーワードがあれば選択した RD から取得される	メタタグから取得したキーワード
Last-Modified	最終更新日	ドキュメントの最終更新日
Partial-text	ドキュメントの部分的なテキスト	ドキュメントから選択して抜粋した部分的テキスト
Phone	空白	作成者の連絡先電話番号
Title	選択した RD のタイトル	RD のタイトル
URL	空白	ドキュメントの URL (Uniform Resource Locator)

Schema

リソース記述に含まれる情報、およびその情報の形式は、スキーマによって決定されます。RD への新規の属性またはフィールドの追加や、編集およびインデックス作成の可否の設定が可能です。新規の RD をインポートする場合、新規 RD に組み込まれているスキーマを変換して取り込むことができます。

表 F-19 データベーススキーマ編集属性
属性	説明
Author	ドキュメントの作成者
Author-EMail	ドキュメント作成者に連絡するための電子メールアドレス
Content-Charset	HTTP サーバーから取得した、コンテンツの文字セットの情報
Content-Encoding	HTTP サーバーから取得した、コンテンツのエンコードの情報
Content-Language	HTTP サーバーから取得した、コンテンツの言語の情報
Content-Length	HTTP サーバーから取得した、コンテンツの長さの情報
Content-Type	HTTP サーバーから取得した、コンテンツのタイプの情報
Description	ドキュメントについての、一行だけの簡単な説明
Expires	リソース記述が無効になる日付
Full-Text	ドキュメントの全内容
Keywords	ドキュメントを最も良く表すキーワード
Last-Modified	ドキュメントの最終更新日
Partial-Text	ドキュメントから選択して抜粋した部分的テキスト
Phone	作成者の連絡先電話番号
ReadACL	検索サーバーがセキュリティを実行するために使用
Title	ドキュメントのタイトル
URL	ドキュメントの URL (Uniform Resource Locator)
エイリアス名前説明	新規の RD をインポートする場合、新規 RD に組み込まれているスキーマを変換できる。この変換は、インポートするデータベースのスキーマと、データベースの RD 用スキーマで使用されているフィールド名が矛盾する場合に使用する。たとえば、インポートした RD は作成者のフィールドに Writer を使用しているが、データベースの RD は Auther を使用している場合がある。Writer を Author に変換する必要があるため、このテキストボックスに Writer と入力する
データタイプ	データタイプを指定する
編集可能	True (チェックボックスがオン) の場合、選択された属性 (フィールド) がデータベースの RD エディタに表示され、値を変更できる「Description」、「Keyword」、「Title」、および「ReadACL」を編集できる
インデックス作成可能	True (チェックボックスがオン) の場合、選択した属性 (フィールド) を基準にしてインデックスが作成されるエンドユーザー「詳細検索」画面のメニューに、「Author」、「Title」、「URL」が表示される。エンドユーザーは、これらの特定のフィールドで値を検索することができる。「Author」、「Expires」、「Keyword」、「Last Modified」、「Title」、「URL」、および「ReadACL」はインデックス作成の基準に使用できる
乗数のスコア	特定の要素の重みを指定するフィールド。任意の正の値が有効

分析

「解析」ページには、すべてのサイトのソート済みリストと、現在検索データベースにあるサイトのリソースの数が表示されます。ファイルの分析を更新するときは、「分析の更新」を選択します。

表 F-20 データベース分析属性
属性	デフォルト値	説明
RD の合計数	デーベースの現在の RD の数	現在データベースにあるリソース記述の数を表示する
サーバーの数	パーティションによって分割されたデータベースが配置されているサーバーの現在の数	データベースは、パーティションで分割して複数のサーバーに配置することができる
サイト	ロボットが検索に成功した URL またはドメイン	データベースにリソース記述を追加した URL またはドメイン
RD の数	そのサイトの現在の RD の数	そのサイトから取得した現在の RD の数を表示する
タイプ	RD のタイプ	リソース記述には、http など、さまざまなタイプがある
タイプの割合	そのタイプの RD の数を RD の総数で割った比率	リソース記述の総数に対して、このタイプが占める割合

スケジュール

このページでは、インポートエージェントの実行スケジュールを設定します。

表 F-21 データベースのインポートスケジュール属性
属性	デフォルト値	説明
時間指定によるインポート開始	00:00	インポートエージョントがインポートを開始する時刻
曜日	選択されていない	日～土少なくとも 1 つの曜日にチェックマークを付ける

カテゴリ

エンドユーザーは 2 つの別な方法で検索データベースと対話します。クエリーを直接入力してデータベースを検索する方法と、カスタムなカテゴリセットを使用してデータベースコンテンツ経由でブラウズする方法があります。検索データベースのリソースにカテゴリを割り当てると、複雑さを解消できます。データベースに多数の項目がある場合には、関連する項目をグループ化すると便利です。カテゴリの設定を行う場合は特に使いやすさを考慮し、特定の項目をエンドユーザーが素早く見つけられるようにします。

検索サーバーは分類と呼ばれるカテゴリの階層を使用します。一般的に「分類」という言葉は、すべてのカテゴリ化方式を表します。検索サーバーデータベースのようなネットワーク型リソースデータベースの場合は、取得しやすくするために選択された、ネットワークリソースをカテゴリ化する方法を表します。

「カテゴリ」のトピックは、次のサブトピックに分れています。

カテゴリエディタ

分類ルールエディタ

カテゴリエディタ

「カテゴリエディタ」ページには、分類に含まれるカテゴリがリスト表示され、カテゴリをブラウズできます。カテゴリをブラウズしたら、カテゴリのリンクを選択して「分類ルールエディタ」を呼び出し、特定のカテゴリでのロボット収集を設定できます。

表 F-22 カテゴリエディタの属性
属性	デフォルト値	説明
すべて展開		分類を展開する。階層内のすべてのエントリをブラウズできる
すべて縮小		分類を縮小表示する。階層内の最初の 2 レベルに含まれるカテゴリだけをブラウズできる
インデックスの再作成		データベースのインデックスを再作成する。分類を作成したら、データベースのインデックスを作成し、エンドユーザーがカテゴリ検索を利用できるようにする必要がある。カテゴリを変更した場合は、インデックスを再作成してカテゴリを最新の状態にする必要がある。データベースのインデックスを再作成する前に、カテゴリツリーを保存する。次に、新しい分類をロードする
各ページのカテゴリ	25	1 ページに表示するカテゴリの数を指定するドロップダウンリスト。指定できる値は、25、50、100、250、500、およびすべて
名前	選択したカテゴリ	編集のために選択したカテゴリの名前を表示する
説明	空白	選択しているカテゴリの説明を表示する
一致規則	空白	選択しているカテゴリに適用される一致規則を表示する
更新		カテゴリの定義を更新する
子として追加		カテゴリを子として追加する
兄弟として追加		カテゴリをシブリングとして追加する

分類ルールエディタ

データベース用のカテゴリを設定したら、「新規」をクリックして、選択しているカテゴリのロボットのルールを設定または変更し、カテゴリにリソースを割り当てます。

表 F-23 カテゴリ分類ルールエディタの属性
属性	デフォルト値	説明
ソース	作成者	有効な属性は次のとおり Author Author-EMail Content-Charset Content-Encoding Content-Language Content-Length Content-Type Description Expires Full-Text Keywords Last-Modified Partial-Text Phone ReadACL Title URL ホストプロトコル IP パスタイプ
メソッド	is	「である (is)」、「を含む (contains)」、「で始まる (begins with)」、「で終わる (ends with)」、「正規表現 (regular expression)」
基準	空白	ルールの条件を指定する
分類	空白	ルールの条件と一致した場合に、その RD を分類するカテゴリ。カテゴリ名を入力するか、「カテゴリの選択」ページでブラウズする

レポート

「レポート」のセクションでは、検索サーバーを監視することができます。この操作の要約を表示することができます。要約には、検索したサイト、除外された URL と除外の理由、ロボットがアクセスした URL の詳細情報、エンドユーザーの興味の対象が含まれます。

「レポート」のトピックは、次のサブトピックに分れています。

開始位置

ロボットは、始動するたびにすべての有効なサイトを訪問します。

表 F-24 レポートの開始位置の属性
属性	デフォルト値	説明
有効	サイトの現在の値	はい、またはいいえ「ロボット」、「サイト」ページで設定される
開始位置	選択された URL:80	選択された URL へのリンク
サイト定義	選択された URL	「ロボット / サイト」編集ページへリンクする
深さ	選択された検索レベル	「ロボット」「サイト」編集ページで設定された 1-n の値

除外された URL

「除外 URL」ページには、ロボットの実行結果が表示されます。URL が除外された理由のリストを表示するには、まず、調べるロボット実行を選択します。次に「選択内容の表示」をクリックし、「除外の理由」の 1 つを選択します。その理由で除外された URL のリストが表示されます。重複および警告によって除外された URL は消去されています。

表 F-25 レポートの除外された URL の属性
属性	デフォルト値	説明
ログ	最新の実行ログのリスト	利用可能なすべての実行ログすべてのリスト
カウント	数字	除外された数、および除外理由のリスト
除外の理由	サイトが許可されなかった理由のリスト。それぞれの理由は、その理由で除外されたすべての URL の一覧にリンクされている	URL が除外された理由には、フィルタルール、ファイルが見つからない、サイトが許可されない、プロトコルが許可されない、エラー、重複などがある

ロボットの詳細レポート

「ロボットの詳細レポート」ページでは、ロボットが生成する各種レポートにアクセスできます。ドロップダウンリストからレポートを選択して情報を表示します。「更新」ボタンをクリックすると、最新の情報が表示されます。

表 F-26 ロボットの詳細レポートの属性
属性	デフォルト値	説明
ロボットの詳細レポート	バージョン	バージョン (Version)、DNS キャッシュダンプ (DNS Cache Dump)、パフォーマンス (Performance)、検出されたすべてのサーバー (Servers Found-All)、検出された RDM サーバー (Server Found-RDM )、現在の構成状態 (Status-Current Configuration)、データベース (内部) の状態 (Status-Database(internal))、Libnet の状態 (Status-Libnet)、モジュールの状態 (Status-Modules)、状態の概要 (Status-Overview)、抽出準備の完了した URL (URL s-ready for extraction)、インデックス作成準備の完了した URL (URL s-ready for indexing)、フィルタリング待ちの URL (URL プール) (URL s-waiting for filtering (URL pool))、インデックス作成待ちの URL (URL s-waiting for indexing)、全レポート (all reports)

ログファイル

ログファイルのエントリまたは特定の行を表示できます。ドロップダウンリストからログファイルを選択します。「表示」ボタンを選択し、表示する行数を指定します。

表 F-27 レポートのログファイル表示の属性
属性	デフォルト値	説明
このログファイルを表示	除外された URL (filter)	除外された URL (filter)、RD マネージャ (rdmgr)、RDM サーバー (rdmsvr)、ロボットの活動 (robot)、検索エンジン (searchengine)、ユーザークエリー (rdm)
行数	25	ログファイルから表示する最新のエントリ数を指定する

頻度の高い検索

「頻度の高い検索」ページでは、ユーザーが何を検索したかを確認できます。レポートの先頭には、最も頻度の高い検索が表示されます。

表 F-28 頻度の高い検索の属性
属性	デフォルト値	説明
ブラウザの閲覧は対象外	False (チェックボックスがオフ)	False (チェックボックスがオフ) の場合は、ユーザーが参照したカテゴリを含める。True (チェックボックスがオン) の場合は、参照の統計情報を除外する

前へ目次索引次へ

前へ目次索引次へ
Sun Java System Portal Server 6 2004Q2 管理ガイド