Sun ONE ロゴ     前へ      目次      索引      次へ     
Sun ONE Portal Server 6.0 管理者ガイド



付録 F   検索の属性

この付録では、iPlanet Directory Server Access Management Edition管理コンソールを通して、検索エンジンに設定できる属性について説明します。

「サービス管理」の「検索」のプロパティを選択すると、2 色のメニューバーが表示されます。 この付録は、メニューバーの上側のダークブルーの部分のトピックスに従って構成されています。

上記のトピックの 1 つを選択すると、それに関連するサブトピックが下側のライトブルーのメニューバーに一覧表示されます。 デフォルトの検索ページでは、「サーバーの「設定」が選択されます。それぞれのサブトピックでは、1 つまたは複数のテーブルを使って、サブトピックの属性について説明します。 この表は 属性、デフォルト値、説明の 3 つの例に分けられます。 「属性」では、ページ内の記述テキストを示します。「デフォルト値」は「属性」のデフォルト値を、「説明」では「属性」の説明とその形式を示します。

表 F-1 の説明にあるように、それぞれの「検索」のプロパティページで、「サーバーの選択」属性を使用できます。

表 F-1    検索サーバーの選択属性 

属性

デフォルト値

説明

サーバーの選択

http://servername:80/portal

検索サーバーの完全修飾サーバー名

サーバー

「サーバー」セクションでは、サーバーの設定を行います。 一時ファイルとして使用するディレクトリを選び、ログにどの情報を、どれくらい詳細に記録するかを選択します。 「サーバー」属性は 2 つのページに表示されます。

設定

このページには、検索サーバーの管理および操作に関する基本設定が含まれます。

表 F-2    サーバー設定属性 

属性

デフォルト値

説明

サーバールート

/var/opt/SUNWps/https-servernamefull/portal

設定、ログ、データベースおよび情報ファイルを格納します。 検索を実行したときに作成、および更新されるすべての検索ファイルのルートディレクトリでもあります。 このディレクトリの設定は変更できません。

一時ファイル

/var/opt/SUNWps/https-servernamefull/portal/tmp

検索中に検索を管理するために使用されるすべての一時ファイルを格納します。 このファイルには、メインデータベースにはまだ追加されていない、新しく生成されたリソースの記述も含みます。検索が完了すると、これらのファイルは削除されます。

ドキュメントレベルセキュリティ

オフ

ドキュメントにアクセスできるユーザーを制御します。

設定を変更した場合は、サーバーの再起動が必要です。

値:

  • オフ(デフォルト) に設定すると、すべてのユーザーが RD にアクセス可能になる。
  • オンは、RD のReadACL フィールドがチェックされ、アクセスしようとしているユーザーにアクセス権があるかを確認します。そのユーザーが許可された組織またはロールにあるか、あるいは許可された個人ユーザーかをチェックすることを意味します。ReadACL フィールドは、「データベース」、「編集」ページで設定します。

詳細

このページには、検索サーバーの管理および操作に関する詳細設定が含まれます。 ここでは、ユーザークエリー、インデックスのメンテナンス、リソース記述の管理、およびデバッグ用のそれぞれのログファイルを設定します。

表 F-3    サーバーの詳細設定属性

属性

デフォルト値

説明

検索 (rdm)

/var/opt/SUNWps/https-servername/portal/logs/rdm.log

エンドユーザーが作成したデータベースのクエリーを記録します。「検索ログを無効にする」チェックボックスをオンにすると、このログは記録されません。

オフにした場合、「ユーザークエリー (rdm)」レポートは表示できません。

検索ログを無効にする

False (チェックボックスがオフ) - 有効

クエリーログの使用を制御します。

レポートセクションでは、このログを基に、最もよく使用されるクエリーを一覧表示したレポートを作成します。

値:

  • チェック - 無効
  • チェック解除 - 有効。 ユーザークエリは、すべてこのログに入力されます。

インデックスのメンテナンス

/var/opt/SUNWps/https-servername/portal/logs/searchengine.log

検索エンジンに関連するトランザクションを記録します。リソースの記述の登録は記録されません。

RD マネージャ

/var/opt/SUNWps/https-servername/portal/logs/rdmgr.log

ロボットまたはインポートエージェントからデータベースへ登録したリソースの記述を記録です。このログは、RD マネージャ (rdmgr) レポートとして表示されます。

RDM サーバー

/var/opt/SUNWps/https-servername/portal/logs/rdmserver.log

RDM トランザクション上のデバッグ情報を記録します。 詳細レベルは、Log Level で制御します。 このログは、RDM サーバー (rdmsvr) レポートとして表示されます。

ログレベル

1

RDM サーバーログファイルに含まれる詳細情報の量を制御します。

レベルは、2、10、20、50、100 および 999 に設定可能。

1 (デフォルト) に設定すると、重要なエラーのみが記録される。値を大きくするほど、RDM サーバーのログファイルに含まれる情報が詳細になります。

ロボット

ロボットのプロパティは、非常に複雑です。 検索 (クローリング) するサイトを決めたら、そのサイトが有効かどうかを確認し、取得するドキュメントのタイプを決め、検索を行うスケジュールを決めます。

このセクションは、次の各項目で構成されています。

コントロール

ロボットコントロールパネルでは、ロボットのオフ、アイドル状態、実行中、または一時停止という動作状況を確認できます。また実行中には、およそ 30 秒おきにパネルを再表示するので検索作業の進捗状況を確認できます。 リフレッシュレートは、search.conf ファイルの robot-refresh パラメタを使用して定義します。

右上の 2 つのボタンは、それぞれの状態に適したものです。 ロボットがオフの場合、ボタンは「開始」または「ステータスの削除」になります。「実行中」または「アイドリング」状態の場合は、ボタンは「終了」または「一時停止」になります。 「一時停止」状態の場合、ボタンは「終了」または「再開」になります。 「属性」ボタンのいずれかを選択すると、「レポート」セクションに切り替え、その属性の最新の詳細レポートが得られます。

表 F-4    ロボットコントロール属性 

属性

デフォルト値

説明

ロボットは

現在の状態

ロボットの状態。 値は、アイドル実行中一時停止、またはオフをが表示されます。

更新時刻

最後に再表示した日時

このページが再表示され、ロボットの作業の進捗状況を表示します。

開始位置

選択された数値

検索対象に選んだサイト数。 サイトは「ロボット」、「サイト」ページでは、無効 (検索されない) になります。

URL プール

待機中の URL の数

調査する URL の数。 検索を開始すると、開始位置の URL が URL プールに入力されます。 検索作業が進行すると、ロボットは他の URL へのリンクを発見します。これら URL はプールに追加されます。プールの中のすべての URL が検索されると、URL プールは空になり、ロボットはアイドリング状態になります。

抽出

秒あたりの接続数

1 秒あたりに参照されたリソース数。

抽出とは、データベースに取り込むリソース、ドキュメント、またはハイパーリンクを発見し、不要な項目をフィルタリングするプロセスです。

フィルタリング

拒否された URL 数

除外された URL 総数。

インデックス作成

秒あたりの URL 数

1 秒間にリソースの記述に変換されたリソースまたはドキュメント数。

インデックス作成とは、検索データベースに取り込むために、ドキュメントに収集されたすべての情報をリソースの記述に変換するフェーズです。

除外 URL

フィルタによって除外された URL 数

フィルタリング条件を満たさなかった URL 数。

 

エラーによって除外された URL 数

ロボットでファイルが見つからないというエラーが検出された URL 数。

リソースの記述

提供された RD の数

データベースに追加されたリソースの記述の数。

 

提供された RD のバイト数

データベースに追加されたバイト数。

全体の状態

取得された URL の数

実行中に取得された URL の数。

 

RD の平均サイズのバイト数

リソースの記述あたりの平均バイト数。

 

稼働時間 (日数、時間、分および秒)

ロボットを実行した時間数。

サイト

このセクションの最初のページには、検索可能なページが表示されます。

ラジオボタンを使用して、サイトを「オン」または「オフ」にできます。 ロボットを実行しても、オフにしたサイトは検索されません。 「編集」リンクは、検索サイトを定義する方法を変更するページを表示します。

サイトを削除するには、チェックボックスをオンにして、「削除」をクリックします。

新しいサイトを追加するには、「新規」をクリックします。 URL またはドメインをテキストボックスに追加し、検索の深さを選択します。 「作成」を選択すると、デフォルト値を使用して作成します。 または、非デフォルト値を使用するために、サイトの作成と編集をクリックし、「編集」ページへ進み検索サイトを定義します。

表 F-5    ロボット管理サイト属性

属性

デフォルト値

説明

サイトを選択するチェックボックス

チェックされていない

チェックを解除 - 選択されない

チェックする - 選択される

ロックまたはクラスタグラフィック

サイトの状態

開いたロックは、URL にアクセス可能なことを意味します。 閉じられたロックは、サイトが安全な Web サーバであり、SSL を使用していることを意味します。 クラスタとは、サイトがドメインであることを意味します。

オンまたはオフ

オン

ロボットが実行しているときに、このサイトを検索するか、しないかを選択します。

「新規サイト」ページでは、インデックスを作成するサイト全体の設定ができます。

表 F-6    ロボットの新規サイト属性

属性

デフォルト値

説明

新規サイト

URL

URL の形式は、  http://www.sesta.comです。

ドメイン の形式は、  *.sesta.com です。

深さ

10

この URL のみは 1、URL と最初のリンクは 2、さらに、3〜10 、または「無制限」から選択。 デフォルト値は、「ロボット」、「クローリング」ページで設定します。

編集ページでは、検索サイトをより詳細に定義できます。 サーバータイプの指定、検索の深さの再定義、および検索データベースに追加するファイルタイプの指定ができます。 URL とドメインサイトの属性は、大部分は同一です。 このテーブルに追加されている列では、どの属性が共有され、どれが固有のものかを表示します。

このページでは、多くのアクションが実行されます。 入力した検索サイトのサーバー名を確認できます。 「サーバーグループ」セクションで「追加」をクリックすると、サーバーグループにさらにサーバーを追加できます。 「開始点」セクションで「追加」をクリックすると、開始位置をさらに追加できます。 「フィルタ定義」セクションでは、特定のタイプのファイルを追加または削除、除外または取り込むことができ、これらのファイルに適用するフィルタの順序も変更できます。 これらのアクションの詳細については、第 8 章「検索エンジンサービスの管理」を参照してください。

表 F-7    ロボットのサイト編集属性 

属性

URL またはドメイン

デフォルト値

説明

サイトのニックネーム

URL/ドメイン

入力されたサイト www.sesta.com

最初のページに表示される名前。 デフォルトは、入力された URL またはドメイン。 この名前をここで変更できます。

削除または確認するサイトを選択するチェックボックス

URL/ドメイン

チェックされていない

チェックを解除 - 選択されない

チェックする - 選択される

サーバーグループ-名前

URL

URL - www.sesta.com

単一サーバーまたは単一サーバーの一部です。 エントリにはホスト名の全体が含まれている必要があります。 ホスト名だけを指定すると、そのホストだけにサイトが制限されます。 ホスト名に加えてディレクトリ情報を入力すると、サイトはそのディレクトリおよびすべてのサブディレクトリとして定義されます。

ドメインサフィックス

ドメイン

入力されたドメインは、*.sesta.com

*.sesta.com のように、ドメイン内のすべてのサーバーを含みます。

ポート

URL/ドメイン

80 URL の場合、ドメインでは空白

検索中のサイトが別のポートを使用する場合は、そのポートを入力します。

タイプ

URL

Web サーバー

Web サーバー、ファイルサーバー、FTP サーバー、セキュアファイル Web サーバー

許可されたプロトコル

ドメイン

すべてのチェックボックスをチェック

http、file、ftp、https チェックボックス

開始位置 - 削除するサイトを選択するためのチェックボックス

URL/ドメイン

チェックされていない

チェックを解除 - 選択されない

チェックする - 選択される

開始位置 - URL

URL/ドメイン

http:// URL:80

URL またはドメイン

開始位置 - 深さ

URL/ドメイン

10

1 は、この URL のみ

2 は、この URL と最初のリンク

3-10

無制限

フィルタ定義 - 削除するファイルのタイプを選択するためのチェックボックス

URL/ドメイン

チェックされていない

チェックを外す − 選択されない

チェックを入れる - 選択される

フィルタ定義

URL/ドメイン

デフォルトの順番: アーカイブファイル、オーディオファイル、バックアップファイル、バイナリファイル、CGI ファイル、イメージファイル、Java、JavaScript、スタイルシートファイル、ログファイル、レビジョンコントロールファイル、ソースコードファイル、一時ファイル、ビデオファイル。

選択可能なファイルは次のとおりです: アーカイブファイル、オーディオファイル、バックアップファイル、バイナリファイル、CGI ファイル、イメージファイル、Java、JavaScript、スタイルシートファイル、ログファイル、パワーポイントファイル、レビジョンコントロールファイル、ソースコードファイル、一時ファイル、ビデオファイル、スプレッドシートファイル、プラグインファイル、ロータスドミノドキュメント、ロータスドミノ OpenView、システムディレクトリ (UNIX)、システムディレクトリ (NT)。

コメント

URL/ドメイン

空白

サイトの説明を記述するテキストフィールド。 ロボットはこれを使用しません。

DNS 変換

URL

空白

DNS 変換は、ドメイン名または別名を cname に変換し、URL および クローリングの方法を変更します。 形式: alias1->cname1,alias2->cname1

利用可能なすべてのフィルタが一覧表示されます。 この一覧は、「ロボット」の「フィルタ」にあるものと同じです。 それぞれのフィルタ名の前には、ドキュメントタイプを選択するためのチェックボックスと、フィルタルールをオン、オフするための 2 個のラジオボタンが付いています。

チェックボックスにチェックを入れると、そのフィルタが選択され削除することができます。新規のフィルタを追加するには「新規」をクリックします。 新規フィルタのページは「編集」ページを簡略化したもので、必要なのは 1 つの「ニックネーム」と 1 つのルールだけです。 もう 1 つのオプションとしてリンクがの「編集」リンクがあります。 これを選択すると、特定のファイルタイプに対する規則やフィルタの動作を定義するためのページへ移動します。 それぞれの規則は、フィルタソースのドロップダウンリスト、検索条件のドロップダウンリスト、および詳細を入力するテキストボックスで構成されています。

表 F-8    ロボットのフィルタ編集の属性

属性

デフォルト値

説明

ニックネーム

新しい名前を入力するプロンプト。 編集に選択するファイルタイプのファイル名。

そのフィルタを適用するファイルタイプを反映する、明確な名前。

フィルタソースのドロップダウンリスト

新規フィルタでは URL。 そのファイルタイプ用に、以前に選択された情報が表示される。

URL、プロトコル、ホスト、パス、MIME type

選別基準のドロップダウンリスト

新規の フィルタでは is。 そのファイルタイプ用に、以前に選択された情報が表示される。 例えば、バイナリファイルでは exe で終わる (ends with)。

「である (is)」、「を含む (contains)」、「で始まる (begins with)」、「で終わる (ends with)」、「正規表現 (regular expression)」

フィルタ文字列別テキストボックス (ディレクトリ、プロトコル、ファイル拡張子)

新規フィルタの場合は空白。 そのファイルタイプ用に、以前に入力された情報が表示される。 例えば、/tmp/を含む (contains) 一時ファイル。

このテキストボックスに、一致させる項目をリスト表示します。 例えば、http://docs.sesta.com/manual.html で一致する項目。

プロトコルは http である。ホストに sesta を含む。ファイル名が html で終わる。

説明

新しい説明を入力するプロンプト。 以前入力したそのファイルタイプの説明が表示される。

フィルタ規則の説明。 ロボットはこれを使用しません。

新規サイト

新規フィルタの場合は、True (オンになっている)。 そのファイルタイプ用に以前に選択された値が表示される。

これは新規サイトを作成する場合、デフォルトフィルタの 1 つとして使用するときに使います。このチェックをオンにしなくても、「ロボット」、「サイト」ページでサイトを編集してこのフィルタを新規サイトに追加できます。

デフォルト

新規フィルタの場合は何も選択されていない。 定義済みのファイルタイプ用に、以前に選択されたデフォルト。

このフィルタに一致するドキュメントを除外します。

このフィルタに一致するドキュメントを含めます。

新規フィルタ用の選択は、既存のサイト定義には影響しません。 新規フィルタを既存のサイトに使用するには、「ロボット」、「サイト」ページでサイトを編集して追加します。

配備

このフィルタを使用するサイトが一覧表示される。

 

クローリング

このページの設定によって、ロボットのオペレーションパラメータとデフォルトを制御します。 速度、完了のアクション、ログファイルの設定、標準への準拠、認証パラメータ、プロキシ、詳細設定、およびリンクの抽出のセクションに分けられます。 これらの属性の設定の詳細は、第 8 章「検索エンジンサービスの管理」を参照してください。

表 F-9    ロボットのクローリング属性 

属性

デフォルト値

説明

サーバー遅延

遅延なし

遅延なし (デフォルト)、1 秒、2秒、5秒、10秒、30秒、1 分、5 分。

最大接続数 - 同時に取得する URL 数の最大値

8

1、2、4、8 (デフォルト)、10、12、16、20。

サイトあたりの最大接続数

2

(無制限)、1、2、4、8、10、12、16、20。

RD を送信して全てのインデックスを作成 (RD を送信する間隔)

30 分

3 分、5分、10分、15分、30分 (デフォルト)、1 時間、2 時間、4 時間、8 時間。

起動スクリプト

なし (デフォルト)

なし (デフォルト). サンプルファイルは、/opt/SUNWps/samples/robotディレクトリ (デフォルトのインストール) のcmdHookファイルを参照してください。

すべての URL の処理後

アイドル(デフォルト)

アイドル状態になる (デフォルト)、シャットダウン、やり直し。

連絡先の電子メール

電子メールアドレスを入力します。

ログレベル

1 - 生成

0 エラーのみ、1 生成 (デフォルト)、2 列挙、変換、3 フィルタリング、4 作成、5 取得。

ユーザーエージェント

SunONERobot/6.0

検索サーバーのバージョン

robots.txt プロトコルを無視

false (チェックボックスがオフ)

サーバーの中には、robot.txt ファイルにロボットによる検索を拒否する記述をしたものがあります。 このファイルを持つサイトに遭遇した場合、属性が偽の時はロボットはそのサイトを検索しません。この属性がTrueの場合、ロボットはファイルを無視してそのサイトを検索します。

認証の実行

はい

いいえ

ロボットのユーザー名

ロボットは匿名ユーザー名を使用して、サイトにアクセスします。

パスワード

匿名ユーザーを認めるサイトの多くは、パスワードとして電子メールアドレスを要求します。 このアドレスはプレーンテキスト。

プロキシユーザー名

ロボットは匿名ユーザー名を使用してサイトにアクセスします。

パスワード

匿名ユーザーを認めるサイトの多くは、パスワードとして電子メールアドレスを要求します。 このアドレスはプレーンテキストです。

プロキシ接続タイプ

インターネットに直接接続

インターネットに直接接続、プロキシ - 自動設定、プロキシ - 手動設定

自動プロキシ設定−8

ローカルプロキシファイル

ローカルプロキシファイル、リモートプロキシファイル

自動プロキシ設定 - 位置

空白

自動プロキシのファイルには、必要なプロキシ情報すべての一覧があります。

ローカルプロキシファイルの例は、robot.pac を参照。リモートプロキシファイルの例は、http://proxy.sesta.com:8080/proxy.pac を参照。

手動プロキシ設定 - HTTP プロキシ

空白

形式: server1.sesta.com:8080
これら 3 つの手動設定値は、/var/opt/SUNWps/https-servername/portal/config ディレクトリにあるrobot.pac ファイルに書き込まれます。

手動プロキシ設定-HTTPS プロキシ

空白

この手動設定値は、robot.pac ファイルに書き込まれます。

形式: server1.sesta.com:8080

手動プロキシ設定- FTP プロキシ

空白

この手動設定値は、robot.pac ファイルに書き込まれます。

形式: server1.sesta.com:8080

HTML のリンクを追跡

True (チェックボックスがオン)

HTML からハイパーリンクを抽出

最大リンク数

1024

1 つの HTML リソースから、ロボットが抽出できるリンク数を制限します。 ロボットがサイトを検索すると、他のリソースへのリンクも発見するため、場合によっては多数のリンクをたどって、元の開始位置から極端に離れたリンクまで追ってしまう可能性がある。

プレーンテキストのリンクを追跡

False (チェックボックスがオフ)

プレーンテキストからハイパーリンクを抽出します。

最大リンク数

1024

1 つのテキストリソースから、ロボットが抽出できるリンク数を制限するします。

Cookie を使用する

False (チェックボックスがオフ)

True (チェックを入れる) の場合、ロボットはクローリングの際に cookie を使用する。 cookie を使用しないと、正常にナビゲートできないサイトも存在します。 cookie はロボットの状態ディレクトリにある cookies.txt ファイルに保存されます。 cookies.txt の形式は、Netscape Communicator のブラウザで使用されている形式と同一。

IP をソースとして使用

True (チェックボックスがオン)

ほとんどの場合、ロボットはリソースのドメイン名だけを対象に動作します。 場合によっては、インターネットプロトコル (IP) アドレスによるサブネットに基づいて、フィルタリングまたは分類を可能にする必要もあります。 この場合、ドメイン名に加えて IP アドレスの取得も、ロボットに対して明示的に許可する必要があります。 IP アドレスを取得するには、DNS をさらに検索する必要があるため、ロボットの動作速度が低下します。 必要のない場合は、このオプションをオフにするとパフォーマンスが向上します。

ホストの発見的解決

False (チェックボックスがオフ)

チェックを入れる場合、ロボットはサーバーが使用する共通の代替ホスト名を単一の名前に変換します。 この設定は、1 つのサイトが同じアドレスの別名として、複数のサーバーを持っている場合に最も有益である。例えば、www.sesta.com というサイトには他にも、www1.sesta.comwww2.sesta.com などの名前を持つ場合があります。

このオプションをオンにすると、wwwn (このn は任意の整数) で始まるすべてのホスト名を内部で www に変換します。 この属性はホスト名が wwwn で始まる場合にのみ有効です。

この属性は CNAME 解決が オフ (False) の場合は使用できません。

ホスト名を CNAME に解決

False (チェックボックスがオフ)

Trueの場合、ロボットは検出したすべてのホスト名の妥当性検査を行い、標準的なホスト名に変換します。 これは、ロボットが固有の RD を正確に追跡できるようにするためです。 False (チェックを外す) の場合、ロボットはホスト名の妥当性検査は行うが、標準的なホスト名への変換は行いません。 このため、ロボットが検出したそれぞれのホスト名に重複する RD がリストされる場合があります。

例えば、devedge.sesta.com は、developer.sesta.com のエイリアス。 CNAME 解決がオンの場合、devedge.sesta.com として参照された URL は、developer.sesta.com で検出されたものとして一覧表示されます。 CNAME 解決がオフの場合、RD は参照元である devedge.sesta.comを保持します。

ホストの発見的解決は、CNAME 解決が オフ (False ) の場合には有効にできません。

すべてのホストからのコマンドを受け入れる

False (チェックボックスがオフ)

ロボットの持つ制御機能のほとんどは、TCP/IP ポート経由で動作します。 この属性によって、ロボットがローカルホストからのコマンドだけを受け入れるか (False )、あるいはネットワーク上からのコマンドをすべて受け入れる (True) かを設定します。

推奨設定は、ロボットの直接制御をローカルホストに限定 (False )。 この場合でも、管理コンソールによるロボットの遠隔制御は可能です。

デフォルトの開始位置の深さ

10

1- 開始位置のみ、2- ブックマークスタイル、3〜10、無制限

ロボットがすべての開始位置からたどって行く、ハイパーリンクレベルのデフォルト値。 「ロボット」、「サイト」ページでのサイトの編集により、どの開始位置に対しても深さの設定が可能です。

ワークディレクトリ

/var/opt/SUNWps/https-servernamefull/portal/tmp

ロボットがデータを保存するために使用する、一時的なワークディレクトリのフルパス名。 ロボットは、多数のドキュメントの全内容を取得してこのディレクトリに保存するため、ディレクトリには一度に大量のドキュメントを扱うのに充分な容量が必要です。

状態ディレクトリ

/var/opt/SUNWps/https-servernamefull/portal/robot

ロボットが訪問した URL のリスト、URL プールなどの状態情報を保存するために使用する、一時ディレクトリのフルパス名。 このデータベースのサイズは、かなり大きくなる可能性があるため、ワークディレクトリとは異なるパーティションに置くことを推奨します。

インデックス作成

ロボットはサイトを検索し、選択されたフィルタを基準にドキュメントを収集します。 様々な形式のドキュメントが収集されます。 ドキュメントを統一し、読みやすい 1 つの形式にしたのが HTML です。 このページでは、各リソースの記述に関連するいくつかの部分を設定します。

表 F-10    ロボットのインデックスの属性 

属性

デフォルト値

説明

完全なテキストまたは部分的なテキスト

部分的なテキスト

完全なテキストの場合、リソースの記述には完全なドキュメントを使用。 部分的なテキストの場合、リソースの記述にはドキュメントの内から、指定されたバイト数だけを使用します。

最初に抽出バイト数

4096

バイト数を入力します。

目次を抽出

True (チェックボックスがオン)

True の場合、リソースの記述に目次を含めます。

META タグのデータを抽出

True (チェックボックスがオン)

True の場合、リソースの記述に META タグを含めます。

ドキュメントコンバータ

すべてにチェックが入っている
(True)。Falseの場合、そのタイプのドキュメントは、インデックスが作成されない。

Adobe PDF

Corel Presentations

Corel Quattro Pro

FrameMaker

Lotus Ami Pro

Lotus Freelance

Lotus Word Pro

Lotus 1-2-3

Microsoft Excel

Microsoft Powerpoint

Microsoft RTF

Microsoft Word

Microsoft Works

Microsoft Write

WordPerfect

StarOffice Calc

StarOffice Impress

StarOffice Writer

XyWrite

コンバータのタイムアウト

600

1 つのドキュメントを HTML に変換するために費やす時間の許容値 (秒単位)。 この時間を超過した場合、その URL は除外されます。

シミュレータ

このページは、URL に対するロボットのフィルタリングを、部分的にシミュレートするデバッグツールです。 新規の URL を入力してチェックすることができます。 URL、DNS 変換 (ホストの発見的解決を含む)、およびサイトリダイレクトをチェックします。 URL で指定されるドキュメントの内容はチェックしません。このため、重複、MIME タイプ、ネットワークエラー、許可などは検出しません。 シミュレータは、一覧にあるサイトをロボットが受け入れる (同意) か、受け入れない (拒否) かを表示します。

表 F-11    ロボットシミュレータのプロパティ

属性

デフォルト値

説明

URL

定義済みの URL、および空白のテキストボックス

空白のテキストボックスに URL を入力して、新規サイトへのアクセスをチェックできる。 新規のサイトがクローリングを許可するかチェックします。

形式: http://www.sesta.com:80/

DNS エイリアスのチェック

True (チェックボックスがオン)

True (チェックを入れる) の場合、同じアドレスのエイリアスになっているサーバーの数をチェックします。

サーバーのリダイレクトをチェック (302)

True (チェックボックスがオン)

True (チェックを入れる) の場合、サーバーのリダイレクトをすべてチェックします。

サイトプローブ

このページは、DNS エイリアス、サーバーのリダイレクト、および仮想サーバーをチェックするデバッグツールです。 このツールは、サイトに関する情報は返しますが、そのサイトがクローリングを許可するかどうかのテストは行いません。

表 F-12    ロボットのサイトプローブの属性

属性

デフォルト値

説明

サイト

空白

http://www.sesta.com:80 の形式で URL を入力します。

DNS 情報の詳細を表示

False (チェックボックスがオフ)

True (チェックを入れる) の場合、IP アドレスを含む、サイトに関する詳細な情報を表示します。

スケジュール

このページで、ロボットの自動検索スケジュールを設定し、cron ジョブを起動します。

表 F-13    ロボットのスケジュールの属性

属性

デフォルト値

説明

ロボットの始動 - 時間
(時:分)

00:00

ロボットが検索を開始する時間。

曜日

選択されていない

日、月、火、水、木、金、または土

少なくとも 1 つの曜日をチェックします

ロボットを停止する時間 (時:分)

00:00

ロボットを連続して作動させる場合でも、毎日 1 回はロボットを停止し、再スタートすることをお勧めします。 これにより、ロボットはリソースを解放して初期化することが可能になります。

曜日

選択されていない

日、月、火、水、木、金、または土

クーロンのステータス

現在の状態を表示

オフ

オン

データベース

データベースの属性は、以下のように分割されています。



データベースを分割する場合、検索サーバーの停止が必要になるため、コマンド行機能を使用する必要があります。



インポート

インポートエージョントとは、他のサーバーまたはデータベースからリソースの記述を取得し、検索データベースにマージするためのプロセスです。

「インポート」ページの最初に、利用可能なインポートエージェントの一覧があります。 新規作成、実行、編集、および既存エージェントの削除が可能です。 チェックボックスを使って、削除するエージェントを選択します。 すべてのインポートエージェントの選択または選択解除を行うには、チェックボックスの上にある小さなアイコンを使います。 ラジオボタンを使って、エージェントの動作をオンまたはオフにします。 インポートエージェントをスケジュールするには、下側メニューバーの「スケジュール」を選択します。

既存のインポートエージェントの編集または変更、あるいは新規エージョントの作成を選択した場合、以下の属性が表示されます。

表 F-14    データベースのインポートの属性 

属性

デフォルト値

説明

インポート元

選択されていない

ローカルファイルか検索サーバーのいずれかを選択します。

ローカルパス

新規の場合は空白

有効なリソース記述が SOIF (Summary Object Interchange Format)形式で記述されているローカルファイルのフルパス名を指定する。 そのパスが、ローカルにマウントされたようにアドレスの指定が可能ならば、このファイルは別のサーバーに存在させることができます。

リモートサーバー

新規の場合は空白

リソースの記述を取得する対象になっている検索サーバーの URL。
形式: http://www.sesta.com:80

インスタンス名

新規の場合は空白

検索サーバーが使用するサーバーのインスタンス名。 このインスタンス名は、インポート元のサーバーの「サーバー設定」にある。 この値は常に 3.01C か 3.01C SP1 のどちらかにする必要があります。

検索 URI

新規の場合は空白

完全パスとファイル名を入力します。 /portal/searchを使用します。

コンパスサーバーは 3.01X ですか?

False
(チェックボックスがオフ)

インポート元のサーバーは、コンパスサーバー 3.01X かどうかを指定します。

SSL の有効化

False
(チェックボックスがオフ)

これがサーバー間のトランザクションの場合、サーバーが SSL (Secure Sockets Layer) プロトコルを使用する必要があるかどうかを選択します。

認証

なし (デフォルト)

「なし」 (デフォルト) または「ユーザー/パスワード認証を使用」

インポート元のシステムに対して、インポートエージェントが認証を示す方法をここで指定する。 デフォルトの場合、認証は使用されない。 インポート元のサーバーが認証を要求する場合、インポートエージェントが使用するユーザー名およびパスワードを指定する。 3.01C からのインポートには認証不要。 3.01C SP1 からのインポートには認証が必要です。

ユーザー

新規および使用しない場合は空白

「ユーザー/パスワード認証を使用」を選択した場合はユーザーを入力します。

パスワード

新規および使用しない場合は空白

「ユーザー/パスワード認証を使用」を選択した場合はパスワードを入力します ( * が表示される)。

コンテンツの転送

「フルコンテンツの増分収集を使用」(デフォルト)

「コンテンツの増分収集を使用」(デフォルト) または「検索クエリの使用」を選択します。

これにより、どのリソースの記述をソースからインポートするかを指定します。

デフォルトの場合、インポートエージェントは、同じソースから最後にインポートしてから追加または変更された、すべてのリソースの記述をインポートすることを要求します。

検索クエリはインポートエージェントに、特定のリソースの記述だけを、ソースからインポートすることを要求するように指定します。 これは、ユーザーが検索データベースに対して、リソースリストを要求するのとほぼ同じ方法です。

「範囲」、「表示属性」、および「表示ヒット」のフィールドを使用してクエリを指定します。

範囲

新規の場合は空白

クエリのテキスト。 クエリの構文は、サーバーからのエンドユーザークエリに使用されるものと同一です。 使用できる全構文については、第 8 章「検索エンジンサービスの管理」 を参照してください。

表示属性

新規の場合は空白

リソースの記述の中からインポートされるフィールド (大文字、小文字は区別しない) の一覧が表示されます。 例えば、題名および作成者。 デフォルトはすべて表示 (All)です。

表示ヒット

新規の場合は空白

インポートするリソースの記述に一致する最大数です。 ヒットを指定しない場合のデフォルトは 20です。

エージェントの記述

新規の場合は空白

「インポート」ページの最初にある、利用可能なインポートエージェントの一覧に表示されます。 プログラムはこれを無視します。 このフィールドが空白の場合、「リソースの記述のソース」のファイル名またはサーバー名が、インポートエージェントの識別に使用されます。 ユーザー名およびパスワードが必要か確認してください。

最新のリソースの記述

新規の場合は空白

このインポートエージェントによって以前インポートされた、最新のリソースの記述が作成された日付。 「フルコンテンツの増分収集を使用」オプションは、この日付を使用して最新のリソースを確認し、インポートすべきか決定します。

ネットワークタイムアウト (秒)

新規の場合は空白

ネットワークの接続を、インポートエージェントがタイムアウトさせるまでの秒数を指定します。 ネットワークのトラフィックおよび品質の変動を考慮して調整します。

文字セット

新規の場合は空白

入力 SOIF ストリームの文字セットを指定します。 たとえば、ISO8859-1、UTF-8、UTF-16 などがあります。ISO8859-1 から ISO8859-15 までの文字セットが使用できます。

編集

編集機能を使用して、データベースにある「リソースの記述」を編集します。 例えば、RD の誤植の修正をしたり、ロボットが検出した RD を手動でカテゴリに割り当てたりすることができます。

表 F-15    データベースの編集属性

属性

デフォルト値

説明

検索対象

すべての RD

すべての RD、カテゴリ化されていない RD、カテゴリ化された RD、カテゴリごとのRD、URL 特定の RD、 RD を検索

テキストボックス

空白

検索対象の RD を識別するために固有の文字列を入力します。 カテゴリごとの RD、URL 特定の RD、および RD を検索で使用します。

検索が成功すると、見つかった RD の件数が表示され、テキストボックスにその RD の一覧が表示されます。 1 つのRD を選択すると、下表の属性 (編集可能) およびRD の部分的なテキストが表示されます。 「分類 (Classification)」以外の属性は、すべて「データベース」、「スキーマ」ページで編集可能です。

表 F-16    データベース RD の編集可能な属性 

属性

デフォルト値

説明

分類(Classification)

選択した RD のカテゴリ名

分類されている場合はカテゴリ名、分類されていない場合は「分類なし (No Classification)」。

ReadACL

空白

ドキュメントレベルのセキュリティに関連。

説明 (Description)

選択した RD から取得した説明

RD の説明

キーワード (Keyword)

キーワードがあれば選択した RD から取得される

メタタグから取得したキーワード

タイトル (Title)

選択した RD のタイトル

RD のタイトル

スキーマ

スキーマによって、リソースの記述に含まれる情報、およびその情報の形式が決定されます。RD への新規の属性またはフィールドの追加や、編集およびインデックス作成の可否の設定が可能です。 新規の RD をインポートする場合、新規 RD に組み込まれているスキーマを変換して取り込むことができます。

表 F-17    データベーススキーマの属性 

属性

デフォルト値

説明

スキーマ

作成者

内部以外のスキーマのリスト: AuthorAuthor-EMailContent-CharsetContent-EncodingContent-LanguageContent-LengthContent-TypeDescriptionExpiresFull-TextKeywordsLast-modifiedPartial-TextPhoneReadACLTitleURL

名前

作成者

選択されたスキーマの名前を表示します。 AuthorAuthor-EMailContent-CharsetContent-EncodingContent-LanguageContent-LengthContent-TypeDescriptionExpiresFull-TextKeywordsLast-modifiedPartial-TextPhoneReadACLTitleURL

説明

ドキュメントの作成者

これらの説明は、上記のスキーマ一覧に一致します。 このテキストボックスはコメント記入用で、 検索サーバーでは使用されません。

ドキュメントの作成者

ドキュメント作成者に連絡するための電子メールアドレス

HTTP サーバーから取得した、コンテンツのキャラクタセットの情報

HTTP サーバーから取得した、コンテンツのエンコードの情報

HTTP サーバーから取得した、コンテンツの言語の情報

HTTP サーバーから取得した、コンテンツの長さの情報

HTTP サーバーから取得した、コンテンツのタイプの情報

ドキュメントについての、一行だけの簡単な説明

リソースの記述が無効になる日付

ドキュメントの全内容

ドキュメントを最も良く表すキーワード

ドキュメントの最終更新日

ドキュメントから選択して抜粋した部分的テキスト

作成者の連絡先電話番号

検索サーバーがセキュリティを実行するために使用します。

ドキュメントのタイトル

ドキュメントの URL または Web アドレス

エイリアス

空白

新規の RD をインポートする場合、新規 RD に組み込まれているスキーマの変換が可能です。この変換は、インポートするデータベースのスキーマと、データベースの RD 用スキーマで使用されているフィールド名が矛盾する場合に使用します。 例えば、インポートした RD は作成者のフィールドに Writer を使用しているが、データベースの RD は Auther を使用している場合があります。 Writer を Author に変換する必要があるため、このテキストボックスに Writer と入力します。

編集可能

False (チェックボックスがオフ)

True (チェックを入れる) の場合、選択された属性 (フィールド) がデータベースの RD エディタに表示され、値の変更が可能になります。

説明、キーワード、タイトル、および ReadACL は編集が可能です。

インデックス作成可

True (チェックボックスがオン)

True (チェックを入れる) の場合、選択した属性 (フィールド) を基準にしてインデックスが作成されます。

エンドユーザー用の「詳細検索」画面のメニューに、「作成者」、「タイトル」、および URL が表示されます。 これによりエンドユーザーは、これらの特定のフィールドで値を検索することができます。

作成者 (Author) 、 期限切れ (Expires) 、キーワード (KeyWords) 、最終更新日 (Last Modified) 、 タイトル(Titles) 、 URL 、および ReadACL はインデックス作成の基準に使用できます。

インデックスの再作成

スキーマを編集してインデックスを作成したフィールドを (作成者として) 追加または削除した場合、ディスクエラーでインデックスが壊れた場合、または大量のリソースの記述を追加した場合には、データベースのインデックスを再作成する必要があります。

データベースのインデックスの再作成に要する時間は、データベースに含まれる RD の数に比例します。大型のデータベースでは、サーバーの負荷が低い時にインデックスの再作成を行う必要があります。

ロボットは必ず停止させておきます。

表 F-18    データベースのインデックス再作成の属性

属性

デフォルト値

説明

データベースのインデックスを再作成しますか?

False (チェックボックスがオフ)

True (チェックを入れる) の場合、データベースのインデックスが再作成されます。

破棄

このページでデータベースのコンテンツを破棄することができます。 これによって、インデックス用のディスク領域は回復しますが、メインデータベースのディスク領域は回復できません。これは、この領域が新規のデータを追加したときに再利用されるためです。

表 F-19    データベースの破棄の属性

属性

デフォルト値

説明

データベースを破棄しますか?

False (チェックボックスがオフ)

True (チェックを入れる) の場合、データベースのデータすべてが削除されます。

期限切れ

このオプションは、古いと見なされた RD を削除します。 データベースのサイズは減少しません。 デフォルトの場合、RD は作成された日から 90 日で期限切れになるように設定されます。

表 F-20    データベースの期限切れの属性

属性

デフォルト値

説明

RD を期限切れにしますか

False (チェックボックスがオフ)

True (チェックを入れる) の場合、期限切れになった RD だけがデータベースから削除されます。

分析

「保存」をクリックすると、すべてのサイトのソート済みリストと、現在検索データベースにあるサイトのリソースの数が表示されます。

表 F-21    データベース分析属性

属性

デフォルト値

説明

RD の総数

デーベースの現在の RD の数

現在データベースにあるリソースの記述の数を表示します。

サーバー数

パーティション分割されたデータベースが配置されているサーバーの現在の数。

データベースは、パーティション分割して複数のサーバーに配置することが可能です。

サイト

ロボットが検索に成功した URL またはドメイン。

データベースにリソースの記述を追加した URL またはドメイン。

RD の数

そのサイトの現在の RD の数。

そのサイトから取得した現在の RD の数を表示します。

タイプ

RD のタイプ

リソースの記述には、http 等の様々なタイプがあります。

割合

そのタイプの RD の数を RD の総数で割った比率

リソースの記述の総数に対して、このタイプが占める割合。

スケジュール

このページで「クーロン (Cron)」ジョブを設定し、インポートエージェントの実行スケジュールを調整します。

表 F-22    データベースのインポートスケジュールの属性

属性

デフォルト値

説明

インポート開始時間 (時:分)

00:00

インポートエージョントがインポートを開始する時間。

曜日

選択されていない

「日 - 土 」

少なくとも 1 つの曜日をチェック

クーロンのステータス

現在の状態を表示

オフ

オン

カテゴリ

エンドユーザーは 、2 つの別な方法で検索データベースと対話します。 クエリーを直接入力してデータベースを検索する方法と、カスタムなカテゴリセットを使用してデータベースコンテンツ経由でブラウズする方法があります。 検索データベースのリソースにカテゴリを割り当てると、複雑さを解消できます。 データベースに多数の項目がある場合には、関連する項目をグループ化すると便利です。 カテゴリの設定を行う際には特に使いやすさを考慮し、特定の項目をエンドユーザーが素早く見つけられるようにします。

検索サーバーは分類と呼ばれるカテゴリの階層を使用します。 一般的に「分類」という言葉は、すべてのカテゴリ化方式を表します。 検索サーバーデータベースのようなネットワーク型リソースデータベースの場合は、取得をしやすくするために選択された、ネットワークリソースをカテゴリ化する方法を示します。

「カテゴリ」のトピックは、以下のサブトピックに分割されています。

カテゴリエディタ

このページで、リソースの分類に使用するカテゴリの作成、または修正ができます。 詳細については、『Sun ONE Portal Server 6.0 Administratorユs Guide』の第 8 章「検索エンジンサービスの管理」を参照してください。

表 F-23    カテゴリエディタの属性

属性

デフォルト値

説明

名前

新規または選択されたカテゴリの名前

Search (検索データベースの名前) には、子 (Child) のカテゴリだけしか持てません。

説明

空白

説明を入力します。

分類ルールエディタ

データベース用のカテゴリを設定したら、ロボットがリソースをカテゴリに割り当てるために使用するルールの設定または変更をこのページで行います。 詳細については、第 8 章「検索エンジンサービスの管理」を参照してください。

表 F-24    カテゴリ分類規則エディタの属性

属性

デフォルト値

説明

ルール

空白

定義済みルールの一覧を表示します

ドロップダウン 1

作成者

作成者 (Author) 、電子メールの作成者 (Author-EMail) 、コンテンツの文字セット (Content-Charset) 、コンテンツのエンコード (Content-Encoding) 、コンテンツの言語 (Content-Language) 、コンテンツの長さ (Content-Length) 、コンテンツのタイプ (Content-Type) 、説明 (Description) 、期限切れ (Expires) 、完全なテキスト (Full-Text) 、キーワード (Keywords) 、最終更新日 (Last-modified) 、部分的なテキスト (Partial-Text) 、電話番号 (Phone) 、ReadACL、タイトル (Title) 、URL、ホスト (host) 、プロトコル (protocol) 、URI、IP、パス (path) 、タイプ (type)

ドロップダウン 2

is

「である (is)」が次と等しい場合、「を含む (contains)」が次を含む場合、「で始まる (begins with)」が次から始まる場合、「で終わる (ends with)」が次で終わる場合、「正規表現 (regular expression)」が次の正規表現と一致する場合

テキストボックス 1

空白

選択したドロップダウンのに関連する文字列を入力します。

「右のカテゴリに分類」

利用可能なカテゴリの一覧。

いずれか 1 つのカテゴリを選択して規則を完成させます。

再インデックスの作成

分類を作成したら、データベースのインデックスを作成し、エンドユーザーがカテゴリ検索を利用できるようにする必要があります。 カテゴリを変更した場合には、インデックスを再作成してカテゴリを最新の状態にする必要があります。 データベースのインデックスを再作成する前に、カテゴリツリーを保存します。

表 F-25    カテゴリのインデックス再作成の属性

属性

デフォルト値

説明

カテゴリツリーのインデックスを作成しますか?

False (チェックボックスがオフ)

True (チェックを入れる) の場合、定義したカテゴリに基づいて、データベースのインデックスが作成されます。

レポート

「レポート」のセクションで、検索サーバーをモニタすることができます。検索されたサイト、除外された URL と除外の理由、ロボットが訪問した URL の詳細情報、およびエンドユーザーの興味などの概要を見ることができます。

「レポート」のトピックは、以下のサブトピックに分割されています。

開始位置

ロボットは、始動するたびにすべての有効なサイトを訪問します。

表 F-26    レポートの開始位置の属性

属性

デフォルト値

説明

有効化

サイトの現在値

はい または いいえ

「ロボット」、「サイト」ページで設定。

開始位置

選択されたURL:80

選択された URL がへのリンク

サイト定義

選択されたURL

「ロボット」 > 「サイト」編集ページへリンク

深さ

選択された検索レベル。

「ロボット」 > 「サイト」編集ページで設定された。1-n の値

除外された URL

このページには、ロボットの実行結果の一覧が表示されます。 URL が除外された理由のリストを表示するには、ロボット実行を選択し、「選択内容の表示」をクリックしてから、「除外の理由」の 1 つを選択します。 その理由で除外された URL のリストが表示されます。 重複および警告によって除外された URL は削除されています。

表 F-27    レポートの除外された URL の属性

属性

デフォルト値

説明

ログ

最新の実行ログの一覧

利用可能な実行ログすべての一覧。

カウント

数字

除外された数、および除外理由の一覧。

除外の理由

サイトが許可されなかった理由の一覧。 それぞれの理由は、その理由で除外されたすべての URL の一覧にリンクされている。

URL が除外された理由には、フィルタルール、ファイルが見つからない、サイトが許可されない、プロトコルが許可されない、エラー、重複などがあります。

ロボットの詳細レポート

このページで、ロボットが生成する様々なレポートにアクセスできます。 ドロップダウンリストからレポートを選択して情報を表示します。 「再表示 (Refresh)」ボタンを押すと、最新の情報が表示されます。

表 F-28    ロボットの詳細レポートの属性

属性

デフォルト値

説明

詳細ロボットレポート

バージョン

バージョン (Version) 、DNS キャッシュダンプ (DNS Cache Dump) 、パフォーマンス (Performance) 、検出されたすべてのサーバー (Servers Found-All) 、検出された RDM サーバー (Server Found-RDM) 、現在の構成状態 (Status-Current Configuration) 、データベース (内部) の状態 (Status -Database (internal)) 、Libnet の状態 (Status-Libnet) 、モジュールの状態 (Status -Modules) 、状態の概要 (Status-Overview) 、抽出準備の完了した URL (URLs-ready for extraction) 、インデックス作成準備の完了した URL (URLs-ready for indexing) 、フィルタリング待ちの URL (URL プール) (URLs- waiting for filtering (URL pool))、インデックス作成待ちの URL (URLs- waiting for indexing) 、全レポート (all reports) 。

ログファイルの表示

ログファイルのエントリまたは特定の行を表示します。 ログファイルの一覧をドロップダウンします。 「表示」ボタンを選択したときに、表示する行数を入力します。

表 F-29    レポートのログファイル表示の属性

属性

デフォルト値

説明

このログファイルを表示

除外された URL (filter)

除外 URL 、RD マネージャ (rdmgr)、RDM サーバー (rdmsvr)、ロボットの活動 (robot)、検索エンジン (searchengine)、ユーザークエリ (rdm)

行数

25

ログファイルの表示する最近のエントリ数を指定します。

頻度の高い検索

このページで、ユーザーが何を検索しているかを見ることができます。 最も頻度の高い検索が、レポートの先頭に表示されます。

表 F-30    頻度の高い検索の属性

属性

デフォルト値

説明

参照の除外

False (チェックボックスがオフ)

False (チェックを外す) の場合、ユーザーが参照したカテゴリを含めます。真 (チェックを入れる) の場合、参照の統計を除外します。


前へ      目次      索引      次へ     
Copyright 2002-2003 Sun Microsystems, Inc. All rights reserved.