Sun Java ロゴ     前へ      目次      索引      次へ     

Sun ロゴ
Sun Java System Portal Server 6 2004Q2 管理ガイド 

付録 F
検索の属性

この付録では、Sun JavaTM System 管理コンソールを利用して検索エンジンに設定できる属性について説明します。

「サービス管理」から「検索」を選択すると、タブを持つ 2 色のメニューバーが表示されます。この付録は、メニューバー上部のトピックス (タブ) に従って構成されています。

上記のいずれかのタブを選択すると、それに関連するサブトピックが下のメニューバーに一覧表示されます。デフォルトの検索ページでは、「サーバーの設定」が選択されます。それぞれのサブトピックでは、1 つまたは複数の表を使用して、サブトピックの属性について説明します。この表には、属性、デフォルト値、説明の列があります。「属性」は、ページに表示される項目名を示します。「デフォルト値」は「属性」のデフォルト値、「説明」は「属性」の説明とその形式を示します。

表 F-1 は、それぞれの「検索」ページで使用できる「サーバーの選択」属性を示します。

表 F-1 検索サーバーの選択属性

属性

デフォルト値

説明

サーバーの選択

http://servername:80/portal

検索サーバーの完全修飾サーバー名

サーバー

「サーバー」セクションでは、サーバーの設定を行います。一時ファイルとして使用するディレクトリを選び、ログにどの情報を、どの程度詳細に記録するかを選択します。「サーバー」属性は 2 つのページに表示されます。

設定

このページには、検索サーバーの管理および操作に関する基本設定が含まれます。

表 F-2 サーバー設定属性 

属性

デフォルト値

説明

サーバールート

/var/opt/SUNWps/https-servernamefull/portal

設定、ログ、データベースおよびロボット情報ファイルを格納する。検索を実行したときに作成、および更新されるすべての検索ファイルのルートディレクトリでもある。このディレクトリの設定は変更できない

一時ファイル

/var/opt/SUNWps/https-servernamefull/portal/tmp

検索中に検索の管理に使用されるすべての一時ファイルを格納する。このファイルには、メインデータベースにはまだ追加されていない、新しく生成されたリソース記述も含まれる。検索が完了すると、これらのファイルは削除される

ドキュメントレベルのセキュリティ

オフ

ドキュメントにアクセスできるユーザーを制御する

設定を変更した場合は、サーバーを再起動する必要がある

値:

  • オフ (デフォルト) に設定すると、すべてのユーザーが RD にアクセス可能になる
  • オン に設定すると、アクセスしようとしているユーザーがアクセス権を持つかどうかについて、RD の ReadACL フィールドが調べられる。アクセス権を持つユーザーは、アクセスが許可された組織またはロールに所属するか、個人的にアクセスが許可されている。ReadACL フィールドは、「データベース」ページ、「リソース記述」ページで設定される

ロボット

このページには、検索サーバーの管理および操作に関する詳細設定が含まれます。ここでは、ユーザークエリー、インデックスのメンテナンス、リソース記述の管理、およびデバッグ用のそれぞれのログファイルを設定します。

表 F-3 サーバーの詳細設定属性 

属性

デフォルト値

説明

検索 (rdm)

/var/opt/SUNWps/https-servername/portal/logs/rdm.log

エンドユーザーが作成したデータベースのクエリーを記録する。「検索ログを無効にする」チェックボックスにチェックマークを付けると、このログは記録されない

この場合、ユーザークエリー (rdm) レポートを表示することはできない

検索ログを無効にする

False (チェックボックスがオフ) - 有効

クエリーログの使用を制御する

レポートセクションでは、このログを基に、最もよく使用されるクエリーを一覧表示したレポートを作成する

値:

  • チェックボックスがオン: 無効
  • チェックボックスがオフ: 有効。ユーザークエリーは、すべてこのログに入力される

インデックスのメンテナンス

/var/opt/SUNWps/https-servername/portal/logs/searchengine.log

検索エンジンに関連するトランザクションを記録する。リソース記述の登録は記録されない

RD マネージャ

/var/opt/SUNWps/https-servername/portal/logs/rdmgr.log

ロボットまたはインポートエージェントからデータベースへ登録したリソース記述の記録。このログは、RD マネージャ (rdmgr) レポートとして表示される

RDM サーバー

/var/opt/SUNWps/https-servername/portal/logs/rdmserver.log

RDM トランザクション上のデバッグ情報を記録する。詳細レベルは、ログレベル で制御する。このログは、RDM サーバー (rdmsvr) レポートとして表示される

ログレベル

1

RDM サーバーログファイルに含まれる詳細情報の量を制御する

指定できるレベルは、2、10、20、50、100 および 999

1 (デフォルト) に設定すると、エラーのみが記録される。値を大きくするほど、RDM サーバーのログファイルに含まれる情報が詳細になる

ロボット

ロボットのプロパティは、非常に複雑です。検索 (クローリング) するサイトを決めたら、そのサイトが有効かどうかを確認し、取得するドキュメントのタイプを決め、検索を行うスケジュールを決めます。

ここで説明する内容は次のとおりです。

概要

「ロボットの「概要」」には、ロボットの動作が表示されます。このパネルは 30 秒ごとに更新され、ロボットの状態がオフ、アイドリング、実行中、一時停止のどの状態にあるのかを示します。実行中の場合は、検索のどの段階が処理されているか、その進捗状況が示されます。更新頻度は、search.conf ファイルの robot-refresh パラメータで定義されます。

右上の 2 つのボタンは、それぞれ状態に合わせて切り替わります。ロボットがオフの場合、ボタンは「開始」または「状態を削除」になります。実行中またはアイドリング状態の場合は、ボタンは「終了」または「一時停止」になります。一時停止状態の場合、ボタンは「終了」または「再開」になります。「属性」ボタンのいずれかを選択すると、「レポート」セクションに切り替わり、その属性の最新の詳細レポートを表示できます。

表 F-4 ロボットの「概要」属性 

属性

デフォルト値

説明

ロボットは

現在の状態

ロボットの状態。値は、アイドル実行中一時停止、または オフ

更新時刻

最終更新日時

ロボットによる作業の進捗状況を示すために、このページは更新される

開始位置

指定された数値

検索対象として選択したサイト数。サイトは「ロボット」、「サイト」ページでは、無効 (検索されない) になる

URL プール

待機中の URL の数

調査する URL の数。検索を開始すると、開始位置の URL が URL プールに入力される。検索作業が進行すると、ロボットは他の URL へのリンクを発見する。これらの URL はプールに追加される。プール内のすべての URL が検索されると、URL プールは空になり、ロボットはアイドリング状態になる

抽出

秒あたりの接続数

1 秒あたりに参照されたリソース数

抽出とは、データベースに取り込むリソース、ドキュメント、またはハイパーリンクを発見し、不要な項目をフィルタリングするプロセスである

フィルタリング

拒否された URL の数

除外された URL の総数

インデックス作成

秒あたりの URL の数

1 秒間にリソース記述に変換されるリソースまたはドキュメントの数

インデックス作成とは、検索データベースに取り込むために、ドキュメントに収集されたすべての情報をリソース記述に変換する段階である

除外 URL

フィルタによって除外された URL の数

フィルタリング条件を満たさなかった URL の数

 

エラーによって除外された URL の数

ロボットでファイルが見つからないというエラーが検出された URL の数

リソース記述

提供された RD の数

データベースに追加されたリソース記述の数

 

提供された RD のバイト数

データベースに追加されたバイト数

全体の状態

取得された URL の数

実行中に取得された URL の数

 

RD の平均サイズのバイト数

リソース記述あたりの平均バイト数

 

稼動時間 (日数、時間、分、および秒)

ロボットを実行した時間

サイト

このセクションの最初のページには、検索を実行できるサイトが表示されます。

ラジオボタンを使用して、サイトを「オン」または「オフ」にできます。ロボットを実行しても、オフにしたサイトは検索されません。「編集」リンクは、検索サイトを定義する方法を変更するページを表示します。

サイトを削除するには、チェックボックスをオンにして、「削除」をクリックします。

新しいサイトを追加するには、「新規」をクリックします。URL またはドメインをテキストボックスに追加し、検索の深さを選択します。「作成」を選択すると、デフォルト値を使用して作成します。または、デフォルト以外の値を使用するために、「作成と編集」をクリックし、「編集」ページへ進み検索サイトを定義します。

表 F-5 ロボット管理サイト属性

属性

デフォルト値

説明

ロックまたはクラスタの画像

サイトの状態

開いたロックは、URL にアクセス可能なことを意味する。閉じられたロックは、サイトが安全な Web サーバーであり、SSL を使用していることを意味する。クラスタは、サイトがドメインであることを意味する

オン / オフ

オン

ロボットが実行しているときに、このサイトを検索するか、しないかを指定する

「新規サイト」ページでは、インデックスを作成するサイト全体の設定ができます。

表 F-6 ロボットの新規サイト属性

属性

デフォルト値

説明

新規サイト

URL

URL の形式は、  http://www.sesta.com

ドメインの形式は、  *.sesta.com

深さ

10

この URL のみは 1、URL と最初のリンクは 2、ロボットは 100、さらに、3 〜 10、または無制限から選択する。デフォルト値は、「ロボット」、「クローリング」ページで設定する

編集ページでは、検索サイトをより詳細に定義できます。サーバータイプの指定、検索の深さの再定義、および検索データベースに追加するファイルタイプの指定ができます。URL とドメインサイトの属性は、大部分は同じです。この表に追加されている列は、どの属性が共有され、どれが固有であるかを示します。

このページでは、多くの操作が行われます。入力した検索サイトのサーバー名を確認できます。「サーバーグループ」セクションで「追加」をクリックすると、サーバーグループにさらにサーバーを追加できます。「開始位置」セクションで「追加」をクリックすると、開始位置をさらに追加できます。「フィルタ定義」セクションでは、特定のタイプのファイルを追加または削除、除外または取り込むことができ、これらのファイルに適用するフィルタの順序も変更できます。

表 F-7 ロボットのサイト編集属性 

属性

URL またはドメイン

デフォルト値

説明

サイトのニックネーム

URL / ドメイン

入力されたサイト: www.sesta.com

最初のページに表示される名前。デフォルトは、入力された URL またはドメイン。この名前をここで変更できる

削除または確認するサイトを選択するチェックボックス

URL / ドメイン

チェックボックスがオフ

チェックボックスがオフ: 選択されない

チェックボックスがオン: 選択される

サーバーグループ名

URL

URL: www.sesta.com

単一サーバーまたは単一サーバーの一部。エントリにはホスト名全体を含める必要がある。ホスト名だけを指定すると、そのホストだけにサイトが制限される。ホスト名に加えてディレクトリ情報を入力すると、サイトはそのディレクトリおよびすべてのサブディレクトリとして定義される

ドメインのサフィックス

ドメイン

入力されたドメイン: *.sesta.com

.sesta.com *.sesta.com のように、ドメイン内のすべてのサーバーを含む

ポート

URL / ドメイン

URL は 80、ドメインでは空白

検索中のサイトが別のポートを使用する場合は、そのポートを入力する

タイプ

URL

Web サーバー

Web サーバー、ファイルサーバー、FTP サーバー、セキュリティ保護された Web サーバー

許容されるプロトコル

ドメイン

すべてのチェックボックスがオン

http、file、ftp、https のチェックボックス

開始位置: 削除するサイトを選択するためのチェックボックス

URL / ドメイン

チェックボックスがオフ

チェックボックスがオフ: 選択されない

チェックボックスがオン: 選択される

開始位置: URL

URL / ドメイン

http:// URL:80

URL またはドメイン

開始位置 - 深さ

URL / ドメイン

10

1 は、この URL のみ

2 は、この URL と最初のリンク

3-10

無制限

フィルタ定義: 削除するファイルのタイプを選択するためのチェックボックス

URL / ドメイン

チェックボックスがオフ

チェックボックスがオフ: 選択されない

チェックボックスがオン: 選択される

フィルタ定義

URL / ドメイン

デフォルトの順番: アーカイブファイル、オーディオファイル、バックアップファイル、バイナリファイル、CGI ファイル、イメージファイル、Java、JavaScript、スタイルシートファイル、ログファイル、レビジョンコントロールファイル、ソースコードファイル、一時ファイル、ビデオファイル

 

選択可能なファイルは次のとおり: アーカイブファイル、オーディオファイル、バックアップファイル、バイナリファイル、CGI ファイル、イメージファイル、Java、JavaScript、スタイルシートファイル、ログファイル、パワーポイントファイル、レビジョンコントロールファイル、ソースコードファイル、一時ファイル、ビデオファイル、スプレッドシートファイル、プラグインファイル、ロータスドミノドキュメント、ロータスドミノ OpenView、システムディレクトリ (UNIX)、システムディレクトリ (Windows)

コメント

URL / ドメイン

空白

サイトの説明を記述するテキストフィールド。ロボットはこれを使用しない

DNS 変換

URL

空白

DNS 変換は、ドメイン名またはエイリアスを cname に変換し、URL および クローリングの方法を変更する。形式:alias1->cname1,alias2->cname1

フィルタ

このセクションの最初のページには、定義されているすべてのフィルタルールと、それを使用するサイト定義が表示されます。それぞれのフィルタ名の前には、ドキュメントタイプを選択するためのチェックボックスと、フィルタルールをオン、オフするための 2 つのラジオボタンがあります。チェックボックスにチェックマークを付けると、そのフィルタを選択して削除することができます。新規フィルタを追加するには「新規」をクリックします。新規フィルタのページは「編集」ページを簡略化したもので、1 つのニックネームと 1 つのルールだけが要求されます。もう 1 つのオプションとして「編集」リンクがあります。これを選択すると、特定のファイルタイプに対するルールやフィルタの動作を定義するページへ移動します。それぞれのルールは、フィルタソースのドロップダウンリスト、検索条件のドロップダウンリスト、およびフィルタ文字列の詳細を入力するテキストボックスで構成されています。

表 F-8 ロボットのフィルタ編集の属性 

属性

デフォルト値

説明

フィルタ名

新しい名前を入力するプロンプト。編集のために選択するファイルタイプのファイル名

そのフィルタを適用するファイルタイプを反映する、明確な名前

フィルタソースのドロップダウンリスト

新規フィルタでは URL。そのファイルタイプ用に、以前に選択された情報が表示される

URL、プロトコル、ホスト、パス、MIME タイプ

選択基準のドロップダウンリスト

新規フィルタでは is。そのファイルタイプ用に、以前に選択された情報が表示される。たとえば、バイナリファイルでは exe で終わる (ends with)

「である (is)」、「を含む (contains)」、「で始まる (begins with)」、「で終わる (ends with)」、「正規表現 (regular expression)」

タイプ (ディレクトリ、プロトコル、ファイル拡張子) を指定するテキストボックス

新規フィルタの場合は空白。そのファイルタイプ用に、以前に入力された情報が表示される。たとえば、/tmp/ を含む (contains) 一時ファイル

このテキストボックスに、一致させる項目を列挙する。たとえば、http://docs.sesta.com/manual.html と一致する項目は

プロトコルは http、ホストは sesta を含む。ファイル名は html で終わる

説明

新しい説明を入力するプロンプト。以前入力したそのファイルタイプの説明が表示される

フィルタ規則の説明。ロボットはこれを使用しない

新規サイト

新規フィルタの場合は、True (チェックボックスがオン)。そのファイルタイプ用に以前に選択された値が表示される

これは、新規サイトの作成時にデフォルトフィルタの 1 つとして使用される。このチェックボックスをオンにしなくても、「ロボット」、「サイト」ページでサイトを編集してこのフィルタを新規サイトに追加できる

デフォルト

新規フィルタの場合は何も選択されていない。定義済みのファイルタイプ用に、以前に選択されたデフォルト

このフィルタと一致するドキュメントを除外する

このフィルタと一致するドキュメントを含める

新規フィルタ用の選択は、既存のサイト定義には影響しない。新規フィルタを既存のサイトで使用するには、「ロボット」、「サイト」ページでサイトを編集して追加する

属性

このフィルタを使用するサイトが一覧表示される

 

クローリング

このページの設定によって、ロボットのオペレーションパラメータとデフォルトを制御します。速度、完了のアクション、ログファイルの設定、標準への準拠、認証パラメータ、プロキシ、詳細設定、およびリンクの抽出のセクションに分けられます。

表 F-9 ロボットのクローリング属性 

属性

デフォルト値

説明

サーバー遅延

遅延なし

遅延なし (デフォルト)、1 秒、2 秒、5 秒、10 秒、30 秒、1 分、5 分

最大接続数: 同時に取得する URL 数の最大値

8

1、2、4、8 (デフォルト)、10、12、16、20

サイトあたりの最大接続

2

(無制限)、1、2、4、8、10、12、16、20

RD を送信してすべてのインデックスを作成

30 分

3 分、5 分、10 分、15 分、30 分 (デフォルト)、1 時間、2 時間、4 時間、8 時間

起動スクリプト

なし (デフォルト)

なし (デフォルト)。サンプルファイルは、/opt/SUNWps/samples/robot ディレクトリ (デフォルトのインストール) の cmdHookファイルを参照

すべての URL の処理後

アイドル (デフォルト)

アイドル状態になる (デフォルト)、シャットダウン、やり直し

連絡先の電子メール

user@domain

電子メールアドレスを入力する

ログレベル

1: 生成

0 エラーのみ、1 生成 (デフォルト)、2 列挙、変換、3 フィルタリング、4 作成、5 取得。

ユーザーエージェント

SunJavaSystemRobot/6.0

検索サーバーのバージョン

robots.txt プロトコルを無視

False (チェックボックスがオフ)

サーバーの中には、robot.txt ファイルにロボットによる検索を拒否する記述をしたものがある。このファイルを持つサイトに遭遇した場合、属性が false の時にロボットはそのサイトを検索しない。この属性が true の場合、ロボットはファイルを無視してそのサイトを検索する

認証の実行

はい

はい

いいえ

ロボットのユーザー名

匿名

ロボットは匿名のユーザー名を使用してサイトにアクセスする

パスワード

user@domain

匿名ユーザーを認めるサイトの多くは、パスワードとして電子メールアドレスを要求する。このアドレスはプレーンテキストである

プロキシのユーザー名

匿名

ロボットは匿名のユーザー名を使用してサイトにアクセスする

パスワード

user@domain

匿名ユーザーを認めるサイトの多くは、パスワードとして電子メールアドレスを要求する。このアドレスはプレーンテキストである

プロキシ接続タイプ

インターネットへの直接接続

インターネットへの直接接続、プロキシ (自動設定)、プロキシ (手動設定)

自動プロキシ設定 / タイプ

ローカルプロキシファイル

ローカルプロキシファイル、リモートプロキシファイル

自動プロキシ設定 / 位置

空白

自動プロキシのファイルには、必要なプロキシ情報すべての一覧が含まれる

ローカルプロキシファイルの例は、robot.pac を参照。リモートプロキシファイルの例は、http://proxy.sesta.com:8080/proxy.pac を参照

手動プロキシ設定/HTTP プロキシ

空白

形式: server1.sesta.com:8080。これら 3 つの手動設定値は、/var/opt/SUNWps/https-servername/portal/config ディレクトリにあるrobot.pac ファイルに保存される

手動プロキシ設定/HTTPS プロキシ

空白

この手動設定値は、robot.pac ファイルに保存される

形式: server1.sesta.com:8080

手動プロキシ設定 / FTP プロキシ

空白

この手動設定値は、robot.pac ファイルに保存される

形式: server1.sesta.com:8080

HTML のリンクを追跡

True (チェックボックスがオン)

HTML からハイパーリンクを抽出する

最大リンク数

1024

1 つの HTML リソースから、ロボットが抽出できるリンク数を制限する。ロボットがサイトを検索すると、他のリソースへのリンクも発見するため、場合によっては多数のリンクをたどって元の開始位置から極端に離れたリンクまで追ってしまう可能性がある

プレーンテキストのリンクを追跡

False (チェックボックスがオフ)

プレーンテキストからハイパーリンクを抽出する

最大リンク数

1024

1 つのテキストリソースから、ロボットが抽出できるリンク数を制限する

Cookie の使用

False (チェックボックスがオフ)

True (チェックボックスがオン) の場合、ロボットはクローリングの際に cookie を使用する。クッキーを使用しないと、正常にナビゲートできないサイトも存在する。cookie はロボットの状態ディレクトリにある cookies.txt ファイルに保存される。cookies.txt の形式は、NetscapeTM Communicator のブラウザで使用されている形式と同じ

IP をソースとして使用

True (チェックボックスがオン)

ほとんどの場合、ロボットはリソースのドメイン名だけを対象に動作する。場合によっては、インターネットプロトコル (IP) アドレスによるサブネットに基づいて、フィルタリングまたは分類を可能にする必要もある。この場合、ドメイン名に加えて IP アドレスの取得も、ロボットに対して明示的に許可する必要がある。IP アドレスを取得するには、DNS をさらに検索する必要があるため、ロボットの動作速度が低下する。必要のない場合は、このオプションをオフにするとパフォーマンスが向上する

ホストの発見的解決

False (チェックボックスがオフ)

チェックマークを付けた場合、ロボットはサーバーが使用する共通の代替ホスト名を単一の名前に変換する。この設定は、1 つのサイトが同じアドレスのエイリアスとして、複数のサーバーを持っている場合に最も便利である。たとえば、www.sesta.com というサイトには他にも、www1.sesta.comwww2.sesta.com などの名前を持つ場合がある

このオプションをオンにすると、wwwn (この n は任意の整数) で始まるすべてのホスト名が内部で www に変換される。この属性はホスト名が wwwn で始まる場合にのみ有効である

この属性は CNAME 解決がオフ (False) の場合は使用できない

ホスト名を CNAME に解決

False (チェックボックスがオフ)

True の場合、ロボットは検出したすべてのホスト名の妥当性検査を行い、標準的なホスト名に変換する。これにより、ロボットは固有の RD を正確に追跡できるようになる。False (チェックボックスがオフ) の場合、ロボットはホスト名の妥当性検査は行うが、標準的なホスト名への変換は行わない。このため、ロボットが検出したそれぞれのホスト名に重複する RD がリストされる可能性が生じる

たとえば、devedge.sesta.com は、developer.sesta.com のエイリアスである。CNAME 解決がオンの場合、devedge.sesta.com として参照された URL は、developer.sesta.com で検出されたものとしてリストされる。CNAME 解決がオフの場合、RD は参照元である devedge.sesta.com を保持する

ホストの発見的解決は、CNAME 解決が オフ (False) の場合には有効化できない

すべてのホストからのコマンドを受け入れる

False (チェックボックスがオフ)

ロボットの持つ制御機能のほとんどは、TCP/IP ポート経由で動作する。この属性は、ロボットがローカルホストからのコマンドだけを受け入れるか (False)、あるいはネットワーク上からのコマンドをすべて受け入れる (True) かを設定する

ロボットの直接制御をローカルホストに限定する (False) ことが推奨される。この設定でも、管理コンソールによるロボットの遠隔制御は可能である

デフォルトの開始位置の深さ

10

1 開始位置のみ、2 ブックマークスタイル、3 〜 10、無制限。

ロボットがすべての開始位置からたどる、ハイパーリンクレベルのデフォルト値。「ロボット」、「サイト」ページでのサイトの編集により、どの開始位置に対しても深さを設定できる

ワークディレクトリ

/var/opt/SUNWps/https-servernamefull/portal/tmp

ロボットがデータを保存するために使用する、一時的な作業用ディレクトリの完全パス名。ロボットは、多数のドキュメントの全内容を取得してこのディレクトリに保存するため、ディレクトリには一度に大量のドキュメントを扱うのに充分な容量が必要である

状態ディレクトリ

/var/opt/SUNWps/https-servernamefull/portal/robot

ロボットが訪問した URL のリスト、URL プールなどの状態情報を保存するために使用する、一時ディレクトリの完全パス名。このデータベースのサイズは、かなり大きくなる可能性があるため、ワークディレクトリとは異なるパーティションに置くことが推奨される

インデックス作成

ロボットはサイトを検索し、選択されたフィルタを基準にドキュメントを収集します。さまざまな形式のドキュメントが収集されます。収集したドキュメントを統一し、読みやすくするために、形式を HTML に統一します。このページでは、各リソース記述に関連するいくつかの部分を設定します。

表 F-10 ロボットのインデックスの属性 

属性

デフォルト値

説明

完全なテキスト / 部分的なテキスト

部分的なテキスト

完全なテキストの場合、リソース記述には完全なドキュメントを使用する。部分的なテキストの場合、リソース記述にはドキュメントの内から、指定されたバイト数だけを使用する

最初に抽出するバイト数

4096

バイト数を入力する

目次を抽出

True (チェックボックスがオン)

True の場合、リソース記述に目次を含める

META タグのデータを抽出

True (チェックボックスがオン)

True の場合、リソース記述に META タグを含める

ドキュメントコンバータ

すべてにチェックマークが付けられている (True)。False の場合、そのタイプのドキュメントは、インデックスが作成されない

Adobe PDF

Corel Presentations

Corel Quattro Pro

FrameMaker

Lotus Ami Pro

Lotus Freelance

Lotus Word Pro

Lotus 1-2-3

Microsoft Excel

Microsoft Powerpoint

Microsoft RTF

Microsoft Word

Microsoft Works

Microsoft Write

WordPerfect

StarOfficeTM Calc

StarOfficeTM Impress

StarOfficeTM Writer

XyWrite

コンバータのタイムアウト

600

1 つのドキュメントを HTML に変換するために要する時間の許容値 (秒単位)。この時間を超過した場合、その URL は除外される

シミュレータ

このページは、URL に対するロボットのフィルタリングを、部分的にシミュレートするデバッグツールです。新規の URL を入力してチェックすることができます。URL、DNS 変換 (ホストの発見的解決を含む)、およびサイトリダイレクトをチェックします。URL で指定されるドキュメントの内容はチェックしません。このため、重複、MIME タイプ、ネットワークエラー、許可などは検出しません。シミュレータは、一覧にあるサイトをロボットが受け入れる (同意) か、受け入れない (拒否) かを表示します。

表 F-11 ロボットシミュレータのプロパティ

属性

デフォルト値

説明

URL

定義済みの URL、および空白のテキストボックス

空白のテキストボックスに URL を入力して、新規サイトへのアクセスをチェックできる。新規のサイトがクローリングを許可するかどうかをチェックする

形式: http://www.sesta.com:80/

DNS エイリアスを確認

True (チェックボックスがオン)

True (チェックボックスがオン) の場合、同じアドレスのエイリアスになっているサーバーの数をチェックする

サーバーリダイレクトを確認 (302)

True (チェックボックスがオン)

True (チェックボックスがオン) の場合、サーバーのリダイレクトをすべてチェックする

サイトプローブ

このページは、DNS エイリアス、サーバーのリダイレクト、および仮想サーバーをチェックするデバッグツールです。このツールは、サイトに関する情報は返しますが、そのサイトがクローリングを許可するかどうかのテストは行いません。

表 F-12 ロボットのサイトプローブの属性

属性

デフォルト値

説明

サイト

空白

http://www.sesta.com:80 の形式で URL を入力する

DNS 情報の詳細を表示

False (チェックボックスがオフ)

True (チェックボックスがオン) の場合、IP アドレスを含む、サイトに関する詳細な情報を表示する

スケジュール

このページでは、ロボットの自動検索スケジュールを設定します。

表 F-13 ロボットのスケジュールの属性

属性

デフォルト値

説明

時間指定によるロボットの開始

00:00

ロボットが検索を開始する時刻

曜日

選択されていない

日、月、火、水、木、金、または土

少なくとも 1 つの曜日にチェックマークを付ける

時間指定によるロボットの停止

00:00

ロボットを連続して作動させる場合でも、毎日 1 回はロボットを停止し、再スタートすることが推奨される。これにより、ロボットはリソースを解放して初期化することができる

曜日

選択されていない

日、月、火、水、木、金、または土

データベース

データベースの属性は、次のように分けられています。

管理

「管理」の最初のページには、利用できるデータベースがリスト表示されます。新規作成、既存データベースのインデックスの再作成、パージ、および有効期限の無効化が可能です。処理の対象となるデータベースを選択するには、対応するチェックボックスにチェックマークを付けます。すべてのデータベースを選択または選択解除するときは、チェックボックスの上にある小さなアイコンを使用します。「インデックスの再作成」、「破棄」、「期限切れ」を選択すると、選択されているデータベースの名前と、処理の確認を求めるプロンプトが表示されます。処理を実行する場合は、「了解」を選択します。

スキーマを編集してインデックスを作成したフィールドを (作成者として) 追加または削除した場合、またはディスクエラーでインデックスが破損した場合は、データベースのインデックスを再作成する必要があります。スキーマを変更した後でサーバーを再起動する必要があります。

データベースのインデックスの再作成に要する時間は、データベースに含まれる RD の数に比例します。

大型のデータベースでは、サーバーの負荷が低い時にインデックスの再作成を行う必要があります。データベースの内容をパージすると、インデックス用のディスク領域は回復しますが、メインデータベースのディスク領域は回復できません。これは、この領域が新規のデータを追加したときに再利用されるためです。

データベースの有効期限が切れると、古いと見なされるすべての RD が削除されます。データベースのサイズは減少しません。デフォルトでは、RD は作成された日から 90 日で期限切れになるように設定されます。

「編集」リンクをクイックしてデータベース属性を定義するページに移動し、そのページでデータベースを編集することもできます。

表 F-14 データベース管理属性

属性

デフォルト値

説明

名前

デフォルト

検索で使用されるデータベースの名前

タイトル

空白

データベースのタイトル

説明

空白

データベースの説明を入力する

インポートエージェント

インポートエージョントとは、他のサーバーまたはデータベースからリソース記述を取得し、検索データベースにマージするためのプロセスです。

「インポート」ページの最初に、利用可能なインポートエージェントの一覧があります。新規作成、実行、編集、および既存エージェントの削除が可能です。チェックボックスにチェックマークを付けてエージェントを選択し、削除することができます。すべてのインポートエージェントを選択または選択解除するときは、チェックボックスの上にある小さなアイコンを使用します。エージェント動作のオン、オフを切り替えるには、ラジオボタンを使用します。インポートエージェントをスケジューリングするには、下のメニューバーの「スケジュール」を選択します。

既存のインポートエージェントを編集または変更する場合、または新規エージョントの作成を選択する場合は、次の属性が表示されます。

表 F-15 データベースのインポートエージェント属性 

属性

デフォルト値

説明

文字セット

新規の場合は空白

入力 SOIF ストリームの文字セットを指定する。たとえば、ISO8859-1、UTF-8、UTF-16 など。ISO8859-1 から ISO8859-15 までの文字セットを使用できる

インポート元

ローカルファイル

ローカルファイルまたは検索サーバー (有効化されているサーバーがある場合) を選択する

ローカルファイルパス

新規の場合は空白

有効なリソース記述が SOIF (Summary Object Interchange Format) 形式で記述されているローカルファイルのフルパス名を指定する。別サーバー上のファイルであっても、そのパスがローカルにマウントされたようにアドレス指定できる場合は、指定できる

データベース名

デフォルト

インポート先データベースの名前

リモートサーバー

新規の場合は空白

リソース記述を取得する対象になっている検索サーバーの URL。形式: http://www.sesta.com:80

インスタンス名

新規の場合は空白

検索サーバーが使用するサーバーのインスタンス名。このインスタンス名は、インポート元のサーバーの「サーバー設定」で確認できる。この値は常に 3.01C か 3.01C SP1 のいずれかにする必要がある

検索 URI

新規の場合は空白

完全パスとファイル名を入力する。形式: /portal/search

コンパスサーバー 3.01X を使用

False (チェックボックスがオフ)

インポート元のサーバーが Compass Server 3.01X であるかどうかを指定する

SSL を有効

False (チェックボックスがオフ)

これがサーバー間のトランザクションの場合、サーバーが SSL (Secure Sockets Layer) プロトコルを使用する必要があるかどうかを指定する

認証

なし (デフォルト)

「なし」 (デフォルト) または「ユーザー / パスワード認証を使用」

インポート元のシステムに対して、インポートエージェントが認証を示す方法をここで指定する。デフォルトでは認証は使用されない。インポート元のサーバーが認証を要求する場合、インポートエージェントが使用するユーザー名およびパスワードを指定する。3.01C からのインポートでは認証は要求されない。3.01C SP1 からのインポートでは認証が要求される

ユーザー

新規および使用しない場合は空白

「ユーザー / パスワード認証を使用」を選択した場合はユーザーを入力する

パスワード

新規および使用しない場合は空白

「ユーザー / パスワード認証を使用」を選択した場合はパスワードを入力する (* として表示される)

コンテンツの転送

「フルコンテンツの増分収集を使用」 (デフォルト)

「フルコンテンツの増分収集を使用」 (デフォルト) または「検索クエリーの使用」を選択する

これは、リソースのどの記述をソースからインポートするかを指定する

デフォルトでは、インポートエージェントは、同じソースから最後にインポートした後に追加または変更された、すべてのリソース記述をインポートすることを要求する

検索クエリーはインポートエージェントに、特定のリソース記述だけを、ソースからインポートすることを要求するように指定する。これは、ユーザーが検索データベースに対して、リソースリストを要求する場合とほぼ同じである

「範囲」、「表示属性」、および「表示ヒット」のフィールドを使用してクエリーを指定する

範囲

新規の場合は空白

クエリーのテキスト。クエリーの構文は、サーバーからのエンドユーザークエリーに使用されるものと同じ

表示属性

新規の場合は空白

リソース記述の中からインポートするフィールドを指定する (大文字、小文字は区別されない)。たとえば、タイトル、作成者など。デフォルトはすべてインポートされる

表示ヒット

新規の場合は空白

インポートするリソースの説明の一致の最大数。ヒット件数を指定しない場合のデフォルトは 20

エージェント記述

新規の場合は空白

「インポート」ページの最初にある、利用可能なインポートエージェントの一覧に表示される。プログラムはこれを無視する。このフィールドが空白の場合、「リソース記述のソース」のファイル名またはサーバー名が、インポートエージェントの識別に使用される。ユーザー名とパスワードの必要性を確認する必要がある

最新のリソース記述

新規の場合は空白

このインポートエージェントによって以前インポートされた、最新のリソース記述が作成された日付。「フルコンテンツの増分収集を使用」オプションは、この日付を使用して最新のリソースを確認し、インポートすべきかどうかを決定する

ネットワークタイムアウト

新規の場合は空白

ネットワークの接続を、インポートエージェントがタイムアウトさせるまでの秒数を指定する。ネットワークのトラフィックおよび品質の変動を考慮して調整する

リソース記述

「リソース記述」の最初のページでは、データベース内のリソース記述を検索できます。たとえば、RD の誤植の修正をしたり、ロボットが検出した RD を手動でカテゴリに割り当てたりすることができます。

表 F-16 リソース記述属性 

属性

デフォルト値

説明

検索対象

すべての RD

すべての RD、カテゴリ化されていない RD、カテゴリ化された RD、カテゴリごとのRD、URL 特定の RD、RD を検索する

テキストボックス

空白

検索対象の RD を識別するために固有の文字列を入力する。カテゴリごとのRD、URL 指定の RD、および属性値を含む RD に適用される

データベース

デフォルト

検索対象データベースの名前

カテゴリの選択

 

カテゴリツリーをブラウズし、カテゴリを選択する

削除

 

RD 検索で返された 1 つまたは複数の RD を選択し、削除する

次へ

 

RD 検索で返された次の RD セットを表示する

前へ

 

RD 検索で返された前の RD セットを表示する

選択内容を編集

 

RD 検索で返された 1 つまたは複数の RD の属性を編集する

すべて編集

 

RD 検索で返された、現在表示されている RD セットの属性を編集する

検索をカテゴリ単位で制限するときは、「カテゴリの選択」を選択します。「カテゴリエディタ」ページが表示され、分類から検索対象カテゴリを指定できます。カテゴリを選択するときは、「選択されているカテゴリ」テキストボックスにカテゴリを指定するか、分類をブラウズして選択します。カテゴリを選択したら、「了解」をクリックして RD 検索ページに戻ります。

表 F-17 カテゴリエディタの属性

属性

デフォルト値

説明

選択されているカテゴリ

空白

選択したカテゴリを表示するテキストフィールド

すべて展開

 

分類を展開する。階層内のすべてのエントリをブラウズできる

すべて縮小

空白

分類を縮小表示する。階層内の最初の 2 レベルに含まれるカテゴリだけをブラウズできる

各ページのカテゴリ

25

1 ページに表示するカテゴリの数を指定するドロップダウンリスト。指定できる値は、25、50、100、250、500、およびすべて

検索が成功すると、見つかった RD の件数が表示され、リストボックスにその RD が表示されます。RD の「編集」リンクをクリックすると、次の属性 (編集可能) と RD の部分的なテキストが表示されます。「Classification」以外の属性は、すべて「データベース」、「スキーマ」ページで編集できます。

表 F-18 データベース RD の編集可能な属性 

属性

デフォルト値

説明

Author

空白

ドキュメントの作成者

Author e-mail

空白

ドキュメント作成者に連絡するための電子メールアドレス

Classification

選択した RD のカテゴリ名

分類されている場合はカテゴリ名、分類されていない場合は「No Classification」が表示される

ReadACL

空白

ドキュメントレベルのセキュリティに関連する

Content-Charset

 

HTTP サーバーから取得した、コンテンツの文字セットの情報

Content-Encoding

空白

HTTP サーバーから取得した、コンテンツのエンコードの情報

Content-Language

空白

HTTP サーバーから取得した、コンテンツの言語の情報

Content-Length

空白

HTTP サーバーから取得した、コンテンツの長さの情報

Content-Type

空白

HTTP サーバーから取得した、コンテンツのタイプの情報

Description

選択した RD から取得した説明

RD の説明

Expires

有効な日付

リソース記述が無効になる日付

Full-Text

空白

ドキュメントの全内容

Keywords

キーワードがあれば選択した RD から取得される

メタタグから取得したキーワード

Last-Modified

最終更新日

ドキュメントの最終更新日

Partial-text

ドキュメントの部分的なテキスト

ドキュメントから選択して抜粋した部分的テキスト

Phone

空白

作成者の連絡先電話番号

Title

選択した RD のタイトル

RD のタイトル

URL

空白

ドキュメントの URL (Uniform Resource Locator)

Schema

リソース記述に含まれる情報、およびその情報の形式は、スキーマによって決定されます。RD への新規の属性またはフィールドの追加や、編集およびインデックス作成の可否の設定が可能です。新規の RD をインポートする場合、新規 RD に組み込まれているスキーマを変換して取り込むことができます。

表 F-19 データベーススキーマ編集属性 

属性

説明

Author

ドキュメントの作成者

Author-EMail

ドキュメント作成者に連絡するための電子メールアドレス

Content-Charset

HTTP サーバーから取得した、コンテンツの文字セットの情報

Content-Encoding

HTTP サーバーから取得した、コンテンツのエンコードの情報

Content-Language

HTTP サーバーから取得した、コンテンツの言語の情報

Content-Length

HTTP サーバーから取得した、コンテンツの長さの情報

Content-Type

HTTP サーバーから取得した、コンテンツのタイプの情報

Description

ドキュメントについての、一行だけの簡単な説明

Expires

リソース記述が無効になる日付

Full-Text

ドキュメントの全内容

Keywords

ドキュメントを最も良く表すキーワード

Last-Modified

ドキュメントの最終更新日

Partial-Text

ドキュメントから選択して抜粋した部分的テキスト

Phone

作成者の連絡先電話番号

ReadACL

検索サーバーがセキュリティを実行するために使用

Title

ドキュメントのタイトル

URL

ドキュメントの URL (Uniform Resource Locator)

エイリアス

名前

説明

新規の RD をインポートする場合、新規 RD に組み込まれているスキーマを変換できる。この変換は、インポートするデータベースのスキーマと、データベースの RD 用スキーマで使用されているフィールド名が矛盾する場合に使用する。たとえば、インポートした RD は作成者のフィールドに Writer を使用しているが、データベースの RD は Auther を使用している場合がある。Writer を Author に変換する必要があるため、このテキストボックスに Writer と入力する

データタイプ

データタイプを指定する

編集可能

True (チェックボックスがオン) の場合、選択された属性 (フィールド) がデータベースの RD エディタに表示され、値を変更できる

「Description」、「Keyword」、「Title」、および「ReadACL」を編集できる

インデックス作成可能

True (チェックボックスがオン) の場合、選択した属性 (フィールド) を基準にしてインデックスが作成される

エンドユーザー「詳細検索」画面のメニューに、「Author」、「Title」、「URL」が表示される。エンドユーザーは、これらの特定のフィールドで値を検索することができる。

「Author」、「Expires」、「Keyword」、「Last Modified」、「Title」、「URL」、および「ReadACL」はインデックス作成の基準に使用できる

乗数のスコア

特定の要素の重みを指定するフィールド。任意の正の値が有効

分析

「解析」ページには、すべてのサイトのソート済みリストと、現在検索データベースにあるサイトのリソースの数が表示されます。ファイルの分析を更新するときは、「分析の更新」を選択します。

表 F-20 データベース分析属性 

属性

デフォルト値

説明

RD の合計数

デーベースの現在の RD の数

現在データベースにあるリソース記述の数を表示する

サーバーの数

パーティションによって分割されたデータベースが配置されているサーバーの現在の数

データベースは、パーティションで分割して複数のサーバーに配置することができる

サイト

ロボットが検索に成功した URL またはドメイン

データベースにリソース記述を追加した URL またはドメイン

RD の数

そのサイトの現在の RD の数

そのサイトから取得した現在の RD の数を表示する

タイプ

RD のタイプ

リソース記述には、http など、さまざまなタイプがある

タイプの割合

そのタイプの RD の数を RD の総数で割った比率

リソース記述の総数に対して、このタイプが占める割合

スケジュール

このページでは、インポートエージェントの実行スケジュールを設定します。

表 F-21 データベースのインポートスケジュール属性

属性

デフォルト値

説明

時間指定によるインポート開始

00:00

インポートエージョントがインポートを開始する時刻

曜日

選択されていない

日〜土

少なくとも 1 つの曜日にチェックマークを付ける

カテゴリ

エンドユーザーは 2 つの別な方法で検索データベースと対話します。クエリーを直接入力してデータベースを検索する方法と、カスタムなカテゴリセットを使用してデータベースコンテンツ経由でブラウズする方法があります。検索データベースのリソースにカテゴリを割り当てると、複雑さを解消できます。データベースに多数の項目がある場合には、関連する項目をグループ化すると便利です。カテゴリの設定を行う場合は特に使いやすさを考慮し、特定の項目をエンドユーザーが素早く見つけられるようにします。

検索サーバーは分類と呼ばれるカテゴリの階層を使用します。一般的に「分類」という言葉は、すべてのカテゴリ化方式を表します。検索サーバーデータベースのようなネットワーク型リソースデータベースの場合は、取得しやすくするために選択された、ネットワークリソースをカテゴリ化する方法を表します。

「カテゴリ」のトピックは、次のサブトピックに分れています。

カテゴリエディタ

「カテゴリエディタ」ページには、分類に含まれるカテゴリがリスト表示され、カテゴリをブラウズできます。カテゴリをブラウズしたら、カテゴリのリンクを選択して「分類ルールエディタ」を呼び出し、特定のカテゴリでのロボット収集を設定できます。

表 F-22 カテゴリエディタの属性 

属性

デフォルト値

説明

すべて展開

 

分類を展開する。階層内のすべてのエントリをブラウズできる

すべて縮小

 

分類を縮小表示する。階層内の最初の 2 レベルに含まれるカテゴリだけをブラウズできる

インデックスの再作成

 

データベースのインデックスを再作成する。分類を作成したら、データベースのインデックスを作成し、エンドユーザーがカテゴリ検索を利用できるようにする必要がある。カテゴリを変更した場合は、インデックスを再作成してカテゴリを最新の状態にする必要がある。データベースのインデックスを再作成する前に、カテゴリツリーを保存する。次に、新しい分類をロードする

各ページのカテゴリ

25

1 ページに表示するカテゴリの数を指定するドロップダウンリスト。指定できる値は、25、50、100、250、500、およびすべて

名前

選択したカテゴリ

編集のために選択したカテゴリの名前を表示する

説明

空白

選択しているカテゴリの説明を表示する

一致規則

空白

選択しているカテゴリに適用される一致規則を表示する

更新

 

カテゴリの定義を更新する

子として追加

 

カテゴリを子として追加する

兄弟として追加

 

カテゴリをシブリングとして追加する

分類ルールエディタ

データベース用のカテゴリを設定したら、「新規」をクリックして、選択しているカテゴリのロボットのルールを設定または変更し、カテゴリにリソースを割り当てます。

表 F-23 カテゴリ分類ルールエディタの属性 

属性

デフォルト値

説明

ソース

作成者

有効な属性は次のとおり

  • Author
  • Author-EMail
  • Content-Charset
  • Content-Encoding
  • Content-Language
  • Content-Length
  • Content-Type
  • Description
  • Expires
  • Full-Text
  • Keywords
  • Last-Modified
  • Partial-Text
  • Phone
  • ReadACL
  • Title
  • URL
  • ホスト
  • プロトコル
  • IP
  • パス
  • タイプ

メソッド

is

「である (is)」、「を含む (contains)」、「で始まる (begins with)」、「で終わる (ends with)」、「正規表現 (regular expression)」

基準

空白

ルールの条件を指定する

分類

空白

ルールの条件と一致した場合に、その RD を分類するカテゴリ。カテゴリ名を入力するか、「カテゴリの選択」ページでブラウズする

レポート

「レポート」のセクションでは、検索サーバーを監視することができます。この操作の要約を表示することができます。要約には、検索したサイト、除外された URL と除外の理由、ロボットがアクセスした URL の詳細情報、エンドユーザーの興味の対象が含まれます。

「レポート」のトピックは、次のサブトピックに分れています。

開始位置

ロボットは、始動するたびにすべての有効なサイトを訪問します。

表 F-24 レポートの開始位置の属性 

属性

デフォルト値

説明

有効

サイトの現在の値

はい、またはいいえ

「ロボット」、「サイト」ページで設定される

開始位置

選択された URL:80

選択された URL へのリンク

サイト定義

選択された URL

「ロボット / サイト」編集ページへリンクする

深さ

選択された検索レベル

「ロボット」「サイト」編集ページで設定された 1-n の値

除外された URL

「除外 URL」ページには、ロボットの実行結果が表示されます。URL が除外された理由のリストを表示するには、まず、調べるロボット実行を選択します。次に「選択内容の表示」をクリックし、「除外の理由」の 1 つを選択します。その理由で除外された URL のリストが表示されます。重複および警告によって除外された URL は消去されています。

表 F-25 レポートの除外された URL の属性

属性

デフォルト値

説明

ログ

最新の実行ログのリスト

利用可能なすべての実行ログすべてのリスト

カウント

数字

除外された数、および除外理由のリスト

除外の理由

サイトが許可されなかった理由のリスト。それぞれの理由は、その理由で除外されたすべての URL の一覧にリンクされている

URL が除外された理由には、フィルタルール、ファイルが見つからない、サイトが許可されない、プロトコルが許可されない、エラー、重複などがある

ロボットの詳細レポート

「ロボットの詳細レポート」ページでは、ロボットが生成する各種レポートにアクセスできます。ドロップダウンリストからレポートを選択して情報を表示します。「更新」ボタンをクリックすると、最新の情報が表示されます。

表 F-26 ロボットの詳細レポートの属性

属性

デフォルト値

説明

ロボットの詳細レポート

バージョン

バージョン (Version)、DNS キャッシュダンプ (DNS Cache Dump)、パフォーマンス (Performance)、検出されたすべてのサーバー (Servers Found-All)、検出された RDM サーバー (Server Found-RDM )、現在の構成状態 (Status-Current Configuration)、データベース (内部) の状態 (Status-Database(internal))、Libnet の状態 (Status-Libnet)、モジュールの状態 (Status-Modules)、状態の概要 (Status-Overview)、抽出準備の完了した URL (URL s-ready for extraction)、インデックス作成準備の完了した URL (URL s-ready for indexing)、フィルタリング待ちの URL (URL プール) (URL s-waiting for filtering (URL pool))、インデックス作成待ちの URL (URL s-waiting for indexing)、全レポート (all reports)

ログファイル

ログファイルのエントリまたは特定の行を表示できます。ドロップダウンリストからログファイルを選択します。「表示」ボタンを選択し、表示する行数を指定します。

表 F-27 レポートのログファイル表示の属性

属性

デフォルト値

説明

このログファイルを表示

除外された URL (filter)

除外された URL (filter)、RD マネージャ (rdmgr)、RDM サーバー (rdmsvr)、ロボットの活動 (robot)、検索エンジン (searchengine)、ユーザークエリー (rdm)

行数

25

ログファイルから表示する最新のエントリ数を指定する

頻度の高い検索

「頻度の高い検索」ページでは、ユーザーが何を検索したかを確認できます。レポートの先頭には、最も頻度の高い検索が表示されます。

表 F-28 頻度の高い検索の属性

属性

デフォルト値

説明

ブラウザの閲覧は対象外

False (チェックボックスがオフ)

False (チェックボックスがオフ) の場合は、ユーザーが参照したカテゴリを含める。True (チェックボックスがオン) の場合は、参照の統計情報を除外する



前へ      目次      索引      次へ     


Copyright 2004 Sun Microsystems, Inc. All rights reserved.