ユーザが検索を実行するには、検索の対象にすることができる検索可能なデータのデータベースが必要です。そのためには、コンテンツおよびファイルのプロパティなどのドキュメントに関する情報に索引を作成して保存するコレクションと呼ばれるデータベースを作成します。
検索には、検索を実行するファイルのコレクションが必要です。ドキュメントに索引が作成されると、タイトル、作成日、作成者などのコンテンツおよびファイルのプロパティが検索に使用可能になります。
コレクションからドキュメントを追加または削除することができます。必要に応じて、コレクションを最適化、更新、および管理することもできます。
ノート
Web パブリッシング コレクションが存在しないか、または削除されていると、検索は機能しません。検索が機能しない場合は、Web パブリッシング機能をオンにして (デフォルト) サーバを再起動し、もう一度検索を行ってください。
この節では、次のトピックについて説明します。
コレクションについて
サーバ管理者がすべてまたは一部のサーバのドキュメントに索引を作成すると、そのドキュメントに関する情報がコレクションに保存されます。 コレクションには、ドキュメントの形式、ドキュメントで使われる言語、検索可能な属性、コレクション内のドキュメント数、コレクションの状態、コレクションの簡単な説明などの情報が含まれます。詳細については、コレクション コンテンツの表示を参照してください。
コレクションを作成する場合は、HTML、ASCII、ニュース、電子メール、PDF、複数の形式などのファイルの種類を指定します。これによって、どの属性に索引を作成するか、どういったファイル変換 (ある場合) を行う必要があるかなど、索引作成時に行われる操作が決まります。インストールしたkeyview フィルタがある場合、複数の形式によるコレクションのファイルは HTML に変換されます。詳細については次を参照してください。
ディレクトリ内のすべてのファイル、または HTML、PDF、*.doc ドキュメントなど、特定の拡張子が付いているファイルにのみ索引を作成することができます。
コレクションには、索引が作成されている各ドキュメントに関する情報を含むレコードがあります。ドキュメントがコレクションから削除される場合、そのドキュメントのコレクションのエントリのみが削除されます。元のドキュメントは削除されません。
複数のサーバ インスタンスがある場合、作成するコレクションは、そのコレクションが作成されたサーバ インスタンスのみに関連付けられます。したがって、ユーザは、そのサーバ インスタンスのコレクションしか検索することができません。
コレクションの属性について
表 16.2 のように、特定のファイル形式には、そのタイプのファイル用に索引が作成される属性のデフォルトのセットがあります。
デフォルトでは、HTML コレクションには Title および SourceType 属性がありますが、HTML <META> タグが付けられた最大 30 のファイル属性を検索してソートできるように索引を作成することができます。属性の最大数の調整で説明したように、ファイル属性の最大設定は webpub.conf で変更することができます。
たとえば、ドキュメントには次のような HTML コードの行があります。
このドキュメントが、抽出された META タグを使って索引が作成されていれば、Writer または Product フィールドの特定の値を検索することができます。 たとえば、Writer <contains> Hunter または Song <contains> Blueのようなクエリの入力が可能です。
ノート META タグ付きのフィールド内の属性値はテキスト文字列のみです。つまり、日付および数値は、日付や数値としてではなくテキストとして保存されます。
また、META タグ付きの属性内の不正な HTML 文字は、ハイフンで置換されます。[Add Custom Property] ウィンドウ
([Web Publishing] を選択して [Add Custom Property] リンクをクリックする) を使って、テキスト形式の日付および数値を再定義すると、Web
パブリッシング コレクション内のデータの実際の日付および数値に基づいて検索を実行することができます。
新規コレクションの作成
ディレクトリ内のすべてまたは一部のファイルのコンテンツに索引が作成されるコレクションを作成することができます。1 種類のファイルのみを含むコレクションを定義したり、索引作成時に自動的に HTML に変換されるさまざまな形式のドキュメントのコレクションを作成したりすることができます。自動変換オプションを設定して複数の形式のコレクションを定義する場合は、まずインデクサーでドキュメントを HTML に変換してから、HTML ドキュメントのコンテンツの索引を作成します。変換された HTML ドキュメントは、サーバの検索コレクション フォルダ内の html_doc ディレクトリに格納されます。
サーバで所有できるのは 12 個のコレクションのみで、そのうち Web パブリッシングを使うサーバのユーザ定義コレクションは、10 個以下に制限されています。13 個目のコレクションを使う場合は、既存のコレクションのいずれかを削除する必要があります ([Search] を選択して [Maintain Collection] をクリックする)。サーバにある Web パブリッシング コレクションは削除しないでください。
コレクション内には最大 1,600 万個のドキュメントのエントリを所有することができます。複数のコレクションで索引が作成されているドキュメントは、複数のドキュメントとして数えます。10,000 個以上のドキュメントを持つ新しいコレクションを作成する場合は、トラフィックが少ないときに作成することをお勧めします。そうしないと、索引作成操作によってシステムのパフォーマンスに影響が生じます。
ノート コレクションを作成するには、システムに最低 3MB
の使用可能なディスク容量が必要です。索引ファイルのサイズを制限する方法の詳細については、索
引ファイル サイズの制限を参照してください。
新規コレクションを作成するには、次の手順を実行します。
- [Server Manager] から [Search] を選択します。
- [New Collection] リンクをクリックします。
- 索引を作成するディレクトリを検索するには、まず、ドロップダウン リスト内の任意の項目を選択します。
- 異なるサブディレクトリの索引を作成する場合、[View] ボタンをクリックして、リソースのリストを表示します。
- 一覧表示されるディレクトリの索引を作成したり、表示されるディレクトリ内のサブディレクトリを表示して、そのうちの
1 つに索引を作成したりすることができます。ディレクトリの索引 リンクをクリックすると、[Create Collection] ウィンドウに戻り、そのディレクトリ名が
[Directory to Index] フィールドに表示されます。
- 選択したディレクトリ内のすべての HTML ファイルに索引を作成するには、[Documents matching]
フィールドのデフォルトの *.html パターンをそのままにするか、またはワイルドカード式を定義して、そのパターンに一致するドキュメントのみに索引を作成するように設定します。
ノート
- 指定したディレクトリ内のサブディレクトリに索引を作成するには、[Include Subdirectories]
をクリックします。
- [Collection Name] フィールドにコレクションの名前を入力します。
ノート
- オプションの [Collection Label] フィールドに、コレクションのユーザ定義名を入力します。
- オプションの [Description] フィールドに、最大 1024 文字のコレクションの説明を入力します。
- ASCII、HTML、ニュース、電子メール、または PDF の中から、コレクションを保存するファイルの種類を選択します。
- 索引作成時に HTML ファイルから META タグ付きの属性を抽出するかどうかを選択します。
- ドロップダウン リストからコレクションの言語を選択します。
- [OK] をクリックして、新規コレクションを作成します。
ノート コレクションの索引作成をいったん開始すると、索引作成が完了するか、またはシステムを再起動するまで処理を中止することはできません。サーバをシャットダウンしても、処理は強制終了されません。
コレクションの設定
最初にコレクションを作成した後、コレクションの設定を変更することができます。このデータは、コレクション情報ファイル dblist.ini にあり、コレクションを再設定すると、dblist.ini ファイルが更新されて、変更内容が反映されます。コンフィグレーション ファイルの詳細については、手作業によるファイルの設定を参照してください。 説明の修正、ラベルの変更、およびドキュメントへの異なる URL の定義を行うことができます。さらに、表示されるドキュメント内での強調表示の方法、使うパターン ファイル、および日付のフォーマット方法を定義することもできます。
ノート
このウィンドウを使うと、実際のコレクション データは変更しないので、Web パブリッシングのデフォルトのコレクション web_htm の設定を変更することができます。このコレクションの設定を不必要に変更しないでください。
コレクションを設定するには、次の手順を実行します。
-
[Server Manager] から [Search] を選択します。
-
[Configure Collection] リンクをクリックします。
-
オプションの [Description] フィールドに、最大 1024 文字のコレクションの説明を入力することができます。
-
オプションの [Collection Label] フィールドに、コレクションのユーザ定義の名前を入力することができます。
-
変更されている場合は、[URL for Documents] フィールドにコレクションのドキュメントの新しい URL マッピングを入力することができます。
-
[Highlight Begin] および [Highlight End] フィールドに、表示されるドキュメントで検索クエリの単語またはフレーズを強調表示するときにサーバで使う HTML タグを入力することができます。
-
検索結果を表示するためのさまざまなデフォルトのパターン ファイル、つまり検索結果のヘッダ、フッタ、およびリストのエントリ行のそれぞれのフォーマット方法を定義することができます。
-
[Result Pattern File] フィールドに、検索結果リスト内の強調表示された 1 つのドキュメントを表示するときに使うパターン ファイルの名前を入力することができます。
-
[Date Format] フィールドで、このコレクションを使うときの入力日付の変換方法を指定することができます。 [MM/DD/YY]、[DD/MM/YY]、または [YY/MM/DD] から選択します。
-
[OK] をクリックして、コレクションの設定を変更します。
コレクションの更新
最初にコレクションを作成した後、ファイルを追加したり、削除したりすることができます。ドキュメントを追加する場合、エントリがコレクションに追加されると、ファイルのコンテンツに索引が作成され、さらに必要に応じて変換されます。ドキュメントを削除する場合は、メタデータと共にファイルのエントリがコレクションから削除されます。この機能は、元のドキュメントに影響を与えません。コレクション内のエントリにのみ影響を与えます。
ノート このコレクションの作成時に、[Extract Metatags] オプションを選択していた場
合、新しいドキュメントをこのコレクションに追加すると、常に META タグ
付きの HTML 属性に索引が作成されます。
コレクションを更新するには、次の手順を実行します。
-
[Server Manager] から [Search] を選択します。
-
[Update Collection] リンクをクリックします。
-
ドロップダウン リストから更新するコレクションを選択します。
-
[Documents Matching] フィールドで、1 つのファイル名を入力したり、ワイルドカードを使って、コレクションに追加またはコレクションから削除するファイルの種類を指定したりすることができます。
ノート
-
最初にコレクションに定義されたドキュメント ディレクトリのサブディレクトリ内にある、一致するすべてのドキュメントの索引作成および追加を行うかどうかを選択します。
-
[AddDocs] をクリックして、指定したファイルおよびサブディレクトリを追加します。
-
[RemoveDocs] をクリックして、指定したファイルを削除します。
コレクションの管理
定期的にコレクションを管理することができます。 通常の使用については、定期的に管理タスクを行う必要はありませんが、多数のコレクションの索引作成および更新を行う場合、必要に応じてこれらの機能を使うことができます。次のコレクション管理タスクを実行することができます。
-
コレクションの最適化コレクションでドキュメントやディレクトリを頻繁に追加、削除、または更新する場合、コレクションを最適化して、パフォーマンスを向上させることができます。ハード ドライブのデフラグのようなものです。最適化は自動的に実行されないので、コレクションの再索引作成または更新後に手作業で最適化する必要があります。 コレクションを最適化するのは、コレクションを別のサイトにパブリッシュする前またはコレクションを読み取り専用の CD-ROM に保存する前に限られます。
-
再索引コレクションの再索引作成を実行することができます。これは、既にコレクションにエントリを所有している各ファイルを検索し、その属性およびコンテンツに再び索引を作成する機能です。さらに、最初にファイルがコレクションに索引が作成されたときに、オプションを選択していた場合、META タグ付きの属性が抽出されます。この機能は、コレクションを作成するための元の条件、つまり *.html に戻らず、元の条件に一致する新しいドキュメントを追加します。また、ソース ドキュメントが削除されて見つからない場合、このオプションによって、コレクション エントリが削除されます。
-
削除コレクションを削除することができます。 削除されるのは、元のソース ドキュメントではなく、コレクションのみです。
ノート
ローカル ファイル マネージャを使って、コレクション、特に Web パブリッシング コレクションを削除しないでください。誤って Web パブリッシング コレクションを削除した場合、サーバを再起動する前に検索を実行しようとすると、Web パブリッシング コレクションが使われていなくても検索に失敗します。サーバを再起動すると、新しい Web パブリッシング コレクションが自動的に作成されるので、検索を実行することができます。
コレクション管理タスクを実行するには、サーバ マネージャの「Maintain Collection」ページを使います。
定期的な管理のスケジューリング
定期的なコレクション管理スケジュールを設定することができます。 最適化および再索引作成のために異なる管理スケジュールを設定することもできます。通常の使用については、定期的な管理スケジューリング タスクを行う必要はありませんが、多数のコレクションの索引作成および更新を行う場合、必要に応じてこれらの機能を使うことができます。たとえば、新しいドキュメントが毎日追加される場合、非常に活発な Web サイトでは頻繁な再索引作成が必要なことがあります。
通常のタスクの組み合わせは、削除されたエントリの除去、およびコレクションの条件に一致する新しいドキュメントのエントリの追加を行うように定期的にスケジュールされた再索引作成と更新オペレーションのペアの設定です。
コレクションでドキュメントやディレクトリを頻繁に追加、削除、または更新する場合、コレクションを最適化して、パフォーマンスを向上させることができます。ハード ドライブのデフラグのようなものです。最適化は自動的に実行されないので、コレクションの再索引作成または更新後に手作業で最適化する必要があります。 コレクションを最適化するのは、コレクションを別のサイトにパブリッシュする前またはコレクションを読み取り専用の CD-ROM に保存する前に限られます。
コレクションの再索引作成を実行することができます。これは、コレクションにエントリを所有している各ファイルを検索し、その属性およびコンテンツに再び索引を作成する機能です。さらに、最初にファイルがコレクションに索引が作成されたときに、オプションを選択していた場合、META タグ付きの属性が抽出されます。この機能では、新しいドキュメントのエントリは追加されませんが、削除されたファイルへのエントリを削除することによってコレクションをクリーンアップします。
コレクションを更新するには、コレクションの新しい索引作成条件 、つまり、条件に一致する新しいドキュメントを追加する *.html を入力します。
コレクションの最適化、再索引作成、または更新を行うには、次の手順を実行します。
-
[Server Manager] から [Search] を選択します。
-
[Schedule Collection Maintenance] リンクをクリックします。
-
ドロップダウン リストからコレクションを選択します。
-
ドロップダウン リストから [Reindex]、[Optimize]、または [Update] のうちの 1 つのアクションを選択します。
-
コレクションの更新を選択した場合、ドキュメント一致条件を入力するフィールドと、条件に一致するサブディレクトリ内で検索されたドキュメントが表示されるフィールドの 2 つのフィールドが追加表示されます。
-
[Schedule Time] フィールドに、スケジュールされた管理を実行する時刻を入力します。
-
[Schedule Day(s) of the Week] というラベルがついたセクションで、1 つまたは複数の曜日のチェックボックスをオンにします。
-
[OK] をクリックして、管理をスケジュールします。
Unix/Linux ユーザの場合、新しくスケジュールした管理を有効にするには、Administration Server
から ns-cron プロセスを再起動する必要があります。
ns-cron プロセスを再起動するには、次の手順を実行します。
- Administration Server で [Global Settings] を選択します。
-
[Cron Control] リンクをクリックします。
-
ns-cron が既にオンになっている場合は、[Restart] をクリックして再起動します。ns-cron がオンになっていない場合は、[Start] をクリックして、開始します。
コレクション管理スケジュールの削除
コレクションの定期的な再索引作成または最適化をスケジュールしている場合、コレクションを定期的に管理する必要がなくなると、管理スケジュールを削除することができます。
コレクション管理スケジュールを削除するには、次の手順を実行します。
-
[Server Manager] から [Search] を選択します。
-
[Remove Scheduled Collection Maintenance] リンクをクリックします。
-
[Choose Collection] ドロップダウン リストからコレクションを選択します。
-
ドロップダウン リストから [Reindex] または [Optimize] のいずれかのアクションを選択します。
-
枠の下部に、現在スケジュールされている管理の実行時刻と曜日が表示されます。
-
[OK] をクリックして、管理スケジュールを削除します。
Unix/Linux ユーザの場合、新しくスケジュールした管理を有効にするには、ns-cron プロセスを再起動する必要があります。
ns-cron プロセスを再起動するには、次の手順を実行します。
-
Administiration Server で[Global Settings] を選択します。
-
[Cron Control] リンクをクリックします。
-
ns-cron が既にオンになっている場合は、[Restart] をクリックして再起動します。ns-cron がオンになっていない場合は、[Start] をクリックして、開始します。
|