3 クロールと検索

この章のトピックは、次のとおりです。

Oracle Secure Enterprise Searchクローラの概要
クローラ設定の概要
属性の概要
クロール・プロセス
クロール・プロセスのモニター
Oracle Secure Enterprise Searchにおける検索の概要

関連項目:

「クロール・パフォーマンスのチューニング」および「検索パフォーマンスのチューニング」
Oracle Secure Enterprise Searchチュートリアル（http://st-curriculum.oracle.com/tutorial/SESAdminTutorial/index.htm）

Oracle Secure Enterprise Searchクローラの概要

Oracle Secure Enterprise Search（SES）クローラは、設定済のスケジュールに従ってアクティブ化される Javaプロセスです。アクティブ化されたクローラは、ソースからドキュメントをフェッチするプロセッサ・スレッドを起動します。これらのドキュメントは、ローカル・ファイル・システムにキャッシュされます。キャッシュがいっぱいになると、キャッシュされたファイルが索引付けされます。この索引を使用してソースが検索されます。

管理ツールでは、1つ以上のソースを添付してスケジュールを作成できます。スケジュールでは、Oracle SES索引が関連ソース内の既存の情報で更新される頻度を定義します。

クローラのURLキュー

クロール・プロセス中に、クローラは検出されて内部URLキュー内でフェッチされ索引付けされるドキュメントのURLのリストを保守します。このキューは永続的に格納されるため、Oracle SESインスタンスの再起動後にクロールを再開できます。

アクセスURLと表示URL

表示URLは、検索結果の表示に使用されるURL文字列です。このURLは、ユーザーが検索結果のリンクをクリックしたときに使用されます。アクセスURLは、クローラでクロールと索引付けに使用されるURL文字列です。アクセスURLはオプションです。アクセスURLが存在しない場合、クローラではクロールと索引付けに表示URLが使用されます。存在する場合、クローラでは表示URLのかわりにクロールに使用されます。通常のWebクロールで使用できるのは、表示URLのみです。ただし、クローラが外部用には表示URLを保持したまま、内部サイトのクロールにアクセスURLを必要とする場合があります。内部URLごとに、外部のミラー化URLが存在します。

たとえば、ファイルソースの場合は、表示URLを定義すると、エンド・ユーザーはHTTPまたはHTTPSプロトコルで元のドキュメントにアクセスできます。これらのプロトコルでは、適切な認証とパーソナライズが行われ、ユーザーの操作性が向上します。

表示URLは、URLリライタAPIを使用して提供できます。また、元のファイルURLの接頭辞と表示URLの接頭辞とのマッピングを指定することで、表示URLを生成する方法もあります。 Oracle SESでは、ファイルURLの接頭辞が表示URLの接頭辞で置き換えられます。たとえば、ファイルURLがfile://localhost/home/operation/doc/file.docで、表示URLがhttps://webhost/client/doc/file.docである場合、ファイルURLの接頭辞としてfile://localhost/home/operationを指定し、表示URLの接頭辞としてhttps://webhost/clientを指定します。

クローラ・プラグインの使用

Oracle SESに用意されているデフォルトのソース・タイプ（Web、ファイル、OracleAS Portalなど）に加えて、Lotus NotesやDocumentumなどの独自ソースもクロールできます。そのためには、クローラ・プラグインをJavaクラスとして実装します。プラグインにより独自のソースからドキュメントURLと関連メタデータ（アクセス権限を含む）が収集され、この情報がOracle SESクローラに戻されます。クローラは、収集時に各ドキュメントの処理を開始します。

クローラ設定の概要

管理ツールのグローバル設定 - クローラ構成ページで、クローラのタイムアウトしきい値やデフォルト・キャラクタ・セットなど、クローラの操作パラメータを変更できます。

この項では、クローラ設定と、Webクロールの有効範囲を制御するその他のメカニズムについて説明します。

クロール・モード
URL境界ルール
クロールの深さ
ロボット除外
動的ページの索引付け
URLリライタAPI

関連項目:

これらの設定の詳細およびクロール・パフォーマンスに影響する他の問題については、「クロール・パフォーマンスのチューニング」を参照してください。

クロール・モード

初期プランニングのために、クローラで索引付けせずにURLを収集できます。クロールの実行後にドキュメントのURLとステータスを調査し、不要なドキュメントを削除して索引付けを開始します。クロール・モードは、ホーム - スケジュール - スケジュールの編集ページで設定します。

関連項目:

付録A「URLクローラのステータス・コード」

注意:

クローラ・プラグインAPIを使用して作成されたカスタム・クローラを使用している場合、ここで設定したクロール・モードは適用されません。クロール・モードは実装済のプラグインにより制御されます。

クロール・モード・オプションは、次のとおりです。

「索引付けのためにすべてのURLを実行」: ソース内のすべてのURLがクロールされて索引付けされます。Webソースの場合は、URL内でみつかったリンクも抽出されて索引付けされます。前にクロールされたことのあるURLは、変更があった場合にのみ再索引付けされます。
「索引付けの前にURLを調査」: ソース内のURLがクロールされますが、索引付けはされません。URL内でみつかったリンクもクロールされます。
「索引付けのみ」: ソース内のすべてのURLがクロールされて索引付けされます。URL内でみつかったリンクは抽出されません。通常は、前に「索引付けの前にURLを調査」に設定してクロールされたソースについて、このオプションを選択します。

URL境界ルール

URL 境界ルールにより、クロール領域が限定されます。境界ルールを追加すると、クローラは指定のルールと一致するURLに制限されます。ルールの指定順序は影響しませんが、除外ルールは常に包含ルールをオーバーライドします。

これは、ホーム - ソース - URL境界ルール・ページで設定します。

包含ルール

URLの条件「次を含む」、「次で始まる」または「次で終わる」に関する包含ルールを指定します。ワイルドカードにはアスタリスク（*）を使用します。たとえば、www.*.example.comとなります。単純包含ルールには、大/小文字区別はありません。大/小文字を区別するには、正規表現ルールを使用します。

example.comで終わるという包含ルールにより、検索対象は文字列example.comで終わるURLに限定されます。example.comで終わるものがすべてクロールされますが、http://www.example.com.twはクロールされません。

グローバル設定 - 問合せ構成ページで「URL送信」機能が有効化されている場合は、エンド・ユーザーが送信したURLが包含ルール・リストに追加されます。索引付けしないURLは削除できます。

Oracle SESでは、Java JDK 1.4.2のPatternクラス（java.util.regex.Pattern）に使用されている正規表現構文がサポートされます。正規表現ルールには、特殊文字が使用されます。基本的な正規表現構成メンバーのまとめを次に示します。

URLの開始を示すにはカレット（^）、終了を示すにはドル記号（$）を使用します。
ピリオド（.）は任意の1文字と一致します。
疑問符（?）は、後続の0（ゼロ）個または1個の文字と一致します。
アスタリスク（*）は、後続の0（ゼロ）個以上のパターンと一致します。アスタリスクは、「次で始まる」、「次で終わる」および「次を含む」ルールに使用できます。
円記号（\）は、ピリオド（\.）、疑問符（\?）、アスタリスク（\*）など、特殊文字のエスケープに使用します。

関連項目:

Sun社のJavaドキュメントの詳細は、http://java.sun.comを参照してください。

除外ルール

URLの条件「次を含む」、「次で始まる」または「次で終わる」に関する除外ルールを指定できます。

uk.example.comを除外すると、United KingdomのExampleホストはクロールされなくなります。

デフォルトの除外ルール

クローラには、テキスト以外のファイルを除外するためのデフォルトの除外ルールがあります。次のファイル拡張子は、デフォルトの除外ルールに含まれています。

イメージ: jpg、gif、tif、bmp、png
オーディオ: wav、mp3、wma
ビデオ: avi、mpg、mpeg、wmv
バイナリ: bin、exe、so、dll、iso、jar、war、ear、tar、wmv、scm、cab、dmp

正規表現の使用例

次の例では、範囲修飾子、非グループ化カッコおよびモード・スイッチなど、前述した以外の複数の正規表現構成メンバーを使用します。詳細は、Sun社のJavaドキュメントを参照してください。

example.comおよびexamplecorp.comドメイン内のHTTPSのURLのみをクロールする必要があるとします。また、.docおよび.pptで終わるファイルを除外するとします。

包含: URL正規表現^https://.*\.example(?:corp){0,1}\.com
除外: URL正規表現(?i:\.doc|\.ppt)$

クロールの深さ

クローラがたどるネストされたリンクの最大数です。（Webドキュメントには他のWebドキュメントへのリンクが含まれ、リンク先のWebドキュメントにはさらにリンクが含まれている場合があります。）

これは、ホーム - ソース - クロール・パラメータ・ページで設定します。

ロボット除外

サイト内の、ロボットによりアクセス可能な部分を制御できます。ロボット除外が使用可能な場合（デフォルト）、WebクローラはWebサーバーのrobots.txtファイルに指定されているアクセス・ポリシーに基づいてページを横断します。クローラは、HTMLメタタグに指定されているページ・レベルのロボット除外も考慮します。

たとえば、ロボットはhttp://www.example.com/にアクセスすると、http://www.example.com/robots.txtをチェックします。robots.txtが検出されると、クローラはドキュメントの取出しが可能かどうかをチェックします。Webサイトを所有しているユーザーは、ロボット除外を無効化できます。ただし、他のWebサイトのクロール中は、ロボット除外を有効化し、常にrobots.txtに準拠してください。

これは、ホーム - ソース - クロール・パラメータ・ページで設定します。

動的ページの索引付け

通常、動的ページはデータベース・アプリケーションから提供され、そのURLには疑問符（?）が含まれています。 Oracle SESでは、疑問符を含むURLが動的ページとして識別されます。

動的ページでは、同じページを検索した結果、複数のページが見つかる場合がありますが、すべてのページを索引付けする必要はありません。一方、見つかった複数のページの索引付けが必要な動的ページもあります。動的ページにはこれらの2つのタイプがあることに注意してください。一般に、メニュー拡張以外が同じで、コンテンツへの影響がない動的ページは索引付けする必要はありません。次の3つのURLをみてください。

http://itweb.oraclecorp.com/aboutit/network/npe/standards/naming_convention.html

http://itweb.oraclecorp.com/aboutit/network/npe/standards/naming_convention.html?nsdnv=14z1

http://itweb.oraclecorp.com/aboutit/network/npe/standards/naming_convention.html?nsdnv=14

URL中の疑問符（?）より後の文字列は入力パラメータを表します。検索の結果が重複しても、実際にはメニュー拡張のみが違い、コンテンツは同じです。検索結果は1つのページのみになるのが理想的です。

http://itweb.oraclecorp.com/aboutit/network/npe/standards/naming_convention.html

デフォルトでは、Oracle SESでは動的ページは処理されません。動的ページを処理するように変更した場合は、ホーム - スケジュール - スケジュールの編集ページで、「クローラ再クロール・ポリシーの更新」を「全ドキュメントの処理」に変更して、スケジュールを編集する必要があります。これにより、クローラでは前にクロールされたページが強制的に再処理されます。すでにこのオプションを指定してクロールされたソースの場合は、「動的ページの索引付け」を「いいえ」に設定してソースを再クロールすると、すべての動的URLが索引から削除されます。

注意:

クローラは、JavaScriptで作成された動的Webページのクロールおよび索引付けは実行できません。

これは、ホーム - ソース - クロール・パラメータ・ページで設定します。

URLリライタAPI

URLリライタは、Oracle SESのUrlRewriterインタフェースを実装するためのユーザー指定のJavaモジュールです。これは、URLキューに格納される前に、抽出されたURLリンクをフィルタまたはリライトするためにクローラによって使用されます。このAPIにより、Webページから抽出されたリンクのうち、許可するリンクと廃棄するリンクを最終的に制御できます。

URLをフィルタすると不要なリンクが削除され、URLをリライトするとURLリンクが変換されます。この変換が必要になるのは、アクセスURLを使用し、代替表示URLを検索結果でユーザーに表示する必要がある場合です。

これは、ホーム - ソース - クロール・パラメータ・ページで設定します。

関連項目:

「Oracle Secure Enterprise SearchのURLリライタAPI」
『Oracle Secure Enterprise Search Java API Reference』

属性の概要

各ソースには独自のドキュメント属性セットがあります。ドキュメント属性では、メタデータと同様に、ドキュメントのプロパティが記述されます。クローラは値を取得し、それを検索属性の1つにマップします。このマッピングにより、ユーザーは属性に基づいてドキュメントを検索できます。様々なソース内のドキュメント属性を同じ検索属性にマップできます。したがって、ユーザーは同じ検索属性に基づいて複数のソースからのドキュメントを検索できます。

ドキュメント属性情報の取得方法は、ソース・タイプに応じて異なります。たとえば、Webソースの場合、ドキュメント属性はHTMLのMETAタグから抽出されます。表ソースの場合は、ソース表の列のいずれかをドキュメント属性として選択できます。ユーザー定義ソースの場合は、クローラ・プラグイン・モジュールによりドキュメント属性と値を戻すことができます。

ドキュメント属性には、ドキュメント管理、アクセス制御、バージョン管理など、様々な用途があります。ドキュメント・ソースには、「バージョン」と「リビジョン」のように同じ概念を表す様々な属性名を使用できます。また、同じ属性を異なる概念に使用することもできます。たとえば、「言語」を、あるソースでは通常言語として使用し、別のソースではプログラミング言語として使用できます。

Oracle SESには、複数のデフォルト検索属性が用意されています。これらの属性を検索アプリケーションに取り込むと、より詳細な検索をより豊富な表現で使用できます。

検索属性は、次の方法で定義されます。

システム定義の検索属性（タイトル、作成者、説明、件名およびMIMEタイプなど）。
Oracle SES管理者が作成する検索属性。
クローラにより作成される検索属性。（クロール時には、クローラ・プラグインによりドキュメント属性が同じ名前およびデータ型を持つ検索属性にマップされます。検出されない場合は、クローラ・プラグインに定義されているドキュメント属性と同じ名前と型を持つ新規の検索属性が作成されます。）

検索属性の値リスト（LOV）は、検索を指定するときに便利です。グローバル検索属性は、グローバル設定 - 検索属性ページで指定できます。LOV情報がクローラ・プラグインを介して提供されるユーザー定義ソースの場合は、クローラによりLOV定義が登録されます。管理ツールまたはクローラ・プラグインを使用して、属性LOV、属性値、属性値の表示名およびその翻訳を指定します。

注意:

タイトルなどの共通属性のLOVが複数のソースで定義されている場合、ユーザーには属性値の候補がすべて表示されます。ユーザーが検索を特定のソース・グループ内に制限すると、そのソース・グループ内の対応するソースから提供されるLOVのみが表示されます。

クロール・プロセス

クローラは、初回の実行時にソースに基づいてデータ（Webページ、表の行、ファイルなど）をフェッチする必要があります。その後、ドキュメントがOracle SES索引に追加されます。

初期クロール

この項では、スケジュールに従ったWebソースのクロール・プロセスについて説明します。このプロセスは次の2つのフェーズにわかれています。

ドキュメントのキューイングとキャッシュ
ドキュメントの索引付け

ドキュメントのキューイングとキャッシュ

クロール・サイクル中のステップは、次のとおりです。

管理ツールで指定したスケジュールに従って、Oracleによりクローラが起動されます。クロールが初めて開始されるときに、URLキューにシードURLが移入されます。
クローラにより複数のクロール・スレッドが開始されます。
クローラ・スレッドにより、キュー内の次のURLが削除されます。
クローラ・スレッドにより、Webからドキュメントがフェッチされます。通常、ドキュメントはテキストとハイパーテキスト・リンクを含むHTMLファイルです。
クローラ・スレッドによりHTMLファイル内でハイパーテキスト・リンクがスキャンされ、新規リンクがURLキューに挿入されます。ドキュメント表にある重複リンクは廃棄されます。
クローラにより、HTMLファイルがローカル・ファイル・システムにキャッシュされます。
クローラによりURLがURL表に登録されます。
クローラ・スレッドにより、ステップ3を繰り返すことでサイクルがやり直されます。

ネットワーク通信量や低速Webサイトの関係で、ステップ4で説明したドキュメントのフェッチに時間がかかることがあります。スループットを最大化するために、常に複数のスレッドによりページがフェッチされます。

ドキュメントの索引付け

ファイル・システムのキャッシュがいっぱいになると（デフォルトの最大サイズは250MB）、索引付けプロセスが開始されます。この時点で、ドキュメントのコンテンツと検索可能属性が索引にプッシュされます。バッチ内のドキュメントの索引付けが完了すると、クローラはキューイングおよび索引付けモードに戻ります。

保守クロール

初期クロール後、URLページがクロールされて索引付けされるのは、前回のクロール以降に変更された場合のみです。クローラでは、HTTPのIf-Modified-Sinceヘッダー・フィールドまたはページのチェックサムに基づいて、変更があったかどうかが判別されます。存在しなくなったURLはマークされ、索引から削除されます。

変更があったドキュメントを更新するために、クローラでは内部チェックサムを使用して新規Webページがキャッシュ内のWebページと比較されます。変更があったWebページはキャッシュされ、再索引付けを示すマークが付けられます。

データ同期化に関連するステップは、次のとおりです。

管理ツールで指定したスケジュールに従って、Oracleによりクローラが起動されます。URLキューには、スケジュールに割り当てられたソースのシードURLが移入されます。
クローラにより複数のクロール・スレッドが開始されます。
各クローラ・スレッドにより、キュー内の次のURLが削除されます。
各クローラ・スレッドにより、Webからドキュメントがフェッチされます。通常、ページはテキストとハイパーテキスト・リンクを含むHTMLファイルです。ドキュメントがHTML形式でなければ、クローラはキャッシュ前にHTMLに変換しようとします。
各クローラ・スレッドにより、新規に取得されたページのチェックサムが計算され、キャッシュ内のページのチェックサムと比較されます。チェックサムが同一の場合、そのページは廃棄され、クローラはステップ3に進みます。同一でない場合、クローラは次のステップに進みます。
各クローラ・スレッドによりドキュメント内でハイパーテキスト・リンクがスキャンされ、新規リンクがURLキューに挿入されます。ドキュメント表にあるリンクは廃棄されます。（Oracle SESは、フィルタ済バイナリ・ドキュメントからのリンクをたどりません。）
クローラによりURLが「適用済」としてマークされます。このURLは、将来の保守クロール時にクロールされます。
クローラによりURLがドキュメント表に登録されます。
ファイル・システムのキャッシュがいっぱいになるか、URLキューが空になると、Webページのキャッシュ処理が停止され、索引付けが開始されます。それ以外の場合、クローラ・スレッドはステップ3からやり直します。

クロール・プロセスのモニター

次の組合せを使用して、管理ツールでクロール・プロセスをモニターします。

ホーム - スケジュール・ページでクロールの進行状況とクロール・ステータスをチェックします。（「ステータスのリフレッシュ」をクリックします。）
ホーム - スケジュール - クローラの進行状況のサマリー・ページとホーム - 統計ページで、クローラ統計をモニターします。
現行のスケジュールをログ・ファイルでモニターします。

関連項目:

「クロール・パフォーマンスのチューニング」

クローラ統計

ホーム - スケジュール - クローラの進行状況のサマリー・ページには、次のクローラ統計が表示されます。一部の統計は、ログ・ファイルにも「クロール結果」という見出しで表示されます。

「フェッチするドキュメント」: キュー内でクロールを待機しているURLの数。ログ・ファイルでは処理するドキュメントという用語が使用されます。
「フェッチされたドキュメント」: クローラで取得されたドキュメントの数。
「ドキュメント・フェッチ・エラー」: クローラでコンテンツを取得できないドキュメントの数。取得できない原因は、Webサイトへの接続不可、サーバー・レスポンス時間が遅いために起こるタイムアウト、または認可要件のいずれかである可能性があります。正常にドキュメントがフェッチされた後に検出された問題は、ここでは対象となりません。たとえば、サイズが大きすぎるドキュメントや重複のために無視されたドキュメントなどがあります。
「拒否されたドキュメント」: 検出はされたがクロールの対象となっていないURLリンクの数。拒否の理由は、境界ルール、ロボット除外ルール、MIMEタイプの包含ルール、クロールの深さ制限またはURLリライタの廃棄ディレクティブである可能性があります。
「検出されたドキュメント」: クロール時に検出されたすべてのドキュメント。これは、（フェッチするドキュメント）+（フェッチされたドキュメント）+（ドキュメント・フェッチ・エラー）+（拒否されたドキュメント）にほぼ等しくなります。
「索引付けされたドキュメント」: 索引付けされたドキュメントまたは索引付けが保留中のドキュメントの数。
「索引付けできないドキュメント」: 索引付けできないドキュメントの数。たとえば、ファイル・ソース・ディレクトリまたはロボットのNOINDEXメタ・タグを持つドキュメントです。
「ドキュメント変換エラー」: ドキュメントのフィルタリング・エラーの数。ドキュメントをHTML形式に変換できないときにカウントされます。

クローラ・ログ・ファイル

ログ・ファイルには、特定のスケジュールに対応したクローラのアクティビティ、警告およびエラー・メッセージがすべて記録されます。これには、起動時、実行時およびシャットダウン時に記録されたメッセージが含まれます。多数のドキュメントをクロールする場合は、すべてを記録するとログ・ファイルのサイズが非常に大きくなります。ただし、場合によっては、詳細なアクティビティを各スケジュールのログ・ファイルに出力するようにクローラを構成することは有益です。

クローラを再起動すると、新規のログ・ファイルが作成されます。クローラはログ・ファイルについて過去の7つのバージョンを保持しますが、管理ツールに表示されるのは最新のログ・ファイルのみです。ファイル・システム内の他のログ・ファイルを表示できます。クローラ・ログ・ファイルの場所は、ホーム - スケジュール - クローラの進行状況のサマリー・ページで確認できます。

ログ・ファイル名のネーミング規則はids.MMDDhhmm.logです。

idsはソースを一意に識別するシステム生成ID、MMは月、DDは日付、hhは24時間制による起動時間、mmは分です。

たとえば、ソースi3ds23のスケジュールが7月8日午後10時に起動されると、ログ・ファイル名はi3ds23.07082200.logとなります。連続して起動される各スケジュールには、一意のログ・ファイル名が割り当てられます。ソースのログ・ファイルが合計7つになると、最も古いログ・ファイルが削除されます。

ログ・ファイルに記録される各メッセージは1行で、次の6列が順番にタブで区切られて含まれています。

タイムスタンプ。
メッセージ・レベル。
クローラ・スレッド名。
コンポーネント名。通常は、実行中のJavaクラスの名前です。
モジュール名。内部Javaクラスのメソッド名の場合があります。
メッセージ。

クローラのロギング・レベルは、構成ファイル$ORACLE_HOME/search/data/config/crawler.datでパラメータDoracle.search.logLevelの値を設定することで指定できます。定義済のレベルは、DEBUG(2)、INFO(4)、WARN(6)、ERROR(8)、FATAL(10)です。

デフォルト値は4で、レベル4以上のメッセージが記録されることを意味します。DEBUG（レベル=2）メッセージは、デフォルトでは記録されません。

たとえば、次の情報メッセージが時刻23:10:39330にロギング・レベル4で記録されます。これはスレッド名crawler_2からの「file://localhost/net/stawg02/を処理中」というメッセージです。コンポーネント名とモジュール名は未指定です。

23:10:39:330 4    crawler_2      Processing file://localhost/net/stawg02/

クローラでは、クロールされたURLのクロール結果が一連のコードを使用して示されます。標準的なHTTPステータス・コードの他に、HTTPに関連しない状況を示す独自コードが使用されます。

デバッグ情報は、OC4Jログ・ファイル$ORACLE_HOME/oc4j/j2ee/OC4J_SEARCH/log/oc4j.logで確認できます。

関連項目:

付録A「URLクローラのステータス・コード」

Oracle Secure Enterprise Searchにおける検索の概要

管理ツールのいずれかのページからエンド・ユーザー向け検索ページを表示するには、右上隅の「検索」リンクをクリックします。これにより基本検索ページが新規ウィンドウに表示されます。このウィンドウには、検索文字列を入力するためのテキスト・ボックスがあります。

この項のトピックは、次のとおりです。

基本検索

検索文字列は、1つ以上の語句で構成できます。「検索」ボタンをクリックすると、入力した問合せ文字列と一致するすべての文字列が戻されます。結果には次のリンクを含めることができます。

キャッシュ: キャッシュされたHTMLバージョンのドキュメントに接続します。

リンク: このドキュメントへリンクするページまたはこのドキュメントからリンクするページに接続します。

ソース・グループ: ソース・グループの参照にリンクします。

「検索」テキスト・ボックスの上のリンクはソース・グループです。ソース・グループを1つクリックすると、そのグループに検索が制限されます。

次の表に、問合せ文字列に適用されるルールを示します。[ ]内のテキストは、「検索」テキスト・ボックスに入力する文字を表します。

表3-1 検索文字列ルール

ルール	説明
単一の単語の検索	1つの単語を入力すると、その単語を含むドキュメントが検索されます。たとえば、[Oracle]と入力すると、Oracleという単語を含むすべてのドキュメントが検索されます。
強制的な包含[+]	単語の前に[+]を付けると、その単語は、一致したすべてのドキュメントに存在することを示します。たとえば、[Oracle +Applications]を検索すると、OracleおよびApplicationsという単語を含むドキュメントのみが検出されます。注意: 複数の単語の検索では、最初のトークンを含むすべてのトークンの前に[+]を付けることができます。トークンとは、二重引用符（"）で囲まれた句です。1つの単語または句のいずれでもかまいませんが、[+]とトークンの間には空白を入れないでください。
強制的な除外[-]	単語の前に[-]を付けると、その単語は、一致したすべてのドキュメントに存在しないことを示します。たとえば、[Oracle -Applications]を検索すると、Oracleという単語を含み、Applicationsという単語を含まないドキュメントのみが検出されます。注意: 複数の単語の検索では、最初のトークンを除くすべてのトークンの前に[-]を付けることができます。トークンとは、二重引用符（"）で囲まれた句です。1つの単語または句のいずれでもかまいませんが、[-]とトークンの間には空白を入れないでください。
句の一致["..."]	一連の単語を二重引用符で囲むと、その句を正確に含むドキュメントのみを検索します。たとえば、["Oracle Applications"]と入力すると、Oracle Applicationsという文字列を含むドキュメントのみが検索されます。
ワイルドカードの一致[*]	単語の右側に[]を付けると、左側部分が一致した検索結果が戻されます。たとえば、文字列[Ora]を検索すると、OracleやOratorなど、Oraで始まるすべての単語を含むドキュメントが検出されます。アスタリスクは単語の途中にも挿入できます。たとえば、文字列[A*e]を検索すると、AppleやApeなどの単語を含むドキュメントが検出されます。
サイト検索	検索する語の後に[site:host]を付けると、結果がその特定のサイトに制限されます。たとえば、「documentation site:www.oracle.com」となります。 Oracle SESでは、ホストの完全一致がサポートされており（site:*.oracle.comは指定できません）、問合せごとに1つの「site:」を指定できます。
ファイル・タイプによるフィルタリング	検索する語の後に[filetype:filetype]を付けると、結果がその特定のファイル・タイプに制限されます。たとえば、「documentation filetype:pdf」では、documentationという語を含むPDF形式のドキュメントが戻されます。問合せには、filetypeショートカットを1つのみ指定できます。次のファイル・タイプ（および対応する文字列）がサポートされています。 filetype string: mimetype ppt: application/vnd.ms-powerpoint doc: application/msword xls: application/vnd.ms-excel txt: text/plain pdf: application/pdfの場合 xml: text/xmlの場合 html: text/htmlの場合 rtf: application/rtf

拡張検索

拡張検索ページでは、次の方法で検索を絞り込むことができます。

検索属性による検索の絞り込み
特定のソースに検索を制限
特定の言語で記述されたドキュメントに検索を制限

検索属性による検索の絞り込み

拡張検索ページでは、問合せに一致するドキュメントが特定の検索属性値を持つように指定できます。検索属性値を指定するには、リスト・ボックスを使用して検索属性を選択します。リスト・ボックスの右横にあるテキスト・ボックスに、検索属性値を入力します。日付書式はMM/DD/YYYY形式で入力する必要があります。

特定のソースに検索を制限

1つ以上のソース・グループが定義されている場合は、特定のカテゴリを選択すると、対応するチェック・ボックスが表示されます。チェック・ボックスを選択すると、検索をそのソース・グループに制限できます。ソース・グループを選択しなければ、すべてのドキュメントが検索されます。「すべて」を選択すると（つまり、すべてのソース・グループが存在する場合）、選択したグループ（デフォルト・グループ）にないドキュメントは検索されません。

ソース・グループはドキュメントのコレクションを表します。ソース・グループはOracle SES管理者が作成します。

特定の言語で記述されたドキュメントに検索を制限

Oracle SESでは、様々な言語のドキュメントを検索できます。言語を指定すると、指定された言語で書かれたドキュメントに検索が制限されます。「言語」リスト・ボックスを使用して、言語を指定します。

ソース・グループの参照

ソース・グループとは、まとめて検索できるソースのグループです。ソース・グループは1つ以上のソースで構成され、1つのソースを複数のソース・グループに割り当てることができます。ソース・グループは検索 - ソース・グループ・ページで定義します。 Web、電子メールおよびOracleAS Portalソース・タイプの場合にのみ、グループまたはフォルダが作成されます。

ユーザーは、管理者が作成したソース・グループを検索ページで参照できます。ソース・グループ名をクリックすると、その下にサブグループが表示されます。サブグループ名をクリックすると、さらに階層の下位へとドリルダウンできます。特定のグループに含まれるドキュメントをすべて表示するには、ソース・グループ名の横にある番号をクリックします。このページから、ソース・グループ内の制限付き検索を実行することもできます。

ソース階層を使用すると、エンド・ユーザーはドキュメントのソース・タイプに基づいて検索結果を制限できます。階層は、クロール時に自動的に生成されます。

URLの送信

URLの送信機能を使用すると、ユーザーはクロールおよび索引付けの対象となるURLを送信できます。この種のURLは、特定のソースのシードURLリストに追加され、クローラ検索領域に挿入されます。URL送信を（グローバル設定 - 問合せ構成ページで）可能にした場合は、送信されたURLの追加先となるWebソースを選択する必要があります。

注意:

ソースが作成されていなければ、この機能は検索ページで無効化されます。