3 クロールと検索

この章のトピックは、次のとおりです。

Oracle Secure Enterprise Searchクローラの概要
クローラ設定の概要
属性の概要
クロール・プロセス
クロール・プロセスのモニター
Oracle Secure Enterprise Searchにおける検索の概要

関連項目:

「クロール・パフォーマンスのチューニング」および「検索パフォーマンスのチューニング」
Oracle Secure Enterprise Searchチュートリアル（http://www.oracle.com/technology/products/oses/index.html）

Oracle Secure Enterprise Searchクローラの概要

Oracle Secure Enterprise Search（SES）クローラは、設定済のスケジュールに従ってアクティブ化される Javaプロセスです。アクティブ化されたクローラは、ソースからドキュメントをフェッチするプロセッサ・スレッドを起動します。これらのドキュメントは、ローカル・ファイル・システムにキャッシュされます。キャッシュが最大バッチ・サイズに達すると、キャッシュされたファイルが索引付けされます。この索引を使用してソースが検索されます。

管理ツールでは、1つ以上のソースを添付してスケジュールを作成できます。スケジュールでは、Oracle SES索引が関連ソース内の既存の情報で更新される頻度を定義します。

クローラのURLキュー

クロール・プロセス中に、クローラは検出されて内部URLキュー内でフェッチされ索引付けされるドキュメントのURLのリストを保守します。このキューは永続的に格納されるため、Oracle SESインスタンスの再起動後にクロールを再開できます。

アクセスURLと表示URL

表示URLは、検索結果の表示に使用されるURL文字列です。このURLは、ユーザーが検索結果のリンクをクリックしたときに使用されます。アクセスURLは、クローラでクロールと索引付けに使用されるURL文字列です。アクセスURLはオプションです。アクセスURLが存在しない場合、クローラではクロールと索引付けに表示URLが使用されます。存在する場合、クローラでは表示URLのかわりにクロールに使用されます。通常のWebクロールで使用できるのは、表示URLのみです。ただし、クローラが外部用には表示URLを保持したまま、内部サイトのクロールにアクセスURLを必要とする場合があります。内部URLごとに、外部のミラー化URLが存在します。

たとえば、ファイル・ソースの場合は、表示URLを定義すると、エンド・ユーザーは HTTPまたはHTTPSプロトコルで元のドキュメントにアクセスできます。これらのプロトコルでは、適切な認証とパーソナライズが行われ、ユーザーの操作性が向上します。

表示URLは、URLリライタAPIを使用して提供できます。また、元のファイルURLの接頭辞と表示URLの接頭辞とのマッピングを指定することで、表示URLを生成する方法もあります。Oracle SESでは、ファイルURLの接頭辞が表示URLの接頭辞で置き換えられます。たとえば、ファイルURLがfile://localhost/home/operation/doc/file.docで、表示URLがhttps://webhost/client/doc/file.docである場合、ファイルURLの接頭辞としてfile://localhost/home/operationを指定し、表示URLの接頭辞としてhttps://webhost/clientを指定します。

クローラ・プラグインの使用

Oracle SESに用意されているデフォルトのソース・タイプ（Web、ファイル、OracleAS Portalなど）に加えて、独自ソースもクロールできます。そのためには、クローラ・プラグインをJavaクラスとして実装します。プラグインにより独自のソースからドキュメントURLと関連メタデータ（アクセス権限を含む）が収集され、この情報がOracle SESクローラに戻されます。クローラは、収集時に各ドキュメントの処理を開始します。

関連項目:

「クローラ・プラグインAPI」

クローラ設定の概要

管理ツールのグローバル設定 - クローラ構成ページで、クローラのタイムアウトしきい値やデフォルト・キャラクタ・セットなど、クローラの操作パラメータを変更できます。

この項では、クローラ設定と、Webクロールの有効範囲を制御するその他のメカニズムについて説明します。

クロール・モード
URL境界ルール
クロールの深さ
ロボット除外
動的ページの索引付け
URLリライタAPI
タイトル・フォールバック
キャラクタ・セット検出

関連項目:

これらの設定の詳細およびクロール・パフォーマンスに影響する他の問題については、「クロール・パフォーマンスのチューニング」を参照してください。

クロール・モード

初期プランニングのために、クローラで索引付けせずにURLを収集できます。クロールの実行後にドキュメントのURLとステータスを調査し、不要なドキュメントを削除して索引付けを開始します。クロール・モードは、ホーム - スケジュール - スケジュールの編集ページで設定します。

関連項目:

付録C「URLクローラのステータス・コード」

注意:

クローラ・プラグインAPIを使用して作成されたカスタム・クローラを使用している場合、ここで設定したクロール・モードは適用されません。クロール・モードは実装済のプラグインにより制御されます。

クロール・モード・オプションは、次のとおりです。

「索引付けのためにすべてのURLを実行」: ソース内のすべてのURLがクロールされて索引付けされます。Webソースの場合は、URL内でみつかったリンクも抽出されて索引付けされます。前にクロールされたことのあるURLは、変更があった場合にのみ再索引付けされます。
「索引付けの前にURLを調査」: ソース内のURLがクロールされますが、索引付けはされません。URL内でみつかったリンクもクロールされます。
「索引付けのみ」: ソース内のすべてのURLがクロールされて索引付けされます。URL内でみつかったリンクは抽出されません。通常は、前に「索引付けの前にURLを調査」に設定してクロールされたソースについて、このオプションを選択します。

URL境界ルール

URL 境界ルールにより、クロール領域が限定されます。境界ルールを追加すると、クローラは指定のルールと一致するURLに制限されます。ルールの指定順序は影響しませんが、除外ルールは常に包含ルールをオーバーライドします。

これは、ホーム - ソース - URL境界ルール・ページで設定します。

包含ルール

URLの条件「次を含む」、「次で始まる」または「次で終わる」に関する包含ルールを指定します。ワイルドカードにはアスタリスク（*）を使用します。たとえば、www.*.example.comとなります。単純包含ルールには、大/小文字区別はありません。大/小文字を区別するには、正規表現ルールを使用します。

example.comで終わるという包含ルールにより、検索対象は文字列example.comで終わるURLに限定されます。example.comで終わるものがすべてクロールされますが、http://www.example.com.twはクロールされません。

グローバル設定 - 問合せ構成ページで「URL送信」機能が有効化されている場合は、エンド・ユーザーが送信したURLが包含ルール・リストに追加されます。索引付けしないURLは削除できます。

Oracle SESでは、Java JDK 1.4.2のPatternクラス（java.util.regex.Pattern）に使用されている正規表現構文がサポートされます。正規表現ルールには、特殊文字が使用されます。基本的な正規表現構成メンバーのまとめを次に示します。

URLの開始を示すにはカレット（^）、終了を示すにはドル記号（$）を使用します。
ピリオド（.）は任意の1文字と一致します。
疑問符（?）は、後続の0（ゼロ）個または1個の文字と一致します。
アスタリスク（*）は、後続の0（ゼロ）個以上のパターンと一致します。アスタリスクは、「次で始まる」、「次で終わる」および「次を含む」ルールに使用できます。
円記号（\）は、ピリオド（\.）、疑問符（\?）、アスタリスク（\*）など、特殊文字のエスケープに使用します。

関連項目:

Sun社のJavaドキュメントの詳細は、http://java.sun.comを参照してください。

除外ルール

URLの条件「次を含む」、「次で始まる」または「次で終わる」に関する除外ルールを指定できます。

uk.example.comを除外すると、United KingdomのExampleホストはクロールされなくなります。

デフォルトの除外ルール

クローラには、テキスト以外のファイルを除外するためのデフォルトの除外ルールがあります。次のファイル拡張子は、デフォルトの除外ルールに含まれています。

イメージ: jpg、gif、tif、bmp、png
オーディオ: wav、mp3、wma
ビデオ: avi、mpg、mpeg、wmv
バイナリ: bin、exe、so、dll、iso、jar、war、ear、tar、wmv、scm、cab、dmp

これらの拡張子のファイルをクロールするには、$ORACLE_HOME/search/data/config/crawler.datファイル内の次のセクションを変更し、除外リストからファイル・タイプの接尾辞を削除します。

# default file name suffix exclusion list
RX_BOUNDARY (?i:(?:\.gif)|(?:\.jpg)|(?:\.jar)|(?:\.tif)|(?:\.bmp)|(?:\.war)|(?:\.ear)|(?:\.mpg)|(?:\.wmv)|(?:\.mpeg)|(?:\.scm)|(?:\.iso)|
(?:\.dmp)|(?:\.dll)|(?:\.cab)|(?:\.so)|(?:\.avi)|(?:\.wav)|(?:\.mp3)|(?:\.wma)|(?:\.bin)|(?:\.exe)|(?:\.iso)|(?:\.tar)|(?:\.png))$

また、MIMEINCLUDEパラメータをcrawler.datファイルに追加すると、クロール対象のマルチメディア・ファイル・タイプを組み込むことができ、ファイル名がタイトルとして索引付けされます。

たとえば、オーディオ・ファイルをクロールするには、.wav、.mp3および.wmaを削除し、MIMEINCLUDE行を追加します。

RX_BOUNDARY (?i:(?:\.gif)|(?:\.jpg)|(?:\.jar)|(?:\.tif)|(?:\.bmp)|(?:\.war)|(?:\.ear)|(?:\.mpg)|(?:\.wmv)|(?:\.mpeg)|(?:\.scm)|(?:\.iso)|
(?:\.dmp)|(?:\.dll)|(?:\.cab)|(?:\.so)|(?:\.avi)|(?:\.bin)|(?:\.exe)|(?:\.iso)|(?:\.tar)|(?:\.png))$
MIMEINCLUDE audio/x-wav audio/mpeg

注意:

マルチメディア・ファイルのクロール時に索引付けされるのはファイル名のみです。ただし、そのファイルが、一連の豊富なドキュメント属性を提供できるクローラ・プラグインを使用してクロールされる場合を除きます。

正規表現の使用例

次の例では、範囲修飾子、非グループ化カッコおよびモード・スイッチなど、前述した以外の複数の正規表現構成メンバーを使用します。詳細は、Sun社のJavaドキュメントを参照してください。

example.comおよびexamplecorp.comドメイン内のHTTPSのURLのみをクロールする必要があるとします。また、.docおよび.pptで終わるファイルを除外するとします。

包含: URL正規表現^https://.*\.example(?:corp){0,1}\.com
除外: URL正規表現(?i:\.doc|\.ppt)$

クロールの深さ

クローラがたどるネストされたリンクの最大数です。（Webドキュメントには他のWebドキュメントへのリンクが含まれ、リンク先のWebドキュメントにはさらにリンクが含まれている場合があります。）

これは、ホーム - ソース - クロール・パラメータ・ページで設定します。

ロボット除外

サイト内の、ロボットによりアクセス可能な部分を制御できます。ロボット除外が使用可能な場合（デフォルト）、WebクローラはWebサーバーのrobots.txtファイルに指定されているアクセス・ポリシーに基づいてページを横断します。クローラは、HTMLメタタグに指定されているページ・レベルのロボット除外も考慮します。

たとえば、ロボットはhttp://www.example.com/にアクセスすると、http://www.example.com/robots.txtをチェックします。robots.txtが検出されると、クローラはドキュメントの取出しが可能かどうかをチェックします。Webサイトを所有しているユーザーは、ロボット除外を無効化できます。ただし、他のWebサイトのクロール中は、ロボット除外を有効化し、常にrobots.txtに準拠してください。

これは、ホーム - ソース - クロール・パラメータ・ページで設定します。

動的ページの索引付け

デフォルトでは、Oracle SESでは動的ページは処理されます。通常、動的ページはデータベース・アプリケーションから提供され、そのURLには疑問符（?）が含まれています。Oracle SESでは、疑問符を含むURLが動的ページとして識別されます。

動的ページでは、同じページを検索した結果、複数のページが見つかる場合がありますが、すべてのページを索引付けする必要はありません。一方、見つかった複数のページの索引付けが必要な動的ページもあります。動的ページにはこれらの2つのタイプがあることに注意してください。一般に、メニュー拡張以外が同じで、コンテンツへの影響がない動的ページは索引付けする必要はありません。次の3つのURLをみてください。

http://itweb.oraclecorp.com/aboutit/network/npe/standards/naming_convention.html

http://itweb.oraclecorp.com/aboutit/network/npe/standards/naming_convention.html?nsdnv=14z1

http://itweb.oraclecorp.com/aboutit/network/npe/standards/naming_convention.html?nsdnv=14

URL中の疑問符（?）より後の文字列は入力パラメータを表します。検索の結果が類似している場合、実際にはメニュー拡張のみが違い、コンテンツは同じです。検索結果は1つのページのみになるのが理想的です。

http://itweb.oraclecorp.com/aboutit/network/npe/standards/naming_convention.html

注意:

クローラは、JavaScriptで作成された動的Webページのクロールおよび索引付けは実行できません。

これは、ホーム - ソース - クロール・パラメータ・ページで設定します。

URLリライタAPI

URLリライタは、Oracle SESのUrlRewriterインタフェースを実装するためのユーザー指定のJavaモジュールです。これは、URLキューに格納される前に、抽出されたURLリンクをフィルタまたはリライトするためにクローラによって使用されます。このAPIにより、Webページから抽出されたリンクのうち、許可するリンクと廃棄するリンクを最終的に制御できます。

URLをフィルタすると不要なリンクが削除され、URLをリライトするとURLリンクが変換されます。この変換が必要になるのは、アクセスURLを使用し、代替表示URLを検索結果でユーザーに表示する必要がある場合です。

これは、ホーム - ソース - クロール・パラメータ・ページで設定します。

関連項目:

「URLリライタAPI」
『Oracle Secure Enterprise Search Java API Reference』

タイトル・フォールバック

あるデフォルト・タイトルが不適切な場合は、そのデフォルトのドキュメント・タイトルを意味のあるタイトルによってオーバーライドできます。たとえば結果リストに、「Daily Memo」というタイトルの多数のドキュメントが表示されている場合を想定します。ドキュメントは同じテンプレート・ファイルによって作成されていますが、ドキュメント・プロパティが変更されていません。このタイトルをOracle SESでオーバーライドすると、ユーザーが検索結果を理解するのに役立ちます。

タイトル・フォールバックは、任意のソース・タイプに使用できます。Oracle SESは、ドキュメント・タイプごとに異なるロジックを使用して、使用するフォールバック・タイトルを決定します。たとえば、HTMLドキュメントの場合、Oracle SESは<h1>などの最初の見出しを探します。Microsoft Wordドキュメントの場合、Oracle SESはフォント・サイズが最も大きいテキストを探します。

デフォルト・タイトルが最初のクロールで収集された場合、フォールバック・タイトルは、再クロール中にドキュメントが再索引付けされた後でのみ使用されます。つまり、ドキュメントに変更がない場合は、再クロール・ポリシーをホーム - スケジュール - スケジュールの編集ページで「全ドキュメントの処理」に設定して、変更を強制する必要があります。

この機能は、現在Oracle SES管理ツールではサポートされていません。キーワードBAD_TITLEを$ORACLE_HOME/search/data/config/crawler.datファイルに追加することによって、デフォルト・ドキュメント・タイトルを意味のあるタイトルでオーバーライドします。次に例を示します。

BAD_TITLE Daily Memo

ここで、Daily Memoは、オーバーライドする必要があるタイトル文字列を示します。このタイトル文字列は大/小文字を区別せず、UTF8キャラクタ・セットの複数バイト文字を使用できます。

複数の不正なタイトルを、1行に1つずつ指定できます。

タイトル・フォールバックに関する特別な考慮事項

Microsoft Office文書の場合
- Microsoft Wordのフォント・サイズ14と16は、変換済HTMLの正規化されたフォント・サイズ4と5にそれぞれ対応しています。 Oracle SESクローラが、フォールバック・タイトルとして選択するのは、正規化されたフォント・サイズが4より大きい文字列のみです。
- タイトルは、6文字以上であることが必要です。
タイトルがNULLの場合、Oracle SESは、すべてのバイナリ・ドキュメント（たとえば、.doc、.ppt、.pdf）のフォールバック・タイトルを自動的に索引付けします。 HTMLおよびテキスト・ドキュメントの場合、Oracle SESはフォールバック・タイトルに自動的に索引付けしません。つまり、HTMLまたはテキスト・ドキュメントで置換されたタイトルは、拡張検索ページでタイトル属性を使用して検索できません。HTMLおよびテキスト・ドキュメントの索引付けは、crawler.datファイルで有効にできます（たとえば、NULL_TITLE_FALLBACK_INDEX ALLを設定します）。
crawler.datファイルは、グローバル設定 - 構成データのバックアップとリカバリ・ページで使用可能なバックアップには含まれません。crawler.datファイルは必ず手動でバックアップしてください。

関連項目:

「クローラ構成ファイル」

キャラクタ・セット検出

この機能を使用すると、HTML、プレーン・テキストおよびXMLファイルのキャラクタ・セット情報をクローラで自動的に検出できます。キャラクタ・セット検出によって、クローラでは、クロール時のファイルのキャッシュ、テキストの索引付け、問合せに関するファイルの表示を適切に実行できます。これは、マルチバイト・ファイル（日本語や中国語のファイルなど）のクロール時に重要です。

この機能は、Oracle SES管理ツールでは現在サポートされておらず、デフォルトではオフです。自動キャラクタ・セット検出を有効化するには、クローラ構成ファイル$ORACLE_HOME/search/data/config/crawler.datに行を追加します。たとえば、次の行を新規行として追加します。

AUTO_CHARSET_DETECTION

この機能がオンであるかオフであるかは、「クロール設定」セクションの下にあるクローラ・ログでチェックできます。

自動キャラクタ・セット検出に関する特別な考慮事項

ソースに関するXMLファイルをクロールするには、ホーム - ソース - ドキュメント・タイプ・ページの処理済ドキュメント・タイプのリストにXMLを追加してください。 XMLファイルは現在HTML形式として処理されており、XMLファイルに対する検出は、他のファイル形式と比較して正確ではない場合があります。
crawler.datファイルは、グローバル設定 - 構成データのバックアップとリカバリ・ページで使用可能なバックアップには含まれません。crawler.datファイルは必ず手動でバックアップしてください。

関連項目:

「クローラ構成ファイル」

言語検出

マルチバイト・ファイルの場合は、キャラクタ・セット検出をオンにすることに加え、「デフォルト言語」パラメータの設定も重要です。たとえば、ファイルがすべて日本語の場合は、そのソースのデフォルト言語として日本語を選択してください。自動言語検出が無効の場合、またはクローラでドキュメントの言語を判別できない場合、クローラでは、ドキュメントがデフォルト言語で記述されているとみなされます。このデフォルト言語が使用されるのは、クロール時にクローラでドキュメント言語を判別できない場合のみです。

ファイルに複数の言語が含まれている場合は、「言語検出機能の有効化」パラメータをオンにします。クローラで取得されるすべてのドキュメントに、言語が指定されているわけではありません。言語が指定されていないドキュメントについては、クローラで言語の自動検出が試行されます。言語認識機能では、様々な言語（例: デンマーク語、オランダ語、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語）によるドキュメントのトライグラム・データを使用して統計的に言語が識別されます。指定のドキュメントはいずれの言語にも属さないという仮説から開始し、最終的には、特定言語についてはこの仮説が誤りであることを可能な範囲で証明します。この機能は、Latin-1アルファベット、および文字のUnicode範囲が確定している言語（中国語、日本語、韓国語など）で動作します。

クローラでは、HTTPヘッダーのcontent-languageまたはLANGUAGE列（表ソースの場合）をチェックして、言語コードが判別されます。判別できない場合は、次の処理が実行されます。

言語認識機能がない場合または言語コードを判別できない場合は、デフォルト言語コードが使用されます。
言語認識機能がある場合は、その出力が使用されます。
Oracle Secure Enterprise Searchで使用されるレクサーはマルチレクサーのみです。

「デフォルト言語」および「言語検出機能の有効化」パラメータは、グローバル設定 - クローラ構成ページ（グローバル用）にあります。また、ホーム - ソース - クロール・パラメータ・ページ（各ソース用）にもあります。

注意:

ファイル・ソースの場合、「言語検出機能の有効化」に対する個別のソース設定は、グローバル設定に関係なくfalseのままです。ほとんどの場合、ファイル・ソースの言語は同じであり、「デフォルト言語」の設定から設定されます。

属性の概要

各ソースには独自のドキュメント属性セットがあります。ドキュメント属性では、メタデータと同様に、ドキュメントのプロパティが記述されます。クローラは値を取得し、それを検索属性の1つにマップします。このマッピングにより、ユーザーは属性に基づいてドキュメントを検索できます。様々なソース内のドキュメント属性を同じ検索属性にマップできます。したがって、ユーザーは同じ検索属性に基づいて複数のソースからのドキュメントを検索できます。

ドキュメント属性には、ドキュメント管理、アクセス制御、バージョン管理など、様々な用途があります。各種ソースには、バージョンとリビジョンのように同じ概念を表す様々な属性名を使用できます。また、同じ属性を異なる概念に使用することもできます。たとえば、「言語」を、あるソースでは通常言語として使用し、別のソースではプログラミング言語として使用できます。ドキュメント属性情報の取得方法は、ソース・タイプに応じて異なります。

関連項目:

各ソース・タイプのドキュメント属性の詳細は、「属性」を参照してください。

Oracle SESには、複数のデフォルト検索属性が用意されています。これらの属性を検索アプリケーションに取り込むと、より詳細な検索をより豊富な表現で使用できます。

検索属性は、次の方法で定義されます。

システム定義の検索属性（タイトル、作成者、説明、件名およびMIMEタイプなど）。
Oracle SES管理者が作成する検索属性。
クローラにより作成される検索属性。（クロール時には、クローラ・プラグインによりドキュメント属性が同じ名前およびデータ型を持つ検索属性にマップされます。検出されない場合は、クローラ・プラグインに定義されているドキュメント属性と同じ名前と型を持つ新規の検索属性が作成されます。）

検索属性の値リスト（LOV）は、検索を指定するときに便利です。グローバル検索属性は、グローバル設定 - 検索属性ページで指定できます。LOV情報がクローラ・プラグインを介して提供されるユーザー定義ソースの場合は、クローラによりLOV定義が登録されます。管理ツールまたはクローラ・プラグインを使用して、属性LOV、属性値、属性値の表示名およびその翻訳を指定します。

注意:

タイトルなどの共通属性のLOVが複数のソースで定義されている場合、ユーザーには属性値の候補がすべて表示されます。ユーザーが検索を特定のソース・グループ内に制限すると、そのソース・グループ内の対応するソースから提供されるLOVのみが表示されます。

属性LOV収集の例

LOVは自動的に収集されます。次に、http://www.oracle.comをクロールするためのLOV値をOracle SESで収集する例を示します。

http://www.oracle.comを開始URLとするWebソースを作成します。クロールは、まだ開始しないでください。
グローバル設定 - 検索属性ページから、Oracle SESでLOVを収集する属性を選択し、「LOVの管理」をクリックします（たとえば、「作成者」に対する「LOVの管理」をクリック）。
作成したソースに対して「ソース固有」を選択し、「適用」をクリックします。
「更新ポリシー」をクリックします。
「ドキュメントの調査」を選択して「更新」をクリックし、「終了」をクリックします。
ホーム - スケジュール・ページから、Webソースのクロールを開始します。クロール後、拡張検索ページの「LOV」ボタンをクリックすると、収集したLOVが表示されます。

クロール・プロセス

クローラは、初回の実行時にソースに基づいてデータ（Webページ、表の行、ファイルなど）をフェッチする必要があります。その後、ドキュメントがOracle SES索引に追加されます。

初期クロール

この項では、スケジュールに従ったWebソースのクロール・プロセスについて説明します。このプロセスは次の2つのフェーズにわかれています。

ドキュメントのキューイングとキャッシュ
ドキュメントの索引付け

ドキュメントのキューイングとキャッシュ

クロール・サイクル中のステップは、次のとおりです。

管理ツールで指定したスケジュールに従って、Oracleによりクローラが起動されます。クロールが初めて開始されるときに、URLキューにシードURLが移入されます。
クローラにより複数のクロール・スレッドが開始されます。
クローラ・スレッドにより、キュー内の次のURLが削除されます。
クローラ・スレッドにより、Webからドキュメントがフェッチされます。通常、ドキュメントはテキストとハイパーテキスト・リンクを含むHTMLファイルです。
クローラ・スレッドによりHTMLファイル内でハイパーテキスト・リンクがスキャンされ、新規リンクがURLキューに挿入されます。ドキュメント表にある重複リンクは廃棄されます。
クローラにより、HTMLファイルがローカル・ファイル・システムにキャッシュされます。
クローラによりURLがURL表に登録されます。
クローラ・スレッドにより、ステップ3を繰り返すことでサイクルがやり直されます。

ネットワーク通信量や低速Webサイトの関係で、ステップ4で説明したドキュメントのフェッチに時間がかかることがあります。スループットを最大化するために、常に複数のスレッドによりページがフェッチされます。

ドキュメントの索引付け

ファイル・システムのキャッシュがいっぱいになると（デフォルトの最大サイズは250MB）、索引付けプロセスが開始されます。この時点で、ドキュメントのコンテンツと検索可能属性が索引にプッシュされます。バッチ内のドキュメントの索引付けが完了すると、クローラはキューイングおよびキャッシング・モードに戻ります。

保守クロール

初期クロール後、URLページがクロールされて索引付けされるのは、前回のクロール以降に変更された場合のみです。クローラでは、HTTPのIf-Modified-Sinceヘッダー・フィールドまたはページのチェックサムに基づいて、変更があったかどうかが判別されます。存在しなくなったURLはマークされ、索引から削除されます。

変更があったドキュメントを更新するために、クローラでは内部チェックサムを使用して新規Webページがキャッシュ内のWebページと比較されます。変更があったWebページはキャッシュされ、再索引付けを示すマークが付けられます。

データ同期化に関連するステップは、次のとおりです。

管理ツールで指定したスケジュールに従って、Oracleによりクローラが起動されます。URLキューには、スケジュールに割り当てられたソースのシードURLが移入されます。
クローラにより複数のクロール・スレッドが開始されます。
各クローラ・スレッドにより、キュー内の次のURLが削除されます。
各クローラ・スレッドにより、Webからドキュメントがフェッチされます。通常、ページはテキストとハイパーテキスト・リンクを含むHTMLファイルです。ドキュメントがHTML形式でなければ、クローラはキャッシュ前にHTMLに変換しようとします。
各クローラ・スレッドにより、新規に取得されたページのチェックサムが計算され、キャッシュ内のページのチェックサムと比較されます。チェックサムが同一の場合、そのページは廃棄され、クローラはステップ3に進みます。同一でない場合、クローラは次のステップに進みます。
各クローラ・スレッドによりドキュメント内でハイパーテキスト・リンクがスキャンされ、新規リンクがURLキューに挿入されます。ドキュメント表にあるリンクは廃棄されます。（Oracle SESは、フィルタ済バイナリ・ドキュメントからのリンクをたどりません。）
クローラによりURLが「適用済」としてマークされます。このURLは、将来の保守クロール時にクロールされます。
クローラによりURLがドキュメント表に登録されます。
ファイル・システムのキャッシュがいっぱいになるか、URLキューが空になると、Webページのキャッシュ処理が停止され、索引付けが開始されます。それ以外の場合、クローラ・スレッドはステップ3からやり直します。

クロール・プロセスのモニター

次の組合せを使用して、管理ツールでクロール・プロセスをモニターします。

ホーム - スケジュール・ページでクロールの進行状況とクロール・ステータスをチェックします。（「ステータスのリフレッシュ」をクリックします。）
ホーム - スケジュール - クローラの進行状況のサマリー・ページとホーム - 統計ページで、クローラ統計をモニターします。
現行のスケジュールをログ・ファイルでモニターします。

関連項目:

「クロール・パフォーマンスのチューニング」

クローラ統計

ホーム - スケジュール - クローラの進行状況のサマリー・ページには、次のクローラ統計が表示されます。一部の統計は、ログ・ファイルにも「クロール結果」という見出しで表示されます。

「フェッチするドキュメント」: キュー内でクロールを待機しているURLの数。ログ・ファイルでは処理するドキュメントという用語が使用されます。
「フェッチされたドキュメント」: クローラで取得されたドキュメントの数。
「ドキュメント・フェッチ・エラー」: クローラでコンテンツを取得できないドキュメントの数。取得できない原因は、Webサイトへの接続不可、サーバー・レスポンス時間が遅いために起こるタイムアウト、または認可要件のいずれかである可能性があります。正常にドキュメントがフェッチされた後に検出された問題は、ここでは対象となりません。たとえば、サイズが大きすぎるドキュメントや無視された重複ドキュメントなどがあります。
「拒否されたドキュメント」: 検出はされたがクロールの対象となっていないURLリンクの数。拒否の理由は、境界ルール、ロボット除外ルール、MIMEタイプの包含ルール、クロールの深さ制限またはURLリライタの廃棄ディレクティブである可能性があります。
「検出されたドキュメント」: クロール時に検出されたすべてのドキュメント。これは、（フェッチするドキュメント）+（フェッチされたドキュメント）+（ドキュメント・フェッチ・エラー）+（拒否されたドキュメント）にほぼ等しくなります。
「索引付けされたドキュメント」: 索引付けされたドキュメントまたは索引付けが保留中のドキュメントの数。
「索引付けできないドキュメント」: 索引付けできないドキュメントの数。たとえば、ファイル・ソース・ディレクトリまたはロボットのNOINDEXメタ・タグを持つドキュメントです。
「ドキュメント変換エラー」: ドキュメントのフィルタリング・エラーの数。ドキュメントをHTML形式に変換できないときにカウントされます。

クローラ・ログ・ファイル

ログ・ファイルには、特定のスケジュールに対応したクローラのアクティビティ、警告およびエラー・メッセージがすべて記録されます。これには、起動時、実行時およびシャットダウン時に記録されたメッセージが含まれます。多数のドキュメントをクロールする場合は、すべてを記録するとログ・ファイルのサイズが非常に大きくなります。ただし、場合によっては、詳細なアクティビティを各スケジュールのログ・ファイルに出力するようにクローラを構成することは有益です。

クローラを再起動すると、新規のログ・ファイルが作成されます。クローラはログ・ファイルについて過去の7つのバージョンを保持しますが、管理ツールに表示されるのは最新のログ・ファイルのみです。ファイル・システム内の他のログ・ファイルを表示できます。クローラ・ログ・ファイルの場所は、ホーム - スケジュール - クローラの進行状況のサマリー・ページで確認できます。

ログ・ファイル名のネーミング規則はids.MMDDhhmm.logです。ここで、idsはソースを一意に識別するシステム生成ID、MMは月、DDは日付、hhは24時間制による起動時間、mmは分です。

たとえば、ソースi3ds23のスケジュールが7月8日午後10時に起動されると、ログ・ファイル名はi3ds23.07082200.logとなります。連続して起動される各スケジュールには、一意のログ・ファイル名が割り当てられます。ソースのログ・ファイルが合計7つになると、最も古いログ・ファイルが削除されます。

ログ・ファイルに記録される各メッセージは1行で、次の6列が順番にタブで区切られて含まれています。

タイムスタンプ。
メッセージ・レベル。
クローラ・スレッド名。
コンポーネント名。通常は、実行中のJavaクラスの名前です。
モジュール名。内部Javaクラスのメソッド名の場合があります。
メッセージ。

クローラ構成ファイル

クローラ構成ファイルは、$ORACLE_HOME/search/data/config/crawler.datです。ほとんどのクローラ構成タスクは、Oracle SES管理ツールで制御されますが、特定の機能（タイトル・フォールバック、キャラクタ・セット検出、マルチメディア・ファイルのタイトルの索引付けなど）は、crawler.datファイルで制御されます。

注意:

crawler.datファイルは、Oracle SESバックアップおよびリカバリではバックアップされません。このファイルを編集する場合は、必ず手動でバックアップしてください。

ロギング・レベルの設定

パラメータDoracle.search.logLevelを使用してクローラ・ロギング・レベルを指定します。定義済のレベルは、DEBUG(2)、INFO(4)、WARN(6)、ERROR(8)、FATAL(10)です。デフォルト値は4で、レベル4以上のメッセージが記録されることを意味します。DEBUG（レベル=2）メッセージは、デフォルトでは記録されません。

たとえば、次の情報メッセージが時刻23:10:39330に記録されます。これはスレッド名crawler_2からの「file://localhost/net/stawg02/を処理中」というメッセージです。コンポーネント名とモジュール名は未指定です。

23:10:39:330 INFO    crawler_2      Processing file://localhost/net/stawg02/

クローラでは、クロールされたURLのクロール結果が一連のコードを使用して示されます。標準的なHTTPステータス・コードの他に、HTTPに関連しない状況を示す独自コードが使用されます。

関連項目:

付録C「URLクローラのステータス・コード」

Oracle Secure Enterprise Searchにおける検索の概要

管理ツールのいずれかのページからエンド・ユーザー向け検索ページを表示するには、右上隅の「検索」リンクをクリックします。これにより基本検索ページが新規ウィンドウに表示されます。このウィンドウには、検索文字列を入力するためのテキスト・ボックスがあります。この項のトピックは、次のとおりです。

基本検索

検索文字列は、1つ以上の語句で構成できます。「検索」ボタンをクリックすると、入力した検索文字列と一致するすべての文字列が戻されます。結果には次のリンクを含めることができます。

キャッシュ: キャッシュされたHTMLバージョンのドキュメントに接続します。

リンク: このドキュメントへリンクするページまたはこのドキュメントからリンクするページに接続します。

ソース・グループ: 「ソース・グループの参照」にリンクします。

「検索」テキスト・ボックスの上のリンクはソース・グループです。ソース・グループを1つクリックすると、そのグループに検索が制限されます。

次の表に、検索文字列に適用されるルールを示します。 [ ]内のテキストは、「検索」テキスト・ボックスに入力する文字を表します。

表3-1 検索文字列ルール

ルール	説明
単一の単語の検索	1つの単語を入力すると、その単語を含むドキュメントが検索されます。たとえば、[Oracle]と入力すると、Oracleという単語を含むすべてのドキュメントが検索されます。
強制的な包含[+]	単語の前に[+]を付けると、その単語は、一致したすべてのドキュメントに存在することを示します。たとえば、[Oracle +Applications]を検索すると、OracleおよびApplicationsという単語を含むドキュメントのみが検出されます。注意: 複数の単語の検索では、最初のトークンを含むすべてのトークンの前に[+]を付けることができます。また、二重引用符（"）で囲まれた句の前に[+]を付けることもできます。ただし、[+]と検索する語の間には空白を入れないでください。
強制的な除外[-]	単語の前に[-]を付けると、その単語は、一致したすべてのドキュメントに存在しないことを示します。たとえば、[Oracle -Applications]を検索すると、Oracleという単語を含み、Applicationsという単語を含まないドキュメントのみが検出されます。注意: 複数の単語の検索では、最初のトークンを除くすべてのトークンの前に[-]を付けることができます。トークンとは、二重引用符（"）で囲まれた句です。1つの単語または句のいずれでもかまいませんが、[-]とトークンの間には空白を入れないでください。
句の一致["..."]	一連の単語を二重引用符で囲むと、その句を正確に含むドキュメントのみを検索します。たとえば、["Oracle Applications"]と入力すると、Oracle Applicationsという文字列を含むドキュメントのみが検索されます。
ワイルドカードの一致[*]	単語の右側に[]を付けると、左側部分が一致した検索結果が戻されます。たとえば、文字列[Ora]を検索すると、OracleやOratorなど、Oraで始まるすべての単語を含むドキュメントが検出されます。アスタリスクは単語の途中にも挿入できます。たとえば、文字列[A*e]を検索すると、AppleやApeなどの単語を含むドキュメントが検出されます。ワイルドカードの一致は、中国語または日本語固有の文字では使用できません。
サイト検索	検索する語の後に[site:host]を付けると、結果がその特定のサイトに制限されます。たとえば、「documentation site:www.oracle.com」となります。Oracle SESでは、ホストの完全一致がサポートされており（site:*.oracle.comは指定できません）、検索ごとに1つの「site:」を指定できます。
ファイル・タイプによるフィルタリング	検索する語の後に[filetype:filetype]を付けると、結果がその特定のファイル・タイプに制限されます。たとえば、「documentation filetype:pdf」では、documentationという語を含むPDF形式のドキュメントが戻されます。検索には、filetypeショートカットを1つのみ指定できます。次のファイル・タイプ（および対応する文字列）がサポートされています。 filetype string: mimetype ps: application/postscript ppt: application/vnd.ms-powerpoint、application/x-mspowerpoint doc: application/msword xls: application/vnd.ms-excel、application/x-msexcel、application/ms-excel txt: text/plain html: text/html htm: text/html pdf: application/pdf xml: text/xml rtf: application/rtf

Oracle SESは、次の演算子を使用するSTRING、NUMBERおよびDATE（mm/dd/yyyy）属性をサポートしています。

CONTAINS演算子は、STRING属性にのみ適用されます。Oracle SESは、問合せ条件を含む属性を持つドキュメントを戻します。
EQUALS演算子は、3つの属性すべてに適用されます。Oracle SESは、大/小文字を区別しない問合せに等しい属性を持つドキュメントを戻します。
GREATERTHAN演算子は、NUMBERおよびDATE属性に適用されます。Oracle SESは、問合せ値より大きい属性値または問合せ値より後の属性値を持つドキュメントを戻します。
LESSTHAN演算子は、NUMBERおよびDATE属性に適用されます。
GREATERTHANEQUALS演算子は、NUMBERおよびDATE属性に適用されます。

LESSTHANEQUALS演算子は、NUMBERおよびDATE属性に適用されます。

注意:

検索結果の一部としてKW IC（コンテキスト内キーワード）が組み込まれます。このサイズ制限は4Kです。つまり、検索されたキーワードがドキュメントの最初の4K内に出現した場合は、検索結果に対してKWICが表示されます。最初の4Kより後に出現した場合、KWICは表示されません。

拡張検索

拡張検索ページでは、次の方法で検索を絞り込むことができます。

検索属性による検索の絞り込み
特定のソースに検索を制限
特定の言語で記述されたドキュメントに検索を制限

検索属性による検索の絞り込み

拡張検索ページでは、検索に一致するドキュメントが特定の属性値を持つように指定できます。検索属性値を指定するには、リスト・ボックスを使用して検索属性を選択します。リスト・ボックスの右横にあるテキスト・ボックスに、検索属性値を入力します。日付書式はMM/DD/YYYY形式で入力する必要があります。

特定のソースに検索を制限

1つ以上のソース・グループが定義されている場合は、特定のカテゴリを選択すると、対応するチェック・ボックスが表示されます。チェック・ボックスを選択すると、検索をそのソース・グループに制限できます。ソース・グループを選択しなければ、すべてのドキュメントが検索されます。「すべて」を選択すると（つまり、すべてのソース・グループが存在する場合）、選択したグループ（デフォルト・グループ）にないドキュメントは検索されません。

ソース・グループはドキュメントのコレクションを表します。ソース・グループはOracle SES管理者が作成します。

特定の言語で記述されたドキュメントに検索を制限

Oracle SESでは、様々な言語のドキュメントを検索できます。言語を指定すると、指定された言語で書かれたドキュメントに検索が制限されます。「言語」リスト・ボックスを使用して、言語を指定します。

ソース・グループの参照

ソース・グループとは、まとめて検索できるソースのグループです。ソース・グループは1つ以上のソースで構成され、1つのソースを複数のソース・グループに割り当てることができます。ソース・グループは検索 - ソース・グループ・ページで定義します。 Web、電子メールおよびOracleAS Portalソース・タイプの場合にのみ、グループまたはフォルダが作成されます。

ユーザーは、管理者が作成したソース・グループを検索ページで参照できます。ソース・グループ名をクリックすると、その下にサブグループが表示されます。サブグループ名をクリックすると、さらに階層の下位へとドリルダウンできます。特定のグループに含まれるドキュメントをすべて表示するには、ソース・グループ名の横にある番号をクリックします。このページから、ソース・グループ内の制限付き検索を実行することもできます。

ソース階層を使用すると、エンド・ユーザーはドキュメントのソース・タイプに基づいて検索結果を制限できます。階層は、クロール時に自動的に生成されます。

URLの送信

URLの送信機能を使用すると、ユーザーはクロールおよび索引付けの対象となるURLを送信できます。この種のURLは、特定のソースのシードURLリストに追加され、クローラ検索領域に挿入されます。URL送信を（グローバル設定 - 問合せ構成ページで）可能にした場合は、送信されたURLの追加先となるWebソースを選択する必要があります。

注意:

ソースが作成されていなければ、この機能は検索ページで無効化されます。