Oracle Endeca Serverの検索サブシステムのコア機能として、ステミングおよびシソーラスには、その他の検索機能との相互作用があります。
次の項では、様々な検索機能間の相互作用のタイプについて説明します。
アプリケーションに構成された検索文字セットは、ステミングおよびシソーラスのエントリで使用できる一連の文字を指定します。デフォルトでは、英数字のASCII文字のみが、ステミングおよびシソーラスのエントリで使用できます。ステミングおよびシソーラスのエントリで使用するために、追加の句読点および他の特殊文字を有効化するには、これらの文字を検索文字セットに追加します。
Oracle Endeca Serverは、次のルールを使用したシソーラスの形にユーザーの問合せ語を一致させます。すべての英数字および検索文字はステミングおよびシソーラスの形に対して正確に一致させる必要があります。ユーザーの検索問合せ内の他の文字は、ワード・デリミタとして処理されます。検索文字の詳細は、「検索文字」を参照してください。
スペルの自動修正は、基本的にユーザーの問合せの代替バージョンを計算する追加のメカニズムを提供するため、スペル修正は、ステミングおよびシソーラスの機能に密接に関連した機能です。Oracle Endeca ServerのDgraphプロセスでは、スペル修正は、ステミングおよびシソーラスより高度な機能として処理されます。つまり、スペル修正では、代替問合せの形を生成する際に、ユーザーの問合せの生の形のみを考慮します。
スペル修正された代替の問合せは、すべての通常のステミングおよびシソーラスの処理の対象となります。たとえば、ユーザーが問合せtelvisionを入力し、この問合せがtelevisionにスペル修正された場合、結果には、代替の形televisions、tv、tvsの結果も含まれます。
システムの標準的なスペル修正機能の置換として、またはこの機能に加えて、シソーラス機能が使用される場合があることに注意してください。一般に、この技術は推奨されていません。実際にスペルミスしたユーザーの問合せの大部分は、スペル修正サブシステムによって正しく処理できます。しかし、まれに、スペル修正機能では、対象の問合せで特定のスペルミスを修正できない場合があり、この場合、一般に、修正を処理するためにシソーラス・エントリを追加します。このようなエントリは、望ましくない機能の相互作用を引き起こすことがあるため、可能な場合、無効にする必要があります。
ストップ・ワードは、Oracle Endeca Serverの検索問合せエンジンによって無視するよう構成される単語です。ストップ・ワード・リストには、通常、データ内で頻繁に発生しすぎるため有用にならない単語(たとえば、ワインのデータセット内の単語bottleなど)、および、一般的すぎる単語(アパレルのみのデータセット内のclothingなど)が含まれます。
theがストップ・ワードとしてマークされた場合、the computerの問合せは、単語computerを含むテキストに一致しますが、単語theが見つからない可能性があります。
ストップ・ワードは、現在、ステミングおよびシソーラスの等価関係のセットによって展開されません。たとえば、itemをストップ・ワードとしてマークし、単語itemとitemsの間のシソーラスの等価関係も含むとします。これにより、単語itemsはストップ・ワードとして自動的にマークされません。このような展開は手動で適用する必要があります。
シソーラス・エントリをユーザーの問合せに一致させる際に、ストップ・ワードが配慮されます。たとえば、Muhammad AliとCassius Clayの間の等価関係を定義し、Mをストップ・ワードとしてマークするとします(すべてまたは大部分の1文字の単語をストップ・ワードとしてマークすることは一般的ではありません)。この場合、Cassius M. Clayの問合せは、シソーラス・エントリに一致し、予想どおり、Muhammad Aliの結果が返されます。
フレーズ検索は、引用符で囲まれた1つ以上の複数単語のフレーズを含む検索問合せです。フレーズ問合せの語の中の単語は、厳密に、単語の文字どおりの意味で解釈され、ステミングまたはシソーラス処理の対象となりません。たとえば、Jennifer LopezとJLoの間のシソーラスの等価関係を定義した場合、Jennifer Lopezの通常の(引用符なしの)検索では、JLoの結果も返されますが、引用符で囲まれた"Jennifer Lopez"のフレーズ検索では、追加のJLoの結果は返されません。
ステミングおよび/またはシソーラスで変換されたバージョンの問合せの結果より前に、実際のユーザーの問合せの結果が返されることは、通常は望ましいことです。このタイプの結果の順序付けは、関連性ランキング・モジュールによってサポートされています。特に、シソーラス展開およびステミングの影響を受けるモジュールは、Interpです。シソーラスおよびステミングの影響を受けないモジュールは、Freqです。