3.12 ストップワードとストップテーマ
ストップワードは、索引付け対象外とするワードです。ストップワードとは通常、特定の言語で情報量の低いワードを指します。英語では、thisやthatのようなワードです。
デフォルトでは、特定言語の索引付け用にストップリストが用意されています。CTX_DDL
パッケージを使用してこのリストを変更したり独自のリストを作成します。ストップリストは、CREATE INDEX
文のパラメータ文字列に指定します。
ストップテーマは、テーマ索引またはテーマの構成要素に使用できないワードです。ストップテーマは、CTX_DDL
パッケージを使用して追加します。
-
言語検出とストップリスト: 問合せ時、問合せの言語は、問合せテンプレートまたはセッション言語(問合せテンプレートによって言語が指定されていない場合)から継承されます。
-
マルチ言語ストップリスト: 言語固有のストップワードを保持するマルチ言語のストップリストを作成します。このストップリストは、英語、ドイツ語および日本語などの異なる言語のドキュメントを含む表を索引付けするために
MULTI_LEXER
を使用している場合に有効です。索引作成時に、各ドキュメントの言語列が調べられ、その言語のストップワードのみが排除されます。問合せ時には、マルチレクサーを使用してアクティブなレクサーが特定されるのと同様に、セッション言語の設定によってアクティブなストップワードが特定されます。