ファジー・マッチングとステミングについて

3.9 ファジー・マッチングとステミングについて

BASIC_WORDLISTプリファレンスにより、使用している言語に対するステミングやファジー・マッチングなどの問合せオプションを有効にします。

概要

ファジー・マッチングでは、指定した語句とスペルが似ているワードを照合できます。Oracle Textでは、複数の言語用のエンティティ抽出を提供しています。

ステミングでは、語幹(指定した$termと同じ語根)によって索引付けできます。たとえば、speak、speaks、spokeおよびspokenなどのワードをspeakという語句によって索引付けできます。speakという語句は、これらの単語の語幹として解釈されます。

ファジー・マッチングとステミングは、Oracle Textが使用言語に対してこの機能をサポートしている場合は、索引で自動的に使用可能になります。

ファジー・マッチングの属性

ファジー・マッチング(fuzzy_match)は有効になっており、そのファジー・スコア、および拡張後の語句の最大数を指定するためのデフォルト・パラメータがあります。ファジー・スコア(fuzzy_score)は、拡張後のワードが問合せワードにどのくらい似ているかの尺度です。ファジー数結果(fuzzy_numresults)では、ファジー拡張の最大数を指定します。索引時にはこのデフォルト・パラメータを変更できます。

ステミングの属性

AUTO_LEXERの言語属性値:

ドキュメントの言語を自動検出して必要な変換を実行するには、AUTO_LEXERのindex_stems属性を有効にすることでステム索引を作成します。ドキュメント言語に対応するステマーを使用し、常にドキュメント・リコールを最大化するようにステマーを構成します。

言語(ドイツ語、フィンランド語、スウェーデン語、オランダ語など)の複合語については、compositeをYES (デフォルト値)に設定すると、ドキュメントにおいて複合語ステミングが自動的に実行されます。複合語は常に、それを構成する語に分割されます。
BASIC_LEXERの言語属性値:

ステミング問合せのパフォーマンスを改善するには、BASIC_LEXERのindex_stems属性を使用可能にして、ステミング索引を作成します

Oracle AI Database 26ai以降では、古いステマーが削除されて、_NEW接尾辞が不要になりました。たとえば、ENGLISH_NEWはENGLISHと同じです。

言語(ドイツ語、フィンランド語、スウェーデン語、オランダ語など)の複合語については、compositeをYES (デフォルト値)に設定すると、ドキュメントにおいて複合語ステミングが自動的に実行されます。複合語は常に、それを構成する語に分割されます。

関連トピック