3.9 ファジー・マッチングとステミングについて

BASIC_WORDLISTプリファレンスにより、使用している言語に対するステミングやファジー・マッチングなどの問合せオプションを有効にします。

概要

ファジー・マッチングでは、指定した語句とスペルが似ているワードを照合できます。Oracle Textでは、複数の言語用のエンティティ抽出を提供しています。

ステミングでは、語幹(指定した$termと同じ語根)によって索引付けできます。たとえば、speakspeaksspokeおよびspokenなどのワードをspeakという語句によって索引付けできます。speakという語句は、これらの単語の語幹として解釈されます。

ファジー・マッチングとステミングは、Oracle Textが使用言語に対してこの機能をサポートしている場合は、索引で自動的に使用可能になります。

ファジー・マッチングの属性

ファジー・マッチング(fuzzy_match)は有効になっており、そのファジー・スコア、および拡張後の語句の最大数を指定するためのデフォルト・パラメータがあります。ファジー・スコア(fuzzy_score)は、拡張後のワードが問合せワードにどのくらい似ているかの尺度です。ファジー数結果(fuzzy_numresults)では、ファジー拡張の最大数を指定します。索引時にはこのデフォルト・パラメータを変更できます。

ステミングの属性

  • AUTO_LEXERの言語属性値:

    ドキュメントの言語を自動検出して必要な変換を実行するには、AUTO_LEXERindex_stems属性を有効にすることでステム索引を作成します。ドキュメント言語に対応するステマーを使用し、常にドキュメント・リコールを最大化するようにステマーを構成します。

    言語(ドイツ語、フィンランド語、スウェーデン語、オランダ語など)の複合語については、compositeYES (デフォルト値)に設定すると、ドキュメントにおいて複合語ステミングが自動的に実行されます。複合語は常に、それを構成する語に分割されます。

  • BASIC_LEXERの言語属性値:

    ステミング問合せのパフォーマンスを改善するには、BASIC_LEXERindex_stems属性を使用可能にして、ステミング索引を作成します

    Oracle Database 23ai以降では、古いステマーが削除されて、_NEW接尾辞が不要になりました。たとえば、ENGLISH_NEWENGLISHと同じです。

    言語(ドイツ語、フィンランド語、スウェーデン語、オランダ語など)の複合語については、compositeYES (デフォルト値)に設定すると、ドキュメントにおいて複合語ステミングが自動的に実行されます。複合語は常に、それを構成する語に分割されます。