ステミング機能について

ステミング機能では、検索結果を語根および語源を含めたところまで広げます。

ステミングは、デフォルトで、Endecaデータ・ドメイン内で有効化されます。

ステミングは、共通の語根を持つ単語(名詞の単数形と複数形など)を、検索操作で代替可能であるとみなすことを目的としています。たとえば、単語shirtの検索結果には、派生語であるshirtsが含まれ、shirtsの検索結果には、語根であるshirtも含まれます。

ステミングの等価関係は、単一の単語間で定義されます。たとえば、単語automobileとautomobilesの間で等価関係を作成するために、ステミングが使用されますが(1番目の単語は2番目の単語の語幹であるため)、単語vehicleとautomobileの間の等価関係を定義する場合は、ステミングは使用されません(このタイプの概念レベルのマッピングは、シソーラス機能を使用して行います)。

ステミングの等価関係は、厳密に2方向(つまり、すべて対すべて)となります。たとえば、単語truckのステミング・エントリがある場合、truckの検索では、常に、単数形(truck)と複数形(trucks)の両方の一致が返され、trucksの検索でもtruckの一致が返されます。一方、シソーラス機能では、2方向のマッピングに加えて、1方向のマッピングもサポートしています。

注意: ステミングの実装には、複合語の解除は含まれません。複合語の解除は、複合語(kindergartenなど)を単一の単語コンポーネント(kinderとgarten)に分解し、より小さい単語に基づいて検索する機能です。

ステミングでサポートされる言語

ステミングでサポートされる言語のリストについては、「サポートされる言語」トピックを参照してください。

(属性のPDRのmdex-property_Languageプロパティを介して)各属性の言語IDを指定する必要があります。収集時に、Dgraphは、構成された言語ごとに個別のステミング辞書を作成します。辞書はEndecaデータ・ドメインに格納されるため、ユーザーは変更できません。