ステミング機能では、検索結果を語根および語源を含めたところまで広げます。
ステミングは、デフォルトで、Endecaデータ・ドメイン内で有効化されます。
ステミングは、共通の語根を持つ単語(名詞の単数形と複数形など)を、検索操作で代替可能であるとみなすことを目的としています。たとえば、単語shirtの検索結果には、派生語であるshirtsが含まれ、shirtsの検索結果には、語根であるshirtも含まれます。
ステミングの等価関係は、単一の単語間で定義されます。たとえば、単語automobileとautomobilesの間で等価関係を作成するために、ステミングが使用されますが(1番目の単語は2番目の単語の語幹であるため)、単語vehicleとautomobileの間の等価関係を定義する場合は、ステミングは使用されません(このタイプの概念レベルのマッピングは、シソーラス機能を使用して行います)。
ステミングの等価関係は、厳密に2方向(つまり、すべて対すべて)となります。たとえば、単語truckのステミング・エントリがある場合、truckの検索では、常に、単数形(truck)と複数形(trucks)の両方の一致が返され、trucksの検索でもtruckの一致が返されます。一方、シソーラス機能では、2方向のマッピングに加えて、1方向のマッピングもサポートしています。
ステミングでサポートされる言語のリストについては、「サポートされる言語」トピックを参照してください。
(属性のPDRのmdex-property_Languageプロパティを介して)各属性の言語IDを指定する必要があります。収集時に、Dgraphは、構成された言語ごとに個別のステミング辞書を作成します。辞書はEndecaデータ・ドメインに格納されるため、ユーザーは変更できません。