データ・セット・エンリッチメントでは、他の属性の値から抽出された選択語を含む新しい属性をStudioで作成することによって、データを拡張できます。これらの新しい属性は、データをリロードする必要なしに作成されます。
エンリッチメントは、Endeca Serverとともに自動的にインストールされるEndeca Serverデータ・エンリッチメント・プラグインを使用して処理されます。ただし、データ・エンリッチメント・プラグインが登録されている場合にのみエンリッチメントを使用できます。
Studioでは、現在次のタイプのエンリッチメントがサポートされており、各タイプは関連付けられたエンリッチメント・プラグインを使用して処理されます。
エンリッチメント・タイプ | 説明 |
---|---|
語の抽出 | アルゴリズムを使用して、関連する語やフレーズが選択した属性の値から抽出されます。語は関連度(データ全体にわたって属性値で語が出現する頻度)に基づいて選択されます。
抽出される語の関連度を確かなものにするために、無視する語のブラックリストを指定して、抽出される可能性があるが必ずしも関連するとはかぎらない語を除外できます。ブラックリストの語は次のいずれかである場合があります。
語の抽出では、抽出された語を使用して新しい複数値属性が作成されます。 |
ホワイトリストのタグ付け | 選択した属性の値から語が抽出されます。
語は次のいずれかである場合があります。
ホワイトリストのタグ付けエンリッチメントでは、抽出された語を使用して新しい複数値属性が作成されます。 |
次に、これらのいずれかエンリッチメントの入力および出力の例を示します。
入力値 | 出力値 |
---|---|
Dry、tart and crisp、offering spicy、resiny notes to liven up the basic grapefruit and green apple flavors。Try with fish.Drink now. (2500 cases produced) | tart、crisp、apple |
結果の属性は他の文字列属性と同じ方法で使用できますが、語の抽出エンリッチメントとホワイトリストのタグ付けエンリッチメントは、検索の簡素化および「タグ・クラウド」コンポーネントの移入に最も役立ちます。
たとえば、顧客のコメントを含む属性がデータに含まれる場合、これらのいずれかのエンリッチメントを使用して、属性値に存在する語のリストを含む属性を作成できます。次に、「タグ・クラウド」を使用して、語の相対頻度を確認できます。
両方のエンリッチメントで同様の機能が実行されますが、主な違いは語の選択方法にあります。語の抽出エンリッチメントでは、Studioによって語が選択されます。ホワイトリストのタグ付けエンリッチメントでは、ユーザーが語を指定します。
このため、特定の語を検索せず、データ内の傾向を把握する場合は、語の抽出エンリッチメントを使用します。既知の特定の語の頻度を分析する場合は、ホワイトリストのタグ付けエンリッチメントを使用します。