語の抽出エンリッチメントでは、アルゴリズムを使用して、属性値から関連する語またはフレーズを抽出します。語は、関連性に基づいて選択されます。語の抽出では、抽出された語を使用して新しい複数値属性が作成されます。値は、抽出された語の区切りリストです。
抽出される語の関連性を保証するため、無視する語のブラックリストを指定し、必ずしも関連していないのに抽出されそうな語を除外できます。
語の抽出を改良するには:
たとえば、この設定を5にすると、最も関連性の高い語が5つまで抽出されます。
たとえば、無視する語として「wine」と入力した場合、「Wine」は無視されません。
1行ごとに1つの語を指定したUTF-8形式のプレーン・テキスト・ファイルを使用する必要があります。次に例を示します。
white wine red wine
ブラックリスト内の語がエンリッチメントで抽出対象となる語に影響するのは、完全一致の場合のみです。たとえば、エンリッチメント・プロセスで「white wine」という語を抽出する場合に、「white」という単語のみを無視するように指定しても、「white wine」は抽出されます。
文字は完全に一致する必要があります。たとえば、「resume」と「résumé」は一致しません。
先頭が#が付いている行はコメントとみなされ、エンリッチメントとして処理されません。ただし、語の中で#文字を使用することは可能です。
無視する語を指定したファイルを以前にアップロードしたことがある場合は、そのファイルの内容が「ブラックリストの語」ダイアログの上部に表示され、ファイル名がコメントとして付加されます。
Studioでも、既存の属性が上書きされるのを回避するために、キー名が一意になるように調整されます。
また、エンリッチメントの実行後に出力属性の名前を変更すると、エンリッチメントの次回実行時に、新規出力属性が作成されます。元の出力属性は維持され、変更されません。
この設定は、大文字表記がサポートされている言語のデータにのみ適用されます。
Oracle Endeca Information Discovery Studio Studioユーザーズ・ガイド · リリース3.1.0 · 2013年10月
Copyright ©2003, 2013,Oracle and/or its affiliates. All rights reserved.