ホワイトリストのタグ付けエンリッチメントでは、属性から語を抽出し、その語を使用して新しい複数値属性を作成します。値は、抽出されたフレーズのカンマ区切りリストです。
ホワイトリストのタグ付けを改良するには:
たとえば、大/小文字を区別するように設定した場合、「Burgundy」という語を入力したときに「burgundy」は除外されます。
1行ごとに1つの語を指定したUTF-8形式のプレーン・テキスト・ファイルを使用する必要があります。次に例を示します。
helpful very knowledgeable rude return polite
先頭が#が付いている行はコメントとみなされ、エンリッチメントとして処理されません。ただし、語の中で#文字を使用することは可能です。
文字は完全に一致する必要があります。たとえば、「resume」と「résumé」は一致しません。
ホワイトリストのタグ付けでは、選択した語の検索時に、出力属性の値を見つかった語のリストに設定するのではなく、独自に指定した値に設定するための構文もサポートされています。
この構文は次のとおりです。
(value|value|value|)->outputValue
次の例では、「nice」、「pleasant」または「fun」という語が見つかった場合、出力属性の値は「Positive」に設定されます。「poor」または「awful」という語が見つかった場合、出力属性の値は「Negative」に設定されます。
(nice|pleasant|fun)->Positive (poor|awful)->Negative
無視する語を指定したファイルを以前にアップロードしたことがある場合は、そのファイルの内容が「ホワイトリストの語」ダイアログの上部に表示され、ファイル名がコメントとして付加されます。
Studioでも、既存の属性が上書きされるのを回避するために、キー名が一意になるように調整されます。
また、エンリッチメントの実行後に出力属性の名前を変更すると、エンリッチメントの次回実行時に、新規出力属性が作成されます。元の出力属性は維持され、変更されません。
この設定は、大文字表記がサポートされている言語のデータにのみ適用されます。
Oracle Endeca Information Discovery Studio Studioユーザーズ・ガイド · リリース3.1.0 · 2013年10月
Copyright ©2003, 2013,Oracle and/or its affiliates. All rights reserved.