ホワイトリストのタグ付けエンリッチメントの構成

ホワイトリストのタグ付けエンリッチメントでは、属性から語を抽出し、その語を使用して新しい複数値属性を作成します。値は、抽出されたフレーズのカンマ区切りリストです。

語は次のいずれかである場合があります。
  • ホワイトリスト・ファイルに指定した語
  • エンリッチメント構成用に手動で入力した語

ホワイトリストのタグ付けを改良するには:

  1. 指定した語と大/小文字が一致する語のみを含めるには、「大文字/小文字を区別した一致」チェック・ボックスを選択します。

    ホワイトリストのタグ付けエンリッチメントの構成フィールド

    たとえば、大/小文字を区別するように設定した場合、「Burgundy」という語を入力したときに「burgundy」は除外されます。

  2. 抽出する語を指定したテキスト・ファイルをアップロードするには、次の手順を実行します。
    1. 「改行区切りファイルのアップロード」ラジオ・ボタンをクリックします。
    2. ファイルを検索して選択するには、「参照」ボタンをクリックします。

      1行ごとに1つの語を指定したUTF-8形式のプレーン・テキスト・ファイルを使用する必要があります。次に例を示します。

      helpful
      very knowledgeable
      rude
      return
      polite

      先頭が#が付いている行はコメントとみなされ、エンリッチメントとして処理されません。ただし、語の中で#文字を使用することは可能です。

      文字は完全に一致する必要があります。たとえば、「resume」と「résumé」は一致しません。

      ホワイトリストのタグ付けでは、選択した語の検索時に、出力属性の値を見つかった語のリストに設定するのではなく、独自に指定した値に設定するための構文もサポートされています。

      この構文は次のとおりです。

      (value|value|value|)->outputValue
      詳細は次のとおりです。
      • valueは、検索対象となる語です。複数の語を区切るには、|文字を使用します。
      • outputValueは、いずれかの語が入力属性に見つかった場合に出力属性に割り当てる値です。

      次の例では、「nice」、「pleasant」または「fun」という語が見つかった場合、出力属性の値は「Positive」に設定されます。「poor」または「awful」という語が見つかった場合、出力属性の値は「Negative」に設定されます。

      (nice|pleasant|fun)->Positive
      (poor|awful)->Negative
    3. 選択したファイルをアップロードするには、「アップロード」ボタンをクリックします。
      ホワイトリストのタグ付けエンリッチメントの構成フィールドでのファイルの選択
  3. 抽出する語を手動で入力するには、次の手順を実行します。
    1. 「語の入力」ラジオ・ボタンをクリックします。
    2. 「編集」ボタンをクリックします。

      無視する語を指定したファイルを以前にアップロードしたことがある場合は、そのファイルの内容が「ホワイトリストの語」ダイアログの上部に表示され、ファイル名がコメントとして付加されます。


      アップロード済のファイルの内容を示す「ホワイトリストの語」ダイアログ
    3. ダイアログで、語を入力します。語は1行に1つずつ入力してください。
    4. 語の入力が終了したら、「適用」をクリックします。
  4. 「出力」オプションで、次の手順を実行します。
    1. 「出力属性」フィールドに、抽出した語を移入する属性の名前を入力します。
      値がNCName対応である場合は、入力した値が属性キー名と表示名の両方に使用されます。値がNCName対応でない場合は、次のようになります。
      • 入力した値は表示名に使用されます。
      • キー名については、空白や特殊文字を削除することなどによって、入力した値を調整し、NCName対応のキー名を作成してください。

      Studioでも、既存の属性が上書きされるのを回避するために、キー名が一意になるように調整されます。

      また、エンリッチメントの実行後に出力属性の名前を変更すると、エンリッチメントの次回実行時に、新規出力属性が作成されます。元の出力属性は維持され、変更されません。

    2. 抽出した語の大/小文字を変更するには、「出力値の大/小文字の変更」チェック・ボックスを選択し、使用する文字のラジオ・ボタンをクリックします。

      この設定は、大文字表記がサポートされている言語のデータにのみ適用されます。


      ホワイトリストのタグ付けエンリッチメントの出力構成