語の抽出エンリッチメントの構成

語の抽出エンリッチメントでは、アルゴリズムを使用して、属性値から関連する語またはフレーズを抽出します。語は、関連性に基づいて選択されます。語の抽出では、抽出された語を使用して新しい複数値属性が作成されます。値は、抽出された語の区切りリストです。

抽出される語の関連性を保証するため、無視する語のブラックリストを指定し、必ずしも関連していないのに抽出されそうな語を除外できます。

語の抽出を改良するには:

  1. 「レコードあたりの語の最大数」フィールドに、1レコード当たりに抽出する語の最大数を入力します。

    特定の語を無視しない場合の語の抽出構成

    たとえば、この設定を5にすると、最も関連性の高い語が5つまで抽出されます。

  2. 特定の語を無視するように指定するには、「特定の語を無視」チェック・ボックスを選択します。
    特定の語を無視する場合の語の抽出構成
  3. 無視する語を指定する場合に、大/小文字が完全に一致する語のみを無視するには、「大文字/小文字を区別した一致」チェック・ボックスを選択します。

    たとえば、無視する語として「wine」と入力した場合、「Wine」は無視されません。

  4. 無視する語を指定したファイルをアップロードするには、次の手順を実行します。
    1. 「改行区切りファイルのアップロード」ラジオ・ボタンをクリックします。
    2. ファイルを検索して選択するには、「参照」をクリックします。

      1行ごとに1つの語を指定したUTF-8形式のプレーン・テキスト・ファイルを使用する必要があります。次に例を示します。

      white wine
      red wine

      ブラックリスト内の語がエンリッチメントで抽出対象となる語に影響するのは、完全一致の場合のみです。たとえば、エンリッチメント・プロセスで「white wine」という語を抽出する場合に、「white」という単語のみを無視するように指定しても、「white wine」は抽出されます。

      文字は完全に一致する必要があります。たとえば、「resume」と「résumé」は一致しません。

      先頭が#が付いている行はコメントとみなされ、エンリッチメントとして処理されません。ただし、語の中で#文字を使用することは可能です。

    3. ファイルの選択後、その内容をエンリッチメント構成にアップロードするには、「アップロード」をクリックします。

      語の抽出エンリッチメント用のファイルの選択
  5. 無視する語を手動で入力するには、次の手順を実行します。
    1. 「語の入力」ラジオ・ボタンをクリックします。
    2. 語を入力するには、「編集」ボタンをクリックします。

      無視する語を指定したファイルを以前にアップロードしたことがある場合は、そのファイルの内容が「ブラックリストの語」ダイアログの上部に表示され、ファイル名がコメントとして付加されます。


      アップロード済のファイルの内容を示す「ブラックリストの語」ダイアログ
    3. 語を入力します。語は1行に1つずつ入力してください。
    4. 語の入力が終了したら、「適用」をクリックします。
  6. 「出力」オプションで、次の手順を実行します。
    1. 「出力属性」フィールドに、抽出した語を移入する属性の名前を入力します。
      値がNCName対応である場合は、入力した値が属性キー名と表示名の両方に使用されます。値がNCName対応でない場合は、次のようになります。
      • 入力した値は表示名に使用されます。
      • キー名については、空白や特殊文字を削除することなどによって、入力した値を調整し、NCName対応のキー名を作成してください。

      Studioでも、既存の属性が上書きされるのを回避するために、キー名が一意になるように調整されます。

      また、エンリッチメントの実行後に出力属性の名前を変更すると、エンリッチメントの次回実行時に、新規出力属性が作成されます。元の出力属性は維持され、変更されません。

    2. 抽出した語の大/小文字を変更するには、「出力値の大/小文字の変更」チェック・ボックスを選択し、使用する文字のラジオ・ボタンをクリックします。

      語の抽出エンリッチメントの出力設定

      この設定は、大文字表記がサポートされている言語のデータにのみ適用されます。