データ・エンリッチメント・モジュールについて

データ・エンリッチメント・モジュールを使用すると、データのコンテンツ内の価値を発見することによってデータの利用性を向上させることができます。

データ・エンリッチメント・パッケージにバンドルされているのは、モジュールのコレクションと、これらのモジュールをデータの列に関連付けるロジックです(たとえば、アドレス列が検出され、GeoTaggerモジュールと関連付けられます)。

データ処理操作のサンプリング・フェーズ中、データ・エンリッチメント・モジュールの一部が自動的に実行されますが、他のモジュールは実行されません。(ユーザーは、実行するモジュールと実行しないモジュールを構成できません。)ただし、ユーザーは、Studioの「変換」ページから任意のモジュールを実行できます。

入力の事前スクリーニング

データ処理がHive表に対して実行されている場合、自動実行されるデータ・エンリッチメント・モジュールの入力はサンプリング・ステージで事前にスクリーニングされます。たとえば、IPアドレスのみがIPアドレスGeoTaggerモジュールに渡されます。

無視される属性

すべてのデータ・エンリッチメント・モジュールにより、レコードの主キー属性と、データ型がそのモジュールに対して不適切な属性の両方が無視されます。たとえば、エンティティ・エクストラクタは文字列属性に対してのみ機能するため、数値属性は無視されます。

モジュールのサンプリング戦略

データ処理が(たとえば、フル・データ収集中に)実行される場合、各モジュールはサンプリング・フェーズ中に次の条件下でのみ実行されます。
  • エンティティ: 自動実行されません。
  • TF-IDF: 35から30,000のトークンがテキストに含まれる場合のみ。
  • センチメント分析(ドキュメント・レベルとサブドキュメント・レベルの両方): 自動実行されません。
  • 住所GeoTagger: 正しい形式の住所でのみ実行されます。GeoTaggerのサブモジュール(市区町村/地域/サブ地域/国)は実行されません。
  • IPアドレスGeoTagger: IPV4でのみ実行されます(プライベートIPアドレスでは実行されず、IPV6は自動的にエンリッチされません)。
  • リバースGeoTagger: 有効な地域コード形式でのみ実行されます。
  • ボイラープレート削除: 自動実行されません。
  • タグ・ストリッパ: 自動実行されません。
  • 音声ハッシュ: 自動実行されません。
  • 言語検出: 入力テキストの長さが少なくとも30語である場合のみ。このモジュールは、30から30,000個の範囲内のトークンに対して有効です。

データ処理が終了したら、これらの任意のモジュールをStudioの「変換」ページから手動で実行できます。

サポートされている言語

サポートされている言語は、モジュールごとに固有です。詳細は、モジュールに関するトピックを参照してください。

データ・エンリッチメント・モジュールは:
  • 英語(イギリス/アメリカ合衆国)
  • フランス語
  • ドイツ語
  • イタリア語
  • ポルトガル語(ブラジル)
  • スペイン語

出力属性名

出力属性のタイプおよび名前は、モジュールごとに固有です。出力属性の詳細は、モジュールに関するトピックを参照してください。