データ・エンリッチメント・モジュールを使用すると、データのコンテンツ内の価値を発見することによってデータの利用性を向上させることができます。
データ・エンリッチメント・パッケージにバンドルされているのは、モジュールのコレクションと、これらのモジュールをデータの列に関連付けるロジックです(たとえば、アドレス列が検出され、GeoTaggerモジュールと関連付けられます)。
データ処理操作のサンプリング・フェーズ中、データ・エンリッチメント・モジュールの一部が自動的に実行されますが、他のモジュールは実行されません。(ユーザーは、実行するモジュールと実行しないモジュールを構成できません。)ただし、ユーザーは、Studioの「変換」ページから任意のモジュールを実行できます。
データ処理がHive表に対して実行されている場合、自動実行されるデータ・エンリッチメント・モジュールの入力はサンプリング・ステージで事前にスクリーニングされます。たとえば、IPアドレスのみがIPアドレスGeoTaggerモジュールに渡されます。
すべてのデータ・エンリッチメント・モジュールにより、レコードの主キー属性と、データ型がそのモジュールに対して不適切な属性の両方が無視されます。たとえば、エンティティ・エクストラクタは文字列属性に対してのみ機能するため、数値属性は無視されます。
データ処理が終了したら、これらの任意のモジュールをStudioの「変換」ページから手動で実行できます。
サポートされている言語は、モジュールごとに固有です。詳細は、モジュールに関するトピックを参照してください。
出力属性のタイプおよび名前は、モジュールごとに固有です。出力属性の詳細は、モジュールに関するトピックを参照してください。