データ・エンリッチメント・モジュールでは、コンテンツの値を検出することでデータのユーザビリティが向上します。
データ・エンリッチメント・パッケージでバンドルされるのは、モジュールと、これらのモジュールをデータの列に関連付けるロジックのコレクションです(たとえば、アドレス列を検出してGeoTaggerモジュールに関連付けることができます)。
データ処理ワークフローのサンプリング・フェーズ中に、一部のデータ・エンリッチメント・モジュールが自動的に実行され、その他のモジュールは実行されません。 DP CLIでワークフローを実行する場合は、--excludePluginsフラグを使用して実行してはならないモジュールを指定できます。
データ・セットを作成した後、Studioの「変換」ページから任意のモジュールを実行できます。
入力の事前スクリーニング
データ処理がHive表に対して実行されている場合、実行されるデータ・エンリッチメント・モジュールでは、サンプリング・ステージで画面前に入力されたものが自動的に取得されます。 たとえば、IPアドレスのGeoTaggerモジュールにはIPアドレスしか渡されません。
無視される属性
すべてのデータ・エンリッチメント・モジュールで、レコードのプライマリ・キー属性と、そのモジュールでデータ型が不適切な属性の両方が無視されます。 たとえば、エンティティ・エクストラクタは文字列属性に対してのみ機能し、数値属性は無視されます。 また、自動エンリッチメントの場合、複数割当属性は無視されます。
モジュールのサンプリング戦略
データ処理ワークフローが終了したときに、「変換」からStudioの任意のモジュールを手動で実行できることに注意してください。
サポートされている言語
サポートされている言語は、各モジュールに固有です。 詳細は、モジュールのトピックを参照してください。
出力属性名
出力属性のタイプと名前は、各モジュールに固有です。 出力属性の詳細は、モジュールのトピックを参照してください。
データ・エンリッチメントのロギング
データ・エンリッチメント・モジュールがワークフローで実行されている場合、それらはYARNログの一部としてログに記録されます。 ログ・エントリには、どのモジュールが実行されたか、およびモジュールによって作成された列(属性)が記述されています。
Running enrichments (if any).. generate plugin recommendations and auto enrich transform script TOTAL AVAILABLE PLUGINS: 12 SampleValuedRecommender::Registering Plugin: AddressGeoTaggerUDF SampleValuedRecommender::Registering Plugin: IPGeoExtractorUDF SampleValuedRecommender::Registering Plugin: ReverseGeoTaggerUDF SampleValuedRecommender::Registering Plugin: LanguageDetectionUDF SampleValuedRecommender::Registering Plugin: DocLevelSentimentAnalysisUDF SampleValuedRecommender::Registering Plugin: BoilerPlateRemovalUDF SampleValuedRecommender::Registering Plugin: TagStripperUDF SampleValuedRecommender::Registering Plugin: TFIDFTermExtractorUDF SampleValuedRecommender::Registering Plugin: EntityExtractionUDF SampleValuedRecommender::Registering Plugin: SubDocLevelSentimentAnalysisUDF SampleValuedRecommender::Registering Plugin: PhoneticHashUDF SampleValuedRecommender::Registering Plugin: StructuredAddressGeoTaggerUDF valid input string count=0, total input string count=101, success ratio=0.0 AddressGeotagger won't be invoked since the success ratio is < 80% SampleValuedRecommender: --- [ReverseGeoTaggerUDF] plugin RECOMMENDS column: [latlong] for Enrichment, based on 101 samples SampleValuedRecommender: --- new enriched column 'latlong_geo_city' will be created from 'latlong' SampleValuedRecommender: --- new enriched column 'latlong_geo_country' will be created from 'latlong' SampleValuedRecommender: --- new enriched column 'latlong_geo_postcode' will be created from 'latlong' SampleValuedRecommender: --- new enriched column 'latlong_geo_region' will be created from 'latlong' SampleValuedRecommender: --- new enriched column 'latlong_geo_subregion' will be created from 'latlong' SampleValuedRecommender: --- new enriched column 'latlong_geo_regionid' will be created from 'latlong' SampleValuedRecommender: --- new enriched column 'latlong_geo_subregionid' will be created from 'latlong'
この例では、リバースGeoTaggerにより7列が作成されています。