プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

データ・エンリッチメント・モジュールについて

データ・エンリッチメント・モジュールでは、コンテンツの値を検出することでデータのユーザビリティが向上します。

データ・エンリッチメント・パッケージでバンドルされるのは、モジュールと、これらのモジュールをデータの列に関連付けるロジックのコレクションです(たとえば、アドレス列を検出してGeoTaggerモジュールに関連付けることができます)。

データ処理ワークフローのサンプリング・フェーズ中に、一部のデータ・エンリッチメント・モジュールが自動的に実行され、その他のモジュールは実行されません。 DP CLIでワークフローを実行する場合は、--excludePluginsフラグを使用して実行してはならないモジュールを指定できます。

データ・セットを作成した後、Studioの「変換」ページから任意のモジュールを実行できます。

入力の事前スクリーニング

データ処理がHive表に対して実行されている場合、実行されるデータ・エンリッチメント・モジュールでは、サンプリング・ステージで画面前に入力されたものが自動的に取得されます。 たとえば、IPアドレスのGeoTaggerモジュールにはIPアドレスしか渡されません。

無視される属性

すべてのデータ・エンリッチメント・モジュールで、レコードのプライマリ・キー属性と、そのモジュールでデータ型が不適切な属性の両方が無視されます。 たとえば、エンティティ・エクストラクタは文字列属性に対してのみ機能し、数値属性は無視されます。 また、自動エンリッチメントの場合、複数割当属性は無視されます。

モジュールのサンプリング戦略

データ処理を実行するとき(たとえば、データ収集全体で)、各モジュールは、サンプリング・フェーズ中に次の条件でのみ実行されます:
  • エンティティ: 自動的には実行されません。
  • TF-IDF: テキストに35から30,000のトークンが含まれる場合にのみ実行されます。
  • センチメント分析(ドキュメント・レベルとサブ・ドキュメント・レベルの両方) : 自動で実行されない
  • Address GeoTagger: 整形式のアドレスでのみ実行されます。 (City/Region/Sub-Region/Country)では、GeoTaggerサブ・モジュールは自動的に実行されません。
  • IPアドレスGeoTagger: IPV4タイプのアドレスのみで実行されます(プライベートIPアドレスに対しては実行されず、IPV6タイプのアドレスに対しては自動的に実行されません)。
  • GeoTaggerのリバース: 有効なジオコード書式でのみ実行されます。
  • ボイラープレート取り外し: 自動的には実行されません。
  • タグ・ストライプ数: 自動的には実行されません。
  • 音声ハッシュ: 自動的には実行されません。
  • 言語の検出: 入力テキストが30語以上の場合にのみ実行されます。 このモジュールは、30から30,000のトークンの範囲のトークンに対して使用できます。

データ処理ワークフローが終了したときに、「変換」からStudioの任意のモジュールを手動で実行できることに注意してください。

サポートされている言語

サポートされている言語は、各モジュールに固有です。 詳細は、モジュールのトピックを参照してください。

出力属性名

出力属性のタイプと名前は、各モジュールに固有です。 出力属性の詳細は、モジュールのトピックを参照してください。

データ・エンリッチメントのロギング

データ・エンリッチメント・モジュールがワークフローで実行されている場合、それらはYARNログの一部としてログに記録されます。 ログ・エントリには、どのモジュールが実行されたか、およびモジュールによって作成された列(属性)が記述されています。

たとえば、多数のジオコード値を含むデータセットは、次のログ・エントリを生成できます:
Running enrichments (if any)..
generate plugin recommendations and auto enrich transform script
TOTAL AVAILABLE PLUGINS: 12
SampleValuedRecommender::Registering Plugin: AddressGeoTaggerUDF
SampleValuedRecommender::Registering Plugin: IPGeoExtractorUDF
SampleValuedRecommender::Registering Plugin: ReverseGeoTaggerUDF
SampleValuedRecommender::Registering Plugin: LanguageDetectionUDF
SampleValuedRecommender::Registering Plugin: DocLevelSentimentAnalysisUDF
SampleValuedRecommender::Registering Plugin: BoilerPlateRemovalUDF
SampleValuedRecommender::Registering Plugin: TagStripperUDF
SampleValuedRecommender::Registering Plugin: TFIDFTermExtractorUDF
SampleValuedRecommender::Registering Plugin: EntityExtractionUDF
SampleValuedRecommender::Registering Plugin: SubDocLevelSentimentAnalysisUDF
SampleValuedRecommender::Registering Plugin: PhoneticHashUDF
SampleValuedRecommender::Registering Plugin: StructuredAddressGeoTaggerUDF
valid input string count=0, total input string count=101, success ratio=0.0
AddressGeotagger won't be invoked since the success ratio is < 80%
SampleValuedRecommender: --- [ReverseGeoTaggerUDF] plugin RECOMMENDS column: [latlong] for Enrichment, based on 101 samples
SampleValuedRecommender: --- new enriched column 'latlong_geo_city' will be created from 'latlong'
SampleValuedRecommender: --- new enriched column 'latlong_geo_country' will be created from 'latlong'
SampleValuedRecommender: --- new enriched column 'latlong_geo_postcode' will be created from 'latlong'
SampleValuedRecommender: --- new enriched column 'latlong_geo_region' will be created from 'latlong'
SampleValuedRecommender: --- new enriched column 'latlong_geo_subregion' will be created from 'latlong'
SampleValuedRecommender: --- new enriched column 'latlong_geo_regionid' will be created from 'latlong'
SampleValuedRecommender: --- new enriched column 'latlong_geo_subregionid' will be created from 'latlong'

この例では、リバースGeoTaggerにより7列が作成されています。