データ処理について

データ処理では、一連のプロセスおよびジョブをまとめて参照しますが、これらはすべて、Big Data DiscoveryがデプロイされたときにBig Data Discoveryによって起動されたものです。これらのプロセスの多くはHadoopで実行され、ソース・データの検出、サンプリング、プロファイリングおよびエンリッチメントを実行します。

データ処理ワークフロー

データ処理ワークフローは、Big Data Discovery処理内のステージの1つで、次が含まれます。
  • Hive表内のソース・データの検出
  • データ・セットのサンプルのロードおよび作成
  • このデータ・セットに対する一連のエンリッチメントの選択的実行
  • データのプロファイリング
  • データ・セットの変換
  • Big Data DiscoveryからHadoopへのデータのエクスポート

これらのトピックの詳細は、次を参照してください。

データ処理ワークフローは、(Hive表の作成によって) Studioから起動するか、データ処理CLI (コマンド行インタフェース)ユーティリティを実行することによって起動します。Hadoopシステム管理者として、データ処理ワークフローの一部は制御できます。

データ・セットのサンプリング

データの処理中、Big Data Discoveryは、Hive表内のデータを検出し、エンリッチメントを使用してデータ・セットのサンプリングおよび初期データのプロファイリングを実行します。

非常に大きいスケールでデータを処理すると、遅延が発生し、データ分析のインタラクティブ性が損なわれます。Big Data Discoveryでこれらの問題を回避するには、HDFS内で検出された大きい表からサンプリングされたレコードのサブセットを処理します。サンプル・データを完全表のプロキシとして使用することにより、完全セットを使用しているかのようにデータを分析できます。

データの処理中、データのランダム・サンプルが採取されます。デフォルトのサンプル・サイズは百万個のレコードです。管理者はサンプル・サイズを調整できます。

データ・セットのプロファイリング

プロファイリングは、データ処理時にBig Data Discoveryによって検出されたソースHive表ごとに、Hive表内の特性(列)を確認するプロセスです。

プロファイリングは処理ワークフローによって実行され、その結果、データ・セットに関するメタデータ情報が作成されますが、これには次が含まれます。
  • 属性値分布
  • 属性タイプ
  • トピック
  • 分類
たとえば、特定のデータ・セットを構造化データ、ソーシャル・データまたは地理データのコレクションとして認識できます。

Studioの「検索」を使用すると、属性の値またはタイプの分布をより深く調べることができます。後で、「変換」を使用してこれらのメタデータの一部を変更できます。たとえば、null属性値を実際の値に置き換えたり、他の不一致を修正できます。

エンリッチメント

エンリッチメントは、用語、場所、使用言語、センチメントおよびビューなどのデータ・セットの追加情報から導出されます。Big Data Discoveryでは、検出データ・セットごとに役に立つエンリッチメントを確認し、データのサンプルに対してこれらを自動的に実行します。自動的に適用されたエンリッチメントの結果として、地理データ、検出された言語の提案、または正負のセンチメントなどの、導出された追加メタデータ(列)がデータ・セットに追加されます。

データ・セットはこの追加情報とともにStudioの「カタログ」に表示されます。これにより、検出された各データ・セットに対する初期の洞察を得ることができ、そのデータ・セットがさらなる調査および分析の有用な候補であるかどうかを決定できます。

自動的に適用されたエンリッチメント以外にも、Studioの「変換」を使用してプロジェクト・データ・セットに対してエンリッチメントを適用することもできます。「変換」で、エンリッチメントのタイプごとにパラメータを構成できます。この場合、エンリッチメントは単純に、使用可能な変換の別のタイプです。

一部のエンリッチメントを使用すると、導出された別の意味をデータ・セットに与えることができ、他のエンリッチメントでは、無効な値や一貫性のない値に対応できます。

変換

変換は、データ・セットに対する変更です。変換を使用すると、次のようなアクションを実行できます。
  • データ型の変更
  • 値の大文字と小文字の変更
  • 属性またはレコードの削除
  • 列の分割
  • 値のグループ化またはビン化
  • 値からの情報の抽出

変換は、データのロード・プロセスの前またはプロセス中にデータをクリーニングするETLプロセスの代替方法だと見なすことができます。変換を使用すると、既存の属性を上書きしたり、新しい属性を作成できます。

ほとんどの変換は、Studioの「変換」の特定のオプションとして直接使用できます。一部の変換はエンリッチメントです。

カスタム変換オプションを使用すると、Groovyスクリプト言語と、Big Data Discoveryで使用可能な事前定義済のカスタムGroovy関数のリストを使用して、変換式を作成できます。

Big Data DiscoveryからHDFSへのデータのエクスポート

分析の結果はBig Data DiscoveryからHDFS/Hiveにエクスポートでき、これは、HDFSへのエクスポートと呼ばれます。

Big Data Discoveryの観点からは、このプロセスは、Big Data DiscoveryからHDFS/Hiveへのファイルのエクスポートに関するものです。HDFSの観点からは、作業の結果をBig Data DiscoveryからHDFSにインポートしていることになります。Big Data Discoveryでは、HDFSへのエクスポートおよびHDFSからのインポートはDgraph HDFSエージェントが担当します。