データ処理では、一連のプロセスおよびジョブをまとめて参照しますが、これらはすべて、Big Data DiscoveryがデプロイされたときにBig Data Discoveryによって起動されたものです。これらのプロセスの多くはHadoopで実行され、ソース・データの検出、サンプリング、プロファイリングおよびエンリッチメントを実行します。
これらのトピックの詳細は、次を参照してください。
データ処理ワークフローは、(Hive表の作成によって) Studioから起動するか、データ処理CLI (コマンド行インタフェース)ユーティリティを実行することによって起動します。Hadoopシステム管理者として、データ処理ワークフローの一部は制御できます。
データの処理中、Big Data Discoveryは、Hive表内のデータを検出し、エンリッチメントを使用してデータ・セットのサンプリングおよび初期データのプロファイリングを実行します。
非常に大きいスケールでデータを処理すると、遅延が発生し、データ分析のインタラクティブ性が損なわれます。Big Data Discoveryでこれらの問題を回避するには、HDFS内で検出された大きい表からサンプリングされたレコードのサブセットを処理します。サンプル・データを完全表のプロキシとして使用することにより、完全セットを使用しているかのようにデータを分析できます。
データの処理中、データのランダム・サンプルが採取されます。デフォルトのサンプル・サイズは百万個のレコードです。管理者はサンプル・サイズを調整できます。
プロファイリングは、データ処理時にBig Data Discoveryによって検出されたソースHive表ごとに、Hive表内の特性(列)を確認するプロセスです。
Studioの「検索」を使用すると、属性の値またはタイプの分布をより深く調べることができます。後で、「変換」を使用してこれらのメタデータの一部を変更できます。たとえば、null属性値を実際の値に置き換えたり、他の不一致を修正できます。
エンリッチメントは、用語、場所、使用言語、センチメントおよびビューなどのデータ・セットの追加情報から導出されます。Big Data Discoveryでは、検出データ・セットごとに役に立つエンリッチメントを確認し、データのサンプルに対してこれらを自動的に実行します。自動的に適用されたエンリッチメントの結果として、地理データ、検出された言語の提案、または正負のセンチメントなどの、導出された追加メタデータ(列)がデータ・セットに追加されます。
データ・セットはこの追加情報とともにStudioの「カタログ」に表示されます。これにより、検出された各データ・セットに対する初期の洞察を得ることができ、そのデータ・セットがさらなる調査および分析の有用な候補であるかどうかを決定できます。
自動的に適用されたエンリッチメント以外にも、Studioの「変換」を使用してプロジェクト・データ・セットに対してエンリッチメントを適用することもできます。「変換」で、エンリッチメントのタイプごとにパラメータを構成できます。この場合、エンリッチメントは単純に、使用可能な変換の別のタイプです。
一部のエンリッチメントを使用すると、導出された別の意味をデータ・セットに与えることができ、他のエンリッチメントでは、無効な値や一貫性のない値に対応できます。
変換は、データのロード・プロセスの前またはプロセス中にデータをクリーニングするETLプロセスの代替方法だと見なすことができます。変換を使用すると、既存の属性を上書きしたり、新しい属性を作成できます。
ほとんどの変換は、Studioの「変換」の特定のオプションとして直接使用できます。一部の変換はエンリッチメントです。
カスタム変換オプションを使用すると、Groovyスクリプト言語と、Big Data Discoveryで使用可能な事前定義済のカスタムGroovy関数のリストを使用して、変換式を作成できます。
分析の結果はBig Data DiscoveryからHDFS/Hiveにエクスポートでき、これは、HDFSへのエクスポートと呼ばれます。
Big Data Discoveryの観点からは、このプロセスは、Big Data DiscoveryからHDFS/Hiveへのファイルのエクスポートに関するものです。HDFSの観点からは、作業の結果をBig Data DiscoveryからHDFSにインポートしていることになります。Big Data Discoveryでは、HDFSへのエクスポートおよびHDFSからのインポートはDgraph HDFSエージェントが担当します。