この項では、新しいデータがロードされるときにBDDのデータ処理コンポーネント内で実行されるワークフローについて説明します。
このトピックで示すデータ処理ワークフローは、データのロード用で、多数のワークフローの候補の1つです。 このワークフローには、すでにロードされている更新データは表示されません。 リフレッシュおよび増分更新操作の実行の詳細は、「データ・セットの更新」を参照してください。
Studio (Hive表を作成する)から、またはデータ処理CLI (Command Line Interface)ユーティリティを実行して、新しいデータをロードするためのデータ処理ワークフローを起動します。 Hadoopシステム管理者は、このワークフローの一部のステップを制御でき、他のステップはHadoopで自動的に実行されます。
次の図は、新しいデータをロードするためのデータ処理ワークフローがBig Data Discoveryでどのように適合するかを示しています:
要約すると、初期のデータ・ロード中に、Big Data Discoveryのデータ処理コンポーネントでHive表のデータがカウントされ、オプションで「データ・セットのサンプリング」を実行します。 次に、初期データ・プロファイリングを実行し、いくつかのエンリッチメントを適用します。 このトピックでは、これらのステージについて説明します。
データ・セットのサンプリング
データ処理では常にサンプリングが実行されるわけではなく、BDDデプロイメント中に使用されるデフォルトのサンプル・サイズよりもソース・データ・セットのレコードが多い場合にのみ、サンプリングが発生します。 デプロイメント時に使用されるデフォルトのサンプル・サイズは、百万レコードです。 後でデータ処理ワークフローを独自に実行する際に、コマンドライン・インタフェース(DP CLI)を使用して、デフォルトのサンプル・サイズをオーバーライドし、独自のものを指定できます。
注意:
ソース・データ・セットのレコード数がサンプル・サイズに指定された値より少ない場合、サンプリングは行われず、データ処理によりソース・データが完全にロードされます。これらの要件をデータ・サンプルの大きい絶対サイズと組み合せると、Big Data Discoveryで取得されたサンプルによって、データのコーパス全体で信頼できる汎化が可能になります。
データ・セットのプロファイリング
「プロファイリング」は、データ・ロード中にBig Data Discoveryのデータ処理で検出された各ソースHive表に関して、Hive表内の特性(列)を決定するプロセスです。
「探索」をStudioで使用すると、属性値またはタイプの分布を深く調べることができます。 これらのメタデータの一部は、「変換」を使用して後で変更できます。 たとえば、Null属性値を実際の値に置換したり、その他の非一貫性を修正できます。
エンリッチメント
「エンリッチメント」は、データ・セットの追加情報(用語、ロケーション、使用言語、センチメント、ビューなど)から導出されます。 Big Data Discoveryは、検出された各データ・セットにどのエンリッチメントが有用であるかを判別し、それらをデータのサンプルに対して自動的に実行します。 自動的に適用されたエンリッチメントの結果、追加の派生メタデータ(列)がデータ・セットに追加されます(地理データ、検出された言語の提案、ポジティブまたはネガティブなセンチメントなど)。
この追加情報を含むデータ・セットは、「カタログ」 in Studioに表示されます。 これにより、検出された各データ・セットに関する初期インサイトが提供され、さらに探索や分析のためにデータ・セットが有益な候補であるかどうかを判断できます。
プロジェクト・データ・セットに対して、自動適用されたエンリッチメントに加え、Studioで「変換」を使用してエンリッチメントを適用することもできます。 「変換」から、エンリッチメントのタイプごとにパラメータを構成できます。 この場合、エンリッチメントは、単に別のタイプの使用可能な変換です。
エンリッチメントには、導出された追加の意味をデータ・セットに追加できるものや、無効または一貫性のない値に対処できるものがあります。
変換
変換は、データ・ロード・プロセスの前または途中でデータをクレンジングするETLプロセスのかわりとみなすことができます。 場合によっては、既存の属性を上書きするか、新しい属性を作成するために変換を使用します。 一部の変換はエンリッチメントであるため、データがロードされるときに自動的に適用されます。
ほとんどの変換は、Studioの「変換」で特定のオプションとして直接使用できます。 データがロードされると、事前定義済の変換機能のリストを使用して変換スクリプトを作成できます。
データ・セットの集計や結合など、BDDで使用可能な変換の完全なリストは、「Studioユーザー・ガイド」を参照してください。
Big Data DiscoveryからHDFSへのデータのエクスポート
分析結果をBig Data DiscoveryからHDFS/Hiveにエクスポートできます。これを、「HDFSへのエクスポート」と呼びます。
Big Data Discoveryからは、ファイルをBig Data DiscoveryからHDFS/Hiveにエクスポートするプロセスについて説明しています。 HDFSのパースペクティブから、Big Data DiscoveryからHDFSに作業結果をインポートしています。 Big Data Discoveryでは、「Dgraph HDFSエージェント」はHDFSへのエクスポートおよびHDFSからのインポートを担当しています。