データ・フローの理解

このトピックでは、Big Data Discoveryにおけるデータ・セットのライフ・サイクルの概要を説明します。

データ・フローの説明を始める前に、考慮事項を次に示します。
BDDにおけるデータ・フローのステップの概要は次のとおりです。
  1. データ・セットを作成します。次の2つの方法のどちらかを使用してBDDのデータ・セットを作成します。
    • Studioを使用してソース・データをアップロードします。このリリースでは、MS ExcelまたはCSVファイルのソース・データをアップロードできます。ソース・データをアップロードすると、BDDは、ソース・データ・ファイルに基づいて対応するHiveソース表を作成します。
    • データ処理CLIを実行して、Hive表を検出し、ソースHive表に基づいてStudioにデータ・セットを作成します。ソースHive表ごとに、対応するデータ・セットがStudioに作成されます。データ処理CLIの使用方法の詳細は、データ処理ガイドを参照してください。

    Studioでデータ・セットの「カタログ」には、ファイルに基づくものもソースHive表に基づくものも、すべてのデータ・セットが表示されます。

  2. 必要であれば、データ・セットの処理を選択することもできます。データ・エンリッチメント・プロセスは、データ・セットをサンプリングして、それに対して適切なデータ・エンリッチメント・モジュールを実行します。これには、言語検出、語の抽出、住所のジオコーディング、IPのジオコーディング、逆ジオタガーの各モジュールが含まれます。データ・エンリッチメント・プロセスの結果は、Hive表ではなくデータ・セットに格納されます。

    BDDのデータ処理コンポーネントはライフ・サイクルのこのフェーズをデータ・セット作成の一部として実行しますが、必要な場合に有効化できる個別の論理プロセスとしてこのステップを呼び出すこともでき便利です。

  3. データ・セットのインデックス付けを行います。次に、Dgraphプロセスが、データセット(およびその他の構成)を表すバイナリ索引ファイルを作成します。Dgraphが索引ファイルにアクセスして、Studioの問合せに応答します。
  4. データ・セットを変換します。Studioを使用する際にデータ・セットのライフ・サイクルに影響する操作は2つあります。新しいデータ・セットの作成と、データ・セットを変更する変換スクリプトのコミットです。どちらの操作も「変換」から実行できます。新しいデータ・セットの作成では、文字通り新しいHive表が作成されます。

    変換スクリプトの変更をコミットすると、Studioによって変更内容がDgraphに書き込まれ、変更内容がDgraphの索引に格納されます。ただし、Studioによって、データ・セットに対応する新しいHive表は作成されません。ソース表そのものではなく、Dgraph内のデータ・セットを変更します。

  5. データ・セットを削除します。Studioでデータ・セットを削除すると、データ・セットが「カタログ」から削除されるため、Studioではアクセスできなくなります。ただし、データ・セットを削除しても、そのデータ・セットが基づいている対応するソースHive表は削除されません。

    Hiveデータベース管理者がデータベースからHive表を削除した場合、BDDは表が削除されたことを検出し、対応するデータ・セットをStudioの「カタログ」から削除します。

    BDDではソースのHive表の更新または削除は行われないことに注意してください。BDDでは、新しいデータ・セットを表す新しい表が作成されるのみです。(場合によっては、データベースをクリーンに保つためにHiveデータベース管理者に古い表の削除を依頼する必要があります。)