Studioのデータ・セット・ライフサイクル

Big Data Discoveryを介したデータ・セットの流れとして、それがどのように動作するかを把握することが有用です。

データ・セット・ライフサイクルについて説明する前に、BDDがHive内で見つかったソース・データ・セットとどのように相互作用するかを示します:

BDDは、ソースHive表の更新や削除を行いません。 BDDが実行される場合は、BDDデータ・セットを表すために、新規のHive表のみが作成されます。このようにして、Big Data Discoveryの外部で使用する場合、ソースHive表はそのまま保持されます。
BDDデータ・セット・ライフサイクルのほとんどのアクションは、ユーザーが選択すると実行されます。実行する処理を制御します。 BDD内の索引付けは、自動的に実行されるステップです。

この図は、データ・セット・ライフサイクルがBDD内を流れるステージを示しています:

Big Data Discoveryを通るデータ・セット・ライフサイクル

この図では、データ・セットは次のステージに移動します:

データ・セットの「作成」。 BDDのデータ・セットは、次のいずれかの方法で作成します:
- Studioを使用してソース・データをアップロードしています。デリミタ付きファイルでソース・データをアップロードし、JDBCデータ・ソースからアップロードできます。ソース・データをアップロードすると、BDDはソース・データ・ファイルに基づいて、対応するHiveソース表を作成します。
- データ処理CLIを実行し、Hiveの表を検出し、ソースHiveの表に基づいてStudioでデータ・セットを作成します。各ソースのHive表には、Studioの対応するデータ・セットがあります。
Studioのデータ・セットのカタログには、2つのタイプのデータ・セットが表示されます。個人的にロードされるファイルまたはJDBCソースを基にしたデータ・セットもあります。その他のデータ・セットは、ソースHive表からのデータ処理によってロードされます。
必要に応じて、「エンリッチ」データ・セットを選択できます。データ処理ワークフローのデータ・エンリッチメント・ステップでは、データ・セットをサンプリングし、これに対してデータ・エンリッチメント・モジュールを実行します。たとえば、次のエンリッチメント・モジュールを実行できます: 言語検出、用語頻度/逆ドキュメント頻度(TF/IDF)、ジオコーディング・アドレス、ジオコーディングIPおよびリバース・イメージ。データ・エンリッチメント・プロセスの結果は、Studioのデータ・セットに格納され、Hiveの表には格納されません。

注意:
BDDのデータ処理(DP)コンポーネントでは、オプションでデータ・セットの作成の一部としてこのステップが実行されます。
データ・セットの「索引の作成」。 Dgraphプロセスを実行すると、データ・セット(およびその他の構成)を表すDgraphデータベースと呼ばれるバイナリ・ファイルが作成されます。 Dgraphは、Studio問合せに応答して各データ・セットのデータベースにアクセスします。これで、データ・セットを探索できます。
データ・セットに対する「管理」アクセス権。データ・セットをアップロードした場合、そのデータ・セットへのプライベート・アクセス権があります。これを変更して他のユーザーにアクセス権を付与できます。 Hiveが起点とするデータ・セットはパブリックです。 Studio管理者はこれらの設定を変更できます。
データ・セットの「変換」。これを行うには、「変換」の様々な変換オプションを使用します。さらに、新しいデータ・セットを作成し(これにより新しいHive表が作成されます)、変換スクリプトをコミットして既存のデータ・セットを変更できます。
変換スクリプトの変更をコミットすると、Studioによって変更がDgraphに書き込まれ、変更内容がデータ・セット用のDgraphデータベースに格納されます。 Studioでは、データ・セットの新しいHive表は作成されません。 Dgraphのデータ・セットを変更しようとしていますが、ソースHive表自体は変更できません。
データ・セットの「更新」。データ・セットを更新するには、いくつかのオプションがあります。たとえば、個人データファイルからデータ・セットをロードした場合、またはJDBCソースからインポートした場合は、カタログにあるこのデータ・セットの新しいバージョンを再ロードできます。データ・セットがHiveからロードされた場合は、DP CLIを使用してデータ・セットのデータをリフレッシュできます。
「完全データ・セットのロード」を使用することもできます。このオプションは、サンプルを表すデータ・セットに役立ちます。データ・セットがプロジェクトに含まれる場合は、DP CLIを使用した増分更新用のデータ・セットも構成できます。
データ・セットの「エクスポート」。データ・セットがプロジェクト内にある場合は、それをエクスポートできます。たとえば、変換を適用した後で、データ・セットをHDFSにエクスポートできます。これにより、他のツールを使用してこのデータ・セットの操作を続行できます。また、データ・セットをエクスポートして、カタログで新しいデータ・セットを作成することもできます。この図で「エクスポート」が最後のステップとして表示されている場合でも、データ・セットをプロジェクトに追加した後で、ライフサイクルの任意のステージでデータ・セットをエクスポートできます。
データ・セットの「共有」。データ・セット・ライフサイクルのどのステージでも、データ・セットを他のユーザーと共有できます。
データ・セットの「削除」。 Studioからデータ・セットを削除すると、データ・セットはカタログから削除され、Studioでアクセスできなくなります。ただし、データ・セットを削除しても、このデータ・セットをロードすると、BDDによって作成された対応するソースHive表は削除されません。
BDDは元のソースHive表を更新または削除しない点に注意してください。 BDDは、BDDデータ・セットを表す新規のHive表を作成するのみです。 Hiveデータ・ベース・クリーンを保持するために、必要に応じて、古い表を削除するようHiveデータ・ベース管理者に依頼することが必要な場合があります。 Hiveデータ・ベース管理者がデータ・ベースからHive表を削除すると、Hive表Detectorは表が削除されたことを検出し、対応するデータ・セットをStudioのカタログから削除します。 Hive Table Detectorは、BDDのデータ処理コンポーネントのユーティリティです。