BDDのデータ・セットは「BDDデータ・セット」と呼ばれます。 これは、Hive表内で、「ソース・データ・セット」と区別するのに役立ちます。
BDDデータ・セットは、製品アーキテクチャの中心的な概念です。 BDDのデータ・セットは、次のソースから生成されます:
- 多くのデータ・セットは、データをロードするデータ処理ワークフローの結果としてロードされます。 Big Data Discoveryのインストール後、DP CLIを起動すると実行されます。 このプロセスにより、データ・セットがStudioカタログに追加されます。
- 他のデータ・セットは、個人ファイルまたはJDBCデータ・ソースからロードされるため、Studioに表示されます。
- また、既存のデータ・セットを変換したり、データ・セットをHDFSに新しいHive表としてエクスポートすることで、新しいBDDデータ・セットを作成することもできます。 そのようなデータ・セットは「導出されたデータ・セット」と呼ばれます。
データ処理コンポーネントでデータ・ロードが実行されるか、またはJDBCソースからファイルまたはデータをアップロードしてデータ・セットを追加すると、Studioカタログに表示されます。 「プレビュー」を使用して、カタログのすべてのデータ・セットの詳細を確認できます。
また、Studio 「データ・セット・マネージャ」を使用して、プロジェクト内のすべてのデータ・セットに関する情報を表示することもできます。 プロジェクト内の各データ・セットについて、レコード数、追加日時、非公開かどうか、その他の詳細を表示できます。