BDDのデータ・セットは、BDDデータ・セットと呼ばれます。これにより、Hive表のソース・データ・セットと区別することができます。
BDDデータ・セットは、製品アーキテクチャの中心的な概念です。BDDのデータ・セットのソースは次のとおりです。
- 多くのデータ・セットは、データ・ロードのデータ処理ワークフローの結果としてロードされます。これは、Big Data Discoveryのインストール後にDP CLIを起動すると実行されます。このプロセスにより、データ・セットがStudioの「カタログ」に追加されます。
- 他のデータ・セットは、個人ファイルまたはJDBCデータ・ソースからロードするため、Studioに表示されます。
- また、既存のデータ・セットを変換するか、データ・セットを新しいHive表としてHDFSにエクスポートすることで、新しいBDDデータ・セットを作成することもできます。このようなデータ・セットは導出されたデータ・セットと呼ばれます。
データ処理コンポーネントによってデータ・ロードが実行されるか、ファイルまたはデータをJDBCソースからアップロードしてデータ・セットを追加すると、Studioの「カタログ」に表示されます。「プレビュー」を使用すると、すべてのデータ・セットの詳細を「カタログ」で確認できます。
「データ・セット・マネージャ」を使用して、すべてのデータ・セット・プロジェクトの情報を確認することもできます。レコードが追加された場合、そのレコードが自分以外には非公開であるかどうかに関係なく、プロジェクトのデータ・セットごとに、そのレコード数およびその他の詳細を確認できます。