このトピックでは、Big Data Discoveryが新しいデータのプロファイリングおよびエンリッチにどのように役立つかを要約します。
データ統合テクノロジを使用して、HDFS内のファイルとして新しいデータを追加できます。 また、Studioを使用して、ExcelやCSVなどのファイルをアップロードしたり、資格証明を使用してデータベースからデータをプルしたり、HDFSの個人用サンドボックスにインポートしたりすることもできます。 いずれの場合も、データがロードされると、Big Data Discoveryでは次のアクティビティが実行されます:
- データのプロファイリング、データ型の推測、コンテンツの分類および値分布の理解を行います。
- 関心の高いデータ・セットを最初にリストし、その内容を示します。
- プロファイル情報を追加して、メタデータでデータをデコードします。
- 語、ロケーション、センチメントおよびトピックを抽出し、HDFSに新しいデータとして格納することでデータをエンリッチします。
- 指定されたサイズのデータのランダムなサンプルを取得します。 (サンプル・サイズを大きくしたり、データ全体をロードできます。)
- データに索引を付け、BDDの高速検索および分析のためにデータを準備します。
結果として、必要なデータはHDFSに格納され、Dgraphによって索引付けされてBDDによってエンリッチされ、検査と分析の準備が整います。