このトピックでは、Big Data Discoveryを使用した新しいデータのプロファイリングとエンリッチメントの方法について概要を説明します。
ITユーザーの場合は、任意のデータ統合テクノロジを使用して新しいデータをHDFSのファイルとして追加できます。エンド・ユーザーの場合は、Studioを使用してファイル(ExcelやCSVなど)をアップロードできます。または、資格証明を使用してデータベースからデータを取得して、HDFSの個人用サンドボックスに入れることもできます。どちらのケースでも、Big Data Discoveryによって次のアクティビティが実行されます。
- タイプの推測、内容の分類、値分布の理解など、データのプロファイリングを行います。
- 関心の高いデータ・セットから順にリストし、何が含まれているかを示します。
- プロファイル情報を追加して、メタデータをデータに付加します。
- 用語、場所、センチメントおよびトピックを抽出し、それらを新しいデータとしてHDFSに格納することで、データのエンリッチメントを行います。
- 指定したサイズのデータのランダム・サンプルを採取します。
- データに索引を付けて、BDDでの高速検索と分析のために準備します。
結果として、必要なデータがHDFSに格納され、Dgraphによって索引付けされ、BDDによるエンリッチメントが行われました。これで、調査と分析の準備が整いました。