このトピックでは、Big Data Discoveryを使用した新しいデータのプロファイリングとエンリッチメントの方法について概要を説明します。
データ統合テクノロジを使用して新しいデータをHDFSのファイルとして追加できます。Studioを使用してファイル(ExcelやCSVなど)をアップロードしたり、資格証明を使用してデータベースからデータを取得して、HDFSの個人用サンドボックスにインポートすることもできます。どちらのケースでも、Big Data Discoveryによって次のアクティビティが実行されます。
- データ・タイプの推測、内容の分類、値分布の理解など、データのプロファイリングを行います。
- 関心の高いデータ・セットから順にリストし、何が含まれているかを示します。
- プロファイル情報を追加して、メタデータをデータに付加します。
- 用語、場所、センチメントおよびトピックを抽出し、それらを新しいデータとしてHDFSに格納することで、データのエンリッチメントを行います。
- 指定したサイズのデータのランダム・サンプルを採取します。(サンプル・サイズを増加したり、完全なデータをロードできます。)
- データに索引を付けて、BDDでの高速検索と分析のために準備します。
結果として、必要なデータがHDFSに格納され、Dgraphによって索引付けされ、BDDによるエンリッチメントが行われました。これで、調査と分析の準備が整いました。