StudioはBig Data Discoveryのビジュアル・フェイスです。 これによって、探索的なデータ分析が可能になり、「探索」、「変換」およびDiscoverの各領域の構造化されます。
カタログでは、以前に作成したプロジェクト、または他のユーザーが共有しているプロジェクトを検索できます。 Hiveデータ・ベース内で検出されたデータ・セット、または他のユーザーがファイルからアップロードしたか外部JDBCデータ・ソースからインポートしたデータ・セットを参照することもできます:
次に、他のユーザーが作成したDiscoverページがない場合、最初のデータ・セットの「探索」ページが開きます。 Discoverページがすでに他のユーザーによって作成されている場合は、最初のDiscoverページが開きます。
「探索」に移動する場合は、さらに探索するデータ・セットを選択し、データ・プロファイリングおよびエンリッチメントの結果を使用して、基本的なデータ特性を把握できます。 たとえば、外れ値を検索できます。 外れ値は、属性の他の値から離れた値です。 また、散布図を調べて、2つの属性の値間の相関、またはリンク・データ・セットを調べることもできます。
データ・セットがプロジェクトに含まれると、「探索」を引き続き使用できます。
その後、データを変換して非一貫性を削除する「変換」に移動できます。 たとえば、データ型を変更したり、カスタム変換スクリプトを作成できます。