Studioは、Big Data Discoveryの視覚的インタフェースです。探索的データ分析が可能で、「検索」、「変換」および「検出」領域で構成されています。
「カタログ」では、以前に作成したプロジェクトまたは他のユーザーによって共有されるプロジェクトを検索できます。Hiveデータベースで検出されるデータ・セット、または他のユーザーがファイルからアップロードまたはJDBCデータ・ソースからインポートしたデータ・セットを参照することもできます。
次に、他のユーザーによって作成された「検出」ページがまだない場合、最初のデータ・セットの「検索」が開きます。他のユーザーによって「検出」ページがすでに作成されている場合、最初の「検出」ページが開きます。
「検索」に移動した場合、さらに検索するために関心のあるデータ・セットを選択し、データ・プロファイリングおよびエンリッチメントの結果を使用して、基本データ特性を把握できます。たとえば、外れ値を探すことができます。外れ値とは、属性の他の値から外れた値のことです。また、散布図を検索し、2つの属性間、またはリンク・データ・セット間の相関を確認できます。
「検索」を開始し、「変換」または「検出」に移動する場合は、まずデータ・セットをプロジェクトに保存する必要があります。または、既存のプロジェクトを見つけて選択することもできます。
データ・セットがプロジェクトにある場合は、「検索」を使用を続行できることに注意してください。
次に、データを変換して不一致を削除できる「変換」に移動できます。たとえば、データ型を変更したり、カスタム変換スクリプトを作成できます。