「検索」領域は、新しいデータ・セットのガイド・ツアーのようなもので、データ・セットに何が含まれているかを理解するために役立ちます。ユーザーは共通のRコマンドをいくつも手動で入力して、その結果から初期の意味を抽出しようとしなくてすみます。
Studioの「検索」領域を次に示します。
「検索」では、値の分布、データ品質ギャップおよび関係を示す、データの属性を中心としたビジュアル・サマリーが提供されます。
「検索」によって示される視覚化から、データ・セットのインサイトの大部分を得ることができます。視覚化は各属性のデータ型と値の分布に最も適しています。
視覚化は自動的に作成されるため、このプロセスの初期の段階では時間も手間もかかりません。データ・セットの理解が進んだら、さらに分析する価値があると判断したデータについて独自の視覚化を作成できます。
次に示す質問は、Big Data Discoveryで
「検索」を使用して答えを得ることができます。
-
- データにどのようなフィールドが含まれるか。それらについて理解できますか。
- 値がどのように分布しているか。BDDでは記述統計学(平均値、中央値、最頻値、五分位値)とビジュアル(ヒストグラム、ボックス・プロット)が使用されます。
- データがどれくらいダーティー(クリーンでない)か。欠落値や外れ値がありますか。
- フィールド間にはどのような関係が存在しますか。BDDでは数値的相関とビジュアルが使用されます。
- BDDでは、すぐに使用できるガイド付きの分析操作が提供されます。これは、キャンバスに適切な視覚化を構成して、ユーザーの目標に合せてデータを表します。これを使用すると、ユーザーは概要を把握し、データ品質を調べ、生じる可能性がある結果を説明でるようになります。
注意: 大容量のデータ・セット全体を検索できる場合でも、最初は代表的なサンプルから開始して、その後でデータ全体をチェックすることをお薦めします。
このようにして、検索を行ったデータ・セットを理解します。