Oracle Big Data Discoveryを使用して探索的データ分析を行うことができます。このソフトウェアは次のワークフローに対応するように構成されています。
- Hiveデータベースに配置されているソース・データを見つけます。
注意: データ・セットを見つけてから「検索」、「変換」または「検出」に移動する場合は、まずデータ・セットをプロジェクトに保存することを求められます。または、既存のプロジェクトを見つけて選択することもできます。
- ソース・データの内容の様々な視覚化(外れ値、散布図など)を表示して、データを検索します。また、自動データ・プロファイリング、サンプリングおよびエンリッチメントの結果を使用して、データの基本的な特徴を把握します。
- 興味を持ったデータ・セットを選択して、検索、他のデータ・セットとのマッシュアップおよび分析をさらに行います。
- データを変換して、不一致を除去し、型やその他の特徴を変更することでより明確にし、分析を続行します。
- BDDからデータ・セットをエクスポートし、Hiveまたは他のシステム(.avroまたは.csv形式)にインポートし、所有しているツールでさらに検索と分析を行います。
- 検出では、データに関するインサイトを得て、他のチームと共有するためにプロジェクトを保存することで、見出した成果(探索的分析、仮説、他のインサイトなど)をさらに活用できるようになります。