Big Data Discoveryでは、従来の分析ツールよりも作業が迅速化し、簡単に実行できます。このトピックでは、データ分析の目標およびニーズ、そしてそれらに対処するためにBig Data Discoveryを使用する方法を説明します。
目標およびニーズ
データ・サイエンティストまたはアナリストとして:
- 個別のツールのセットを使用して複雑な質問を解決する。動的で不明確な多くの質問への対処から開始します。多くの場合、データ、視覚化および検出機能がいつ必要になるか予測できません。
これらに対処するには、オープン・ソースとカスタム検出ツールに依存します。他のツールと組み合せてツールを使用し、多くの場合、同じツールを何度も開く必要があります。
Big Data Discoveryでは、複数のツール間のこのような断片化されたワークフローが、Hadoopエコシステムに含まれる1つのワークフローで置き換えられます。
- 協力が必要。チームと一緒に、多くの外部ソースや内部ソースから届くビッグ・データを処理します。他のチーム・メンバーは調査結果を利用できます。また、インサイトや新しい提案のプロトタイプを改善して公開します。
Big Data Discoveryでは、個人のプロジェクトを作成したり、プロジェクトを作成してチームと共有できます。
- データの意味を解明する。目標を達成するには、多くの場合、インサイトを得てそれを活用する必要があります。これを行うには、データを収集してクリーンアップし、分析します。
Big Data Discoveryにより、データの意味を解明することができます。これを使用して、データを収集、結合、変更および分析します。
- アイデアとインサイトを創造する。ビジネスの変革につながるインサイトを創造する必要があります。また、既存の製品、サービスおよび操作を強化する必要もあります。また、新しいデータ駆動製品およびサービスのプロトタイプを定義および作成する必要もあります。
Big Data Discoveryでは、多くのデータ視覚化手法を使用して、インサイトにアクセスします。これらには、チャート、統計プロット、マップ、ピボット・テーブル、概要バー、タブ・クラウド、タイムラインなどがあります。検出の結果は、スナップショットおよびブックマークを使用して保存および共有できます。
- 仮説を検証、後方トレース、調整および共有する。また、以前からの問題に対処するために、新しい視点を提供する必要もよくあります。解決に至る道筋で、通常は次を含む検索が行われます。
- 仮説の修正。複数の仮設を並行して検索する必要があります。これらは、多くの場合、多くのデータ・セットおよび個別データ製品に基づきます。
- 仮説の検証。仮説を組み立て、テストする必要があります。これには、他の人物が作成した実験方法と結果の評価や学習が必要です。
- データの再収集および透過性。チームが繰り返すことができるように、分析作業のすべてのステージを透過的にします。以前に作成した分析ワークフローを再作成できるようにします。作業も共有します。これには、すべてのステップとアクティビティの直線的な履歴が必要です。
Big Data Discoveryでは、BDDプロジェクト、データ・セットおよび変換スクリプトの保存によって、これを行うことができます。これにより、プロジェクトの改善および共有が可能になり、保存した変換スクリプトを他のデータ・セットに適用できます。
Big Data Discoveryで実行可能なタスク
Big Data Discoveryでは、次のことが可能です。
- Hadoopエコシステムでの作業を続けながら、Hive表で検出されたデータのビジュアル表示としてBig Data Discoveryを使用します。
- 検出操作を、グループの他のユーザーにとって透過的に繰り返して実行することや、様々なソースから届く多様かつ大規模なデータ・セットに対して検出操作を実行することが可能です。
- ビジネス・ニーズに適したカスタム検出アプリケーションを作成します。
- すべての検出ソリューションの要素(データ・セット、情報モデル、検出アプリケーションおよび変換スクリプト)を最初に作成します。
- 組織内の意思決定グループやソーシャル・フォーラムにインサイトを公開します。
- 独自のBDDアプリケーションを新たに作成して、繰り返して使用し、チームの幅広いユーザー・グループと共有します。