Hadoopには、BDDがデータの処理および管理に必要な多くのコンポーネントおよびツールが用意されています。 Hadoop Distributed File System (HDFS)にはソース・データが格納され、Hadoop SparkがYARN上に格納されて、すべてのデータ処理ジョブが実行されます。 この項では、BDDをSparkおよびHadoop環境に適合させる方法について説明します。
Hadoopは、あらゆる種類のデータの格納、アクセスおよび分析を行うためのプラットフォームです: 構成済、非構造化およびインターネットからのデータ。 IT組織、特に大量のデータを含む組織では広範囲に採用されています。
SparkとHadoopを密接に組み合せることで、Oracle Big Data Discoveryは、問合せ処理のパフォーマンスが高い、重要度に大きなスケールで任意のデータのデータ検出を実現します。
Hadoopディストリビューションについて
Big Data Discoveryは、HDFSに格納された大量のデータで動作します。 Hadoopディストリビューションは製品の前提条件で、製品によって提供される機能にとって重要です。
BDDは、特定のHadoopディストリビューションにパッケージ化されているHDFS、Hive、SparkおよびYARNコンポーネントを使用します。 Hadoopのバージョン・サポートおよびパッケージの詳細は、「インストレーション・ガイド」を参照してください。
Hadoopインフラストラクチャ内のBDD
Big Data Discoveryは、Hadoop内でネイティブに使用可能なデータを認識します。
BDDは、Hiveにある企業のデータ・ソースすべてのリストを保守し、HCatalogに登録されます。 新規データが到着すると、BDDはStudio 「カタログ」でデータをリストし、それをプロファイリングおよびエンリッチメント・メタデータで装飾します。さらに探索するためにこのデータを取得するときに、そのサンプルを取得します。 また、自動的に生成された、このデータの最も興味深い特徴を示す強力なビジュアライゼーションのリストを提供することで、ソース・データをさらに詳しく探索できます。 これにより、有用なソース・データ・セットを特定するのに要する時間やデータ・セットの準備時間を短縮でき、チームがアナリティクスに費やした時間が短縮され、インサイトや新しいアイデアを把握できます。
HadoopおよびSpark ecosystemとBDDの統合の利点
Big Data Discoveryは、探索、準備および分析するデータを格納する既存のHadoopクラスタのノードのサブセットに直接デプロイされます。
BDDにより、Hadoopクラスタ自体のデータを分析することで、企業のシステム間でのデータの移動コストがなくなります。 - 企業が数百テラ・バイトのデータの処理を開始した場合に非常に重要になるコスト。 さらに、HDFSとのBDDの緊密な統合によって、データが元のファイル形式でHadoopクラスタに入るとすぐに、プロファイリング、エンリッチおよび索引付けのデータが可能になります。 データ・セットを確認する時間によって、BDDはすでにデータ・セットを探索および分析用に準備しています。 BDDは、Sparkのリソース管理機能を利用して、最適なパフォーマンスと値を提供する様々なワークロード・クラスタを実行できるようにします。
最後に、HadoopエコシステムとBDDを直接統合することにより、BDDで行われたデータ準備と、Hadoop (ORAAH)用のOracle R Advanced Analyticsやその他のサード・パーティ・ツールなどのツールで行われた拡張データ分析との移行が合理化されます。 BDDを使用すると、クリーンアップされたサンプリング済データ・セットをHive表としてエクスポートし、ORAAHでの分析にすぐに使用できるようにできます。 BDDは、データをファイルとしてエクスポートし、Hadoopに登録することもできます。これにより、データを将来のカスタム分析に使用できるようになります。