Big Data DiscoveryとCloudera Distribution for Hadoopとの統合

BDDは、Cloudera Distribution for Hadoop (CDH)バージョン5.3が稼働している既存のクラスタにデプロイする必要があります。CDHによって、BDDでデータの処理と管理に必要とされる多数のHadoop関連のコンポーネントおよびツールが提供されます。

注意: BDDコンポーネントをホストするすべてのサーバーにCDHをインストールする必要はありません。CDHコンポーネントを必要としないBDDコンポーネントもあれば、特定のCDHコンポーネントのみを必要とするBDDコンポーネントもあります。各BDDコンポーネントのCDH要件の詳細は、「ソフトウェア要件」を参照してください。

BDDが対話する特定のCDHコンポーネントについて、次に説明します。

この表では、Big Data Discoveryによって必要とされるHadoopコンポーネントについて説明します。
コンポーネント 説明
Cloudera Manager CDHクラスタの管理機能を提供するWebベースのユーザー・インタフェース。これを使用して、クラスタ全体の正常性のモニタリング、各コンポーネントの起動と停止などの操作を実行します。

BDDインストーラは実行時RESTful APIを使用して、ホスト名やポート番号などの特定のCDHノードに関する情報をCloudera Managerに問い合せます。

ZooKeeper オープン・ソース・ディストリビューションのリソース・コーディネーション・パッケージ。BDDはZooKeeperサービスを使用してDgraphインスタンスを管理し、Dgraph問合せ処理の高可用性を保証します。
HDFS Hadoop分散ファイル・システム。Hadoopのフォルトトレランスの高い分散ファイル・システム。ソース・データを含むHive表はHDFSに格納されます。
HCatalog ファイル名やフォーマットを使用しないデータ参照を可能にするメタデータ抽出層。データ・ストレージからデータを問い合せる必要のあるユーザーおよびクライアント・プログラムを分離します。Hiveで表を作成すると、HCatalogに自動的に表が作成されます。

データ処理のHive表ディテクタは、処理の必要な新規の表および削除された表についてHCatalogをモニターします。

Hive HDFSに格納されている大量のデータの問合せおよび分析を可能にするオープン・ソース・データ・ウェアハウス。メタデータをHCatalogから取得し、スキーマまたは場所に関する情報なしでもデータの問合せが可能になります。

ソース・データはすべてHDFS内のHive表として格納されます。BDDで新規または変更されたHive表が検出されると、その表に対するデータ処理ワークフローが起動されます。

Oozie Hadoopでのジョブのスケジューリングおよび管理のためのオープン・ソース・システム。BDDでは、データ処理ワークフローの管理をOozieに依存します。
Spark すべてのデータにおけるバッチ処理、ストリーム処理およびインタラクティブ分析を組み合せて高速で統合されたビッグ・データ・アプリケーションの開発を容易にする、Hadoopを補完するオープンソースのパラレル・データ処理フレームワーク。Sparkワーカーはすべてのデータ処理ジョブを実行します。
注意: Big Data Discoveryには、サービスとしてインストールされているSpark(スタンドアロン)が必要です。YARN上にSparkは必要ありません。
Hue Hadoop User Experience。多数のHadoopコンポーネント用オープン・ソース・ユーザー・インタフェース。
YARN 分散アプリケーション用のリソース管理を提供するオープン・ソースのデータ処理フレームワーク。