BDDをインストールする前に、クラスタに次のいずれかのHadoopディストリビューションをインストールする必要があります。
コンポーネント | 説明 |
---|---|
Cloudera Manager (CDH)/Ambari (HDP) | BDDインストーラはRESTful APIを使用して、ホスト名やポート番号などの特定のHadoopノードに関する情報をCloudera Manager (CDHを使用している場合)またはAmbari (HDPを使用している場合)に問い合せます。
Cloudera Manager/Ambariはクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。 |
ZooKeeper | BDDはZooKeeperサービスを使用してDgraphインスタンスを管理し、Dgraph問合せ処理の高可用性を保証します。ZooKeeperはクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。ZooKeeperとクラスタ・デプロイメントの高可用性へのその影響の詳細は、管理者ガイドを参照してください。
すべての管理対象サーバーは、ZooKeeperを実行しているノードに接続できる必要があります。 |
HDFS | BDDでは、ソース・データを含むHive表はHDFSに格納されます。HDFSはクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。HDFSは、データ処理を実行するすべてのノードにインストールする必要があります。 |
HCatalog | データ処理Hive表ディテクタは、処理の必要な新規の表および削除された表についてHCatalogをモニターします。HCatalogはクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。 |
Hive | すべてのデータはHDFSにHive表として格納されます。BDDで新規または変更されたHive表が検出されると、その表に対するデータ処理ワークフローが起動されます。 |
Spark on YARN | BDDではSpark on YARNを使用して、すべてのデータ処理ジョブを実行します。Spark on YARNは、データ処理を実行するすべてのノードにインストールする必要があります。 |
Hue | Hueを使用してソース・データをHiveにロードし、Studioからエクスポートされたデータを表示できます。
注意: HDPにHueは含まれません。HDPクラスタがある場合は、別個にインストールしてBDDの構成ファイルでHUE_URIプロパティを設定する必要があります。必要に応じて、bdd-adminスクリプトを使用してインストール後にこのプロパティを更新することもできます。詳細は、管理者ガイドを参照してください。
|
YARN | YARNワーカー・ノードはすべてのデータ処理ジョブを実行します。YARNは、データ処理を実行するすべてのノードにインストールする必要があります。 |
さらに、DgraphとHadoopの両方を併置する場合、そのノードのcgroupsを有効にし、Dgraphのメモリー消費を制限する必要があります。
BDDがHadoopノードと通信できるようにするには、Hadoop内のいくつかの変更を行う必要もあります。次に、これらの変更について説明します。