Hadoop要件

BDDをインストールする前に、クラスタに次のいずれかのHadoopディストリビューションをインストールする必要があります。

注意: 必要に応じて、インストール後に別のバージョンのHadoopディストリビューションに切り替えることができます。詳細は、管理者ガイドを参照してください。
BDDでは、各ディストリビューションで提供されるすべてのコンポーネントが必要なわけではなく、不要なコンポーネントをすべてのノード上にインストールする必要はありません。次の表に、必要なHadoopコンポーネントおよびそれらをインストールすべきノードを示します。
注意: 単一のマシンをインストールしている場合、そのマシンには、必要なHadoopコンポーネントがすべてインストール済である必要があります。
コンポーネント 説明
Cloudera Manager (CDH)/Ambari (HDP) BDDインストーラはRESTful APIを使用して、ホスト名やポート番号などの特定のHadoopノードに関する情報をCloudera Manager (CDHを使用している場合)またはAmbari (HDPを使用している場合)に問い合せます。

Cloudera Manager/Ambariはクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。

ZooKeeper BDDはZooKeeperサービスを使用してDgraphインスタンスを管理し、Dgraph問合せ処理の高可用性を保証します。ZooKeeperはクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。ZooKeeperとクラスタ・デプロイメントの高可用性へのその影響の詳細は、管理者ガイドを参照してください。

すべての管理対象サーバーは、ZooKeeperを実行しているノードに接続できる必要があります。

HDFS BDDでは、ソース・データを含むHive表はHDFSに格納されます。HDFSはクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。HDFSは、データ処理を実行するすべてのノードにインストールする必要があります。
HCatalog データ処理Hive表ディテクタは、処理の必要な新規の表および削除された表についてHCatalogをモニターします。HCatalogはクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。
Hive すべてのデータはHDFSにHive表として格納されます。BDDで新規または変更されたHive表が検出されると、その表に対するデータ処理ワークフローが起動されます。
Spark on YARN BDDではSpark on YARNを使用して、すべてのデータ処理ジョブを実行します。Spark on YARNは、データ処理を実行するすべてのノードにインストールする必要があります。
Hue Hueを使用してソース・データをHiveにロードし、Studioからエクスポートされたデータを表示できます。
注意: HDPにHueは含まれません。HDPクラスタがある場合は、別個にインストールしてBDDの構成ファイルでHUE_URIプロパティを設定する必要があります。必要に応じて、bdd-adminスクリプトを使用してインストール後にこのプロパティを更新することもできます。詳細は、管理者ガイドを参照してください。
YARN YARNワーカー・ノードはすべてのデータ処理ジョブを実行します。YARNは、データ処理を実行するすべてのノードにインストールする必要があります。
注意: データ処理は、次のHadoopコンポーネントを実行しているノードに自動的にインストールされます。

さらに、DgraphとHadoopの両方を併置する場合、そのノードのcgroupsを有効にし、Dgraphのメモリー消費を制限する必要があります。

BDDがHadoopノードと通信できるようにするには、Hadoop内のいくつかの変更を行う必要もあります。次に、これらの変更について説明します。