Hadoop要件

BDDでは、次のHadoopディストリビューションがサポートされています。

Cloudera Distribution for Hadoop (CDH) 5.7.x (最小5.7.1)、5.8+。エンタープライズ・エディションをお薦めします。
Hortonworks Data Platform (HDP) 2.4.x (最小2.4.2)、2.5.x
MapR Converged Data Platform (MapR) 5.1+

BDDをインストールする前に、これらのいずれかをインストールする必要があります。BDDは複数のHadoopクラスタに接続できません。

注意: 必要な場合は、BDDのインストール後に別のバージョンのHadoopディストリビューションに切り替えることができます。詳細は、管理者ガイドを参照してください。

BDDでは、各ディストリビューションで提供されるすべてのコンポーネントが必要なわけではなく、不要なコンポーネントをすべてのBDDノード上にインストールする必要はありません。次の表に、必要なHadoopコンポーネントおよびそれらをインストールすべきノードを示します。単一マシンにインストールする場合は、必要なすべてのコンポーネントが実行される必要があります。

コンポーネント	説明
クラスタ・マネージャ	クラスタ・マネージャは、Hadoopディストリビューションによって異なります。 CDH: Cloudera Manager HDP: Ambari MapR: MapR Control System (MCS) インストーラでは、RESTful APIを使用して、ホスト名やポート番号など、Hadoopノードに関する情報をHadoopクラスタ・マネージャに問い合せます。インストール後に、`bdd-admin`スクリプトが管理タスクを実行するときに同様の情報を問い合せます。クラスタ・マネージャはHadoopクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。
ZooKeeper	BDDはZooKeeperを使用してDgraphインスタンスを管理し、Dgraph問合せ処理の高可用性を保証します。ZooKeeperはHadoopクラスタ内の少なくとも1つのノードにインストールする必要がありますが、高可用性を保証するには、3つ以上のノードにインストールする必要があります。これらはBDDノードである必要はありませんが、各管理対象サーバーがそれらの少なくとも1つに接続できる必要があります。
HDFS/MapR-FS	ソース・データを含む表はHDFSに格納されます。データ処理を実行するすべてのノードにインストールする必要があります。また、DgraphデータベースをHDFSに格納することを選択した場合は、HDFS DataNodeサービスをすべてのDgraphノードにインストールする必要があります。注意: MapRは標準のHDFSのかわりにMapRファイル・システム(MapR-FS)を使用します。簡潔にするために、このドキュメントでは、通常、HDFSについてのみ言及しています。MapR-FSに固有の要件は、明示的に示します。
YARN	YARN NodeManagerサービスはすべてのデータ処理ジョブを実行します。YARNは、データ処理を実行するすべてのノードにインストールする必要があります。
Spark on YARN	BDDではSpark on YARNを使用して、すべてのデータ処理ジョブを実行します。Spark on YARNは、データ処理を実行するすべてのノードにインストールする必要があります。 BDDではSpark 1.6+が必要となります。使用しているバージョンを確認し、必要な場合はアップグレードします。
Hive	すべてのデータはHDFS内のHive表に格納されます。BDDで新規または変更されたHive表が検出されると、その表に対するデータ処理ワークフローが起動されます。
HCatalog	Hive表ディテクタは、処理の必要な新規の表および削除された表についてHCatalogをモニターします。HCatalogはHadoopクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。
Hue	Hueを使用してソース・データをHiveにロードし、Studioからエクスポートされたデータを表示できます。HueはHadoopクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。注意: HDPにHueは含まれません。HDPがある場合は、Hueを別個にインストールしてBDDの構成ファイルで`HUE_URI`プロパティを設定する必要があります。必要に応じて、`bdd-admin`スクリプトを使用してインストール後にこのプロパティを更新することもできます。詳細は、管理者ガイドを参照してください。

繰り返すために、次のコンポーネントが実行されているノードにデータ処理が自動的にインストールされます。

YARN
Spark on YARN
HDFS

BDDがHadoopノードと通信できるようにするには、Hadoop内のいくつかの変更を行う必要もあります。次に、これらの変更について説明します。