BDDでは、次のHadoopディストリビューションがサポートされています。
BDDをインストールする前に、これらのいずれかをインストールする必要があります。BDDは複数のHadoopクラスタに接続できません。
BDDでは、各ディストリビューションで提供されるすべてのコンポーネントが必要なわけではなく、不要なコンポーネントをすべてのBDDノード上にインストールする必要はありません。次の表に、必要なHadoopコンポーネントおよびそれらをインストールすべきノードを示します。単一マシンにインストールする場合は、必要なすべてのコンポーネントが実行される必要があります。
コンポーネント | 説明 |
---|---|
クラスタ・マネージャ | クラスタ・マネージャは、Hadoopディストリビューションによって異なります。
インストーラでは、RESTful APIを使用して、ホスト名やポート番号など、Hadoopノードに関する情報をHadoopクラスタ・マネージャに問い合せます。インストール後に、bdd-adminスクリプトが管理タスクを実行するときに同様の情報を問い合せます。 クラスタ・マネージャはHadoopクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。 |
ZooKeeper | BDDはZooKeeperを使用してDgraphインスタンスを管理し、Dgraph問合せ処理の高可用性を保証します。ZooKeeperはHadoopクラスタ内の少なくとも1つのノードにインストールする必要がありますが、高可用性を保証するには、3つ以上のノードにインストールする必要があります。これらはBDDノードである必要はありませんが、各管理対象サーバーがそれらの少なくとも1つに接続できる必要があります。 |
HDFS/MapR-FS | ソース・データを含む表はHDFSに格納されます。データ処理を実行するすべてのノードにインストールする必要があります。また、DgraphデータベースをHDFSに格納することを選択した場合は、HDFS DataNodeサービスをすべてのDgraphノードにインストールする必要があります。
注意: MapRは標準のHDFSのかわりにMapRファイル・システム(MapR-FS)を使用します。簡潔にするために、このドキュメントでは、通常、HDFSについてのみ言及しています。MapR-FSに固有の要件は、明示的に示します。
|
YARN | YARN NodeManagerサービスはすべてのデータ処理ジョブを実行します。YARNは、データ処理を実行するすべてのノードにインストールする必要があります。 |
Spark on YARN | BDDではSpark on YARNを使用して、すべてのデータ処理ジョブを実行します。Spark on YARNは、データ処理を実行するすべてのノードにインストールする必要があります。
BDDではSpark 1.6+が必要となります。使用しているバージョンを確認し、必要な場合はアップグレードします。 |
Hive | すべてのデータはHDFS内のHive表に格納されます。BDDで新規または変更されたHive表が検出されると、その表に対するデータ処理ワークフローが起動されます。 |
HCatalog | Hive表ディテクタは、処理の必要な新規の表および削除された表についてHCatalogをモニターします。HCatalogはHadoopクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。 |
Hue | Hueを使用してソース・データをHiveにロードし、Studioからエクスポートされたデータを表示できます。HueはHadoopクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。
注意: HDPにHueは含まれません。HDPがある場合は、Hueを別個にインストールしてBDDの構成ファイルでHUE_URIプロパティを設定する必要があります。必要に応じて、bdd-adminスクリプトを使用してインストール後にこのプロパティを更新することもできます。詳細は、管理者ガイドを参照してください。
|
BDDがHadoopノードと通信できるようにするには、Hadoop内のいくつかの変更を行う必要もあります。次に、これらの変更について説明します。