BDDをインストールする前に、次のいずれかのHadoopディストリビューションがクラスタ上で実行されている必要があります。
| コンポーネント | 説明 |
|---|---|
| クラスタ・マネージャ | クラスタ・マネージャは、Hadoopディストリビューションによって異なります。
インストーラでは、RESTful APIを使用して、ホスト名やポート番号など、Hadoopノードに関する情報をクラスタ・マネージャに問い合せます。 クラスタ・マネージャはクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。 |
| ZooKeeper | BDDはZooKeeperを使用してDgraphインスタンスを管理し、Dgraph問合せ処理の高可用性を保証します。ZooKeeperはHadoopクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。ZooKeeper、およびBDDの高可用性へのその影響の詳細は、管理者ガイドを参照してください。
すべての管理対象サーバーは、ZooKeeperを実行しているノードに接続できる必要があります。 |
| HDFS/MapR-FS | ソース・データを含むHive表はHDFSに格納されます。HDFSは、クラスタ内の少なくとも1つのノードにインストールする必要があります。
HDFSにDgraphデータベースを格納することもできます。これを行うことを選択した場合は、DgraphをHDFS DataNodeにインストールする必要があり、HDFS DataNodeサービスをDgraphを実行するすべてのノードにインストールする必要があります。 注意: このドキュメントでは、わかりやすくするために一般的にHDFSのみを示しますが、MapRでは、標準のHDFSのかわりにMapR File System (MapR-FS)が使用されます。MapR-FSに固有の要件は、明示的に示します。
|
| HCatalog | データ処理Hive表ディテクタは、処理の必要な新規の表および削除された表についてHCatalogをモニターします。HCatalogはHadoopクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。 |
| Hive | すべてのデータはHDFSにHive表として格納されます。BDDで新規または変更されたHive表が検出されると、その表に対するデータ処理ワークフローが起動されます。 |
| Spark on YARN | BDDではSpark on YARNを使用して、すべてのデータ処理ジョブを実行します。Spark on YARNは、データ処理を実行するすべてのノードにインストールする必要があります。 |
| Hue | Hueを使用してソース・データをHiveにロードし、Studioからエクスポートされたデータを表示できます。
注意: HDPとMapRには、Hueは含まれません。これらのディストリビューションのいずれかがある場合は、Hueを別個にインストールして、BDDの構成ファイルでHUE_URIプロパティを設定する必要があります。必要に応じて、bdd-adminスクリプトを使用してインストール後にこのプロパティを更新することもできます。詳細は、管理者ガイドを参照してください。
|
| YARN | YARNワーカー・ノードはすべてのデータ処理ジョブを実行します。YARNは、データ処理を実行するすべてのノードにインストールする必要があります。 |
DgraphデータベースをHDFSに格納する場合は、DgraphをHDFS DataNodeにインストールする必要があります。詳細は、「Dgraphのデータベース要件」を参照してください。
BDDがHadoopノードと通信できるようにするには、Hadoop内のいくつかの変更を行う必要もあります。次に、これらの変更について説明します。