Hadoop要件

BDDをインストールする前に、次のいずれかのHadoopディストリビューションがクラスタ上で実行されている必要があります。

注意: 必要な場合は、BDDのインストール後に別のバージョンのHadoopディストリビューションに切り替えることができます。詳細は、管理者ガイドを参照してください。
BDDでは、各ディストリビューションで提供されるすべてのコンポーネントが必要なわけではなく、不要なコンポーネントをすべてのノード上にインストールする必要はありません。次の表に、必要なHadoopコンポーネントおよびそれらをインストールすべきノードを示します。
注意: 単一のマシンにインストールしている場合は、そのマシンで、必要なすべてのHadoopコンポーネントが実行されている必要があります。
コンポーネント 説明
クラスタ・マネージャ クラスタ・マネージャは、Hadoopディストリビューションによって異なります。
  • CDH: Cloudera Manager
  • HDP: Ambari
  • MapR: MapR Control System (MCS)

インストーラでは、RESTful APIを使用して、ホスト名やポート番号など、Hadoopノードに関する情報をクラスタ・マネージャに問い合せます。

クラスタ・マネージャはクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。

ZooKeeper BDDはZooKeeperを使用してDgraphインスタンスを管理し、Dgraph問合せ処理の高可用性を保証します。ZooKeeperはHadoopクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。ZooKeeper、およびBDDの高可用性へのその影響の詳細は、管理者ガイドを参照してください。

すべての管理対象サーバーは、ZooKeeperを実行しているノードに接続できる必要があります。

HDFS/MapR-FS ソース・データを含むHive表はHDFSに格納されます。HDFSは、クラスタ内の少なくとも1つのノードにインストールする必要があります。

HDFSにDgraphデータベースを格納することもできます。これを行うことを選択した場合は、DgraphをHDFS DataNodeにインストールする必要があり、HDFS DataNodeサービスをDgraphを実行するすべてのノードにインストールする必要があります。

注意: このドキュメントでは、わかりやすくするために一般的にHDFSのみを示しますが、MapRでは、標準のHDFSのかわりにMapR File System (MapR-FS)が使用されます。MapR-FSに固有の要件は、明示的に示します。
HCatalog データ処理Hive表ディテクタは、処理の必要な新規の表および削除された表についてHCatalogをモニターします。HCatalogはHadoopクラスタ内の少なくとも1つのノードにインストールする必要がありますが、BDDをホストするノードにインストールする必要はありません。
Hive すべてのデータはHDFSにHive表として格納されます。BDDで新規または変更されたHive表が検出されると、その表に対するデータ処理ワークフローが起動されます。
Spark on YARN BDDではSpark on YARNを使用して、すべてのデータ処理ジョブを実行します。Spark on YARNは、データ処理を実行するすべてのノードにインストールする必要があります。
Hue Hueを使用してソース・データをHiveにロードし、Studioからエクスポートされたデータを表示できます。
注意: HDPとMapRには、Hueは含まれません。これらのディストリビューションのいずれかがある場合は、Hueを別個にインストールして、BDDの構成ファイルでHUE_URIプロパティを設定する必要があります。必要に応じて、bdd-adminスクリプトを使用してインストール後にこのプロパティを更新することもできます。詳細は、管理者ガイドを参照してください。
YARN YARNワーカー・ノードはすべてのデータ処理ジョブを実行します。YARNは、データ処理を実行するすべてのノードにインストールする必要があります。
注意: データ処理は、次のHadoopコンポーネントを実行しているノードに自動的にインストールされます。

DgraphデータベースをHDFSに格納する場合は、DgraphをHDFS DataNodeにインストールする必要があります。詳細は、「Dgraphのデータベース要件」を参照してください。

BDDがHadoopノードと通信できるようにするには、Hadoop内のいくつかの変更を行う必要もあります。次に、これらの変更について説明します。