Hadoopとの統合

Hadoopには、BDDでデータを処理および管理するのに必要な多数のコンポーネントおよびツールが用意されています。たとえば、Hadoop Distributed File System (HDFS)はソース・データを格納し、Hadoop Spark on YARNはすべてのデータ処理ジョブを実行します。

BDDでは、2つのHadoopディストリビューションをサポートしています。

BDDをインストールする前に、クラスタでこれらのいずれかが実行されている必要があります。これは、Hadoopクラスタの構成によって、一部のBDDコンポーネントをインストールする場所が決定されるためです。ただし、Hadoopが機能していなくてもよいBDDコンポーネントもあるため、BDDをホストするすべてのノード上にHadoopをインストールする必要はありません。詳細は、「Hadoop要件」を参照してください。

注意: BDDは複数のHadoopクラスタに接続できません。