Hadoopとの統合

BDDは既存のHadoopクラスタの上で実行されます。これは、BDDがデータの処理および管理に必要とする、多数のコンポーネントおよびツールを提供します。たとえば、Hadoop分散ファイル・システム(HDFS)でソース・データを格納し、Hadoop Spark on YARNですべてのデータ処理ジョブを実行します。

BDDでは、次のHadoopディストリビューションがサポートされています。

BDDをインストールする前に、これらのいずれかをクラスタにインストールしておく必要があります。これは、Hadoopクラスタの構成によって、一部のBDDコンポーネントをインストールする場所が決定されるためです。ただし、Hadoopが機能していなくてもよいBDDコンポーネントもあるため、BDDをホストするすべてのノード上にHadoopが存在する必要はありません。詳細は、「Hadoop要件」を参照してください。

注意: BDDは複数のHadoopクラスタに接続できません。