CDHおよびHDPへのSparkのインストール

このトピックでは、CDHまたはHDPインスタンスにApache Sparkをインストールする方法について説明します。

CDH (Cloudera Distribution for Hadoop)またはHDP (Hortonworks Data Platform)クラスタのSparkバージョンと一致するApache Sparkをダウンロードする必要があります。Sparkのバージョン情報は、インストールされているクラスタ、またはCDHやHDPのオフィシャルWebサイトから確認できます。

Spark 1.5.xまたは1.6.xコンポーネントをインストールするには:

  1. 管理サーバー・マシンに、Sparkのソフトウェア・コンポーネントを格納するディレクトリを作成します。
    たとえば、/localdisk/hadoopディレクトリを作成します。
  2. 使用しているバージョンのSparkと一致するSparkバージョンをダウンロードします。
    1. ブラウザでhttp://archive.apache.org/dist/spark/にアクセスします。
    2. 使用しているバージョンのSparkと一致するディレクトリに移動します。
    3. <spark-version>-bin-hadoop2.6.tgzファイルをダウンロードします。
    たとえば、CDH with Spark 1.6の場合は、http://archive.apache.org/dist/spark/spark-1.6.0/spark-1.6.0-bin-hadoop2.6.tgzをダウンロードします。
  3. アーカイブ・ファイルを/localdisk/hadoopディレクトリに解凍します。
    ファイルを解凍すると、Sparkディレクトリが作成されます。たとえば、CDHバージョンでは、spark-1.6.0-bin-hadoop2.6ディレクトリが作成されます。
Sparkディレクトリが作成されたら、このCDHの例のようにbdd-shell.confファイルのSPARK_HOMEプロパティとしてそのディレクトリを設定します。
## Path to the Spark installation on the server running BDD Shell
SPARK_HOME=/localdisk/hadoop/spark-1.6.0-bin-hadoop2.6