Apache Livyの使用

Apache Livyは、Sparkジョブの効率的な発行を可能にします。バージョン3.0.7以降のビッグ・データ・サービス・クラスタでは、Apache Livyは、デフォルトでインストールされ、Spark3サービスでApache Ambariを使用して管理できます。

バージョン3.0.7以降のビッグ・データ・サービス・クラスタでは、Apache Livyサーバーは、クラスタの最初のユーティリティ・ノードun0のポート8998で実行されます。Apache Livyログは、同じノードの/var/log/livyフォルダから入手できます。Apache Livyサーバー構成は、Apache Ambariから管理できます。

以前のビッグ・データ・サービス・クラスタで、Apache Livyを使用するには、Spark3でApache Livyをビルドする必要があります。

  1. Apache Livyソースコードをローカルマシンにダウンロードします。
    https://github.com/apache/incubator-livy
  2. Apache Livyをビルドします。
    mvn clean package -B -V -e -Pspark-3.0 -Pthriftserver -DskipTests -DskipITs -Dmaven.javadoc.skip=true

    ノート: python-apiモジュールでビルドが失敗した場合は、https://gist.github.com/gamberooni/30d86b92d09b014aa623f1b66e9183a0#file-python-api-pom-xmlからpython-api pomをコピーします。

  3. ビルドが成功したら、Apache Livy zipファイルをassembly/target/からクラスタの最初のユーティリティ・ノードにコピーします。
  4. livy.confファイルを編集します。
    vi livy-home/conf/livy.conf
    livy.repl.enable-hive-context = true