Usando o Apache Livy

O Apache Livy permite o envio eficiente de jobs do Spark. Nos clusters do Big Data Service com a versão 3.0.7 ou mais recente, o Apache Livy é instalado por padrão e pode ser gerenciado usando o Apache Ambari no serviço Spark3.

Nos clusters do Big Data Service com a versão 3.0.7 ou mais recente, o servidor Apache Livy é executado na porta 8998 no primeiro nó do utilitário un0 do cluster. Os logs do Apache Livy estão disponíveis na pasta /var/log/livy no mesmo nó. As configurações do servidor Apache Livy podem ser gerenciadas no Apache Ambari.

Nos clusters anteriores do Big Data Service, para usar o Apache Livy, você deve criar o Apache Livy com Spark3.

  1. Faça download do código de origem do Apache Livy para a máquina local.
    https://github.com/apache/incubator-livy
  2. Crie o Apache Livy.
    mvn clean package -B -V -e -Pspark-3.0 -Pthriftserver -DskipTests -DskipITs -Dmaven.javadoc.skip=true

    Observação: Se o build falhar no módulo python-api, copie python-api pom em https://gist.github.com/gamberooni/30d86b92d09b014aa623f1b66e9183a0#file-python-api-pom-xml.

  3. Depois que o build for bem-sucedido, copie o arquivo zip do Apache Livy de assembly/target/ para o primeiro nó do utilitário do cluster.
  4. Edite o arquivo livy.conf.
    vi livy-home/conf/livy.conf
    livy.repl.enable-hive-context = true