Apache Livy verwenden

Apache Livy ermöglicht die effiziente Weiterleitung von Spark-Jobs. In Big Data Service-Cluster mit Version 3.0.7 oder höher ist Apache Livy standardmäßig installiert und kann mit Apache Ambari unter dem Spark3-Service verwaltet werden.

In Big Data Service-Cluster mit Version 3.0.7 oder höher wird der Apache Livy-Server auf Port 8998 auf dem ersten Utilityknoten un0 des Clusters ausgeführt. Die Apache Livy-Logs sind im Ordner /var/log/livy auf demselben Knoten verfügbar. Die Apache Livy-Serverkonfigurationen können über Apache Ambari verwaltet werden.

In Big Data Service-Clustern älterer Versionen müssen Sie Apache Livy mit Spark3 erstellen, um es verwenden zu können.

  1. Laden Sie den Apache Livy-Quellcode auf den lokalen Rechner herunter.
    https://github.com/apache/incubator-livy
  2. Erstellen Sie Apache Livy.
    mvn clean package -B -V -e -Pspark-3.0 -Pthriftserver -DskipTests -DskipITs -Dmaven.javadoc.skip=true

    Hinweis: Wenn der Build-Vorgang im python-api-Modul nicht erfolgreich verläuft, kopieren Sie das POM python-api von https://gist.github.com/gamberooni/30d86b92d09b014aa623f1b66e9183a0#file-python-api-pom-xml.

  3. Nachdem der Build-Vorgang erfolgreich war, kopieren Sie die ZIP-Datei für Apache Livy von assembly/target/ auf den ersten Utilityknoten des Clusters.
  4. Bearbeiten Sie die Datei livy.conf.
    vi livy-home/conf/livy.conf
    livy.repl.enable-hive-context = true