Ejecución de Trabajos de Spark con Apache Oozie

Ejecute trabajos de Spark con Apache Oozie.

Apache Oozie es un servicio que toma un archivo de propiedades para disparar una secuencia de acciones como parte de un pipeline. Soporta varias acciones, como Apache Hive, Spark y programas de shell.

Puede ejecutar trabajos de Spark en clusters de alta disponibilidad y no de alta disponibilidad. Los archivos de propiedades de todos los trabajos son iguales y solo varían según la naturaleza del cluster. Oozie accede a HDFS para ejecutar su flujo de trabajo mediante un XML de flujo de trabajo cuando intenta acceder a él. Para ello, Oozie soporta HA para HDFS mediante el servicio de nombres. Por lo tanto, esa es la única distinción entre clusters de alta disponibilidad y no de alta disponibilidad que ejecutan trabajos de Spark.

Para obtener más información, consulte: