Ejecución de flujos de trabajo de Oozie con trabajos de Spark a través de Hue
Puede ejecutar el flujo de trabajo de Oozie con trabajos de Spark a través de Hue en clusters de Big Data Service.
Para ejecutar el flujo de trabajo de Oozie, utilice el editor de Oozie para crear y actualizar el flujo de trabajo de Oozie. A continuación, puede ejecutar el flujo de trabajo en la interfaz de usuario de Hue.
Para el análisis, el uso de Hive y Spark es crucial, y debe programar un flujo de trabajo de Oozie para trabajos de Spark.
Oozie ofrece formas de ejecutar una amplia variedad de trabajos. Lo hace mediante una interfaz de acción.
Puede ejecutar trabajos de Spark en Hue de las siguientes formas:
- Acción de Spark: llame al trabajo spark proporcionando el archivo pyspark/JAR para disparar
- Acción de shell: utilice el shell como envoltorio para llamar a lo que sea necesario y ejecutar el envío de Spark como parte de la acción de shell.
Flujos de trabajo de Oozie usando HUE
Utilice el editor de Oozie para configurar el flujo de trabajo para los clusters de Big Data Service.
Mediante el editor de Oozie, configure un flujo de trabajo de Oozie. Seleccione el widget de acción adecuado (Spark, shell u otro) y agréguelo al flujo de trabajo arrastrándolos y soltándolos en el flujo de trabajo a través de la interfaz de usuario
Después de agregar el widget y proporcionar todos los detalles relevantes, ejecute el trabajo con el botón Reproducir en el editor de Oozie. Esto activa el flujo de trabajo de Oozie e inicia la ejecución.
Después de la ejecución del trabajo, consulte varios detalles en el directorio /user/hue/oozie/workspaces/<id>
que contiene workflow.xml
, job.properties
y todos los detalles relevantes para la ejecución.
Uso de Oozie en Hue
Ejecución de una acción de Spark
- Inicie sesión en Hue.
- Cree un archivo de script y cárguelo en Hue.
- En el menú de navegación situado más a la izquierda, haga clic en Scheduler.
- Haga clic en Flujo de trabajo y, a continuación, en Mi flujo de trabajo para crear un flujo de trabajo.
- Haga clic en el icono de programa de Spark para arrastrar la acción de Spark al área Borrar la acción aquí.
- Seleccione el archivo Jar o el archivo Python en la lista desplegable Jar/py name.
- En Clase principal, especifique el punto de entrada de clase de la aplicación Spark para la aplicación Java/Scala de Spark, junto con el archivo JAR.
- Para clusters de alta disponibilidad:
- En el campo Archivos, agregue la tabla de claves haciendo clic en el símbolo más.
- En la lista Opciones, agregue el siguiente parámetro:
--principal <principal> --keytab <keytab>
- Para acceder a las tablas de Hive en un entorno de alta disponibilidad, haga clic en el icono de engranaje y, a continuación, haga clic en Credenciales.
- Seleccione hcat.
- Haga clic en el icono de guardar.
Ejecución de una acción de shell
Con el editor de Oozie, puede agregar más detalles a la acción de shell que abarca más archivos y propiedades que se utilizarán durante la acción de shell.
- Inicie sesión en Hue.
- Cree un archivo de script y cárguelo en Hue.
- En el menú de navegación situado más a la izquierda, haga clic en Scheduler.
- Haga clic en Flujo de trabajo y, a continuación, en Mi flujo de trabajo para crear un flujo de trabajo.
- Haga clic en el icono del programa Shell para arrastrar la acción Shell al área Borrar la acción aquí.
- Proporcione el shell desde la ubicación de HDFS en la sección
Shell Command
. - En la sección Files, agregue:
- Ubicación de HDFS para el script de shell
- Ubicación de HDFS para el archivo Jar/Python que contiene el trabajo de Spark
- Haga clic en el icono de guardar.
- Para los clusters de HA, se debe proporcionar permiso para acceder a los archivos mediante Ranger para acceder a:
- Directorio
/user/hue
para que el usuario pueda acceder a los directorios desde el matiz. - Directorio
/user/{user}
para que el usuario pueda colocar archivos jar/py en su directorio
Complete lo siguiente:
- Inicie sesión en Ranger UI y navegue hasta el plugin Hue.
- Seleccione la política para agregar el usuario.
- En Permitir condiciones, agregue el usuario o el grupo para permitir el acceso.
- Haga clic en Guardar.
- Directorio