Desarrollo de aplicaciones de Data Flow

Obtenga información sobre la Biblioteca, incluidas las plantillas de aplicación de Spark reutilizables y la seguridad de la aplicación. También aprenderá a crear y ver aplicaciones, editar aplicaciones, suprimir aplicaciones y aplicar argumentos o parámetros.

Data Flow detiene automáticamente los trabajos por lotes de larga ejecución (más de 24 horas) mediante un token de delegación. En este caso, si la aplicación no termina con el procesamiento de los datos, es posible que se produzca un fallo de ejecución y que el trabajo permanezca sin terminar. Para evitarlo, utilice las siguientes opciones para limitar el tiempo total de ejecución de la aplicación:
Al crear aplicaciones mediante la consola
En Opciones avanzadas, especifique la duración en Máximo de minutos de duración de ejecución.
Al crear aplicaciones con la CLI
Transferir opción de línea de comandos de --max-duration-in-minutes <number>
Al crear aplicaciones mediante el SDK
Proporcione el argumento opcional max_duration_in_minutes
Al crear aplicaciones mediante la API
Defina el argumento opcional maxDurationInMinutes

Plantillas de aplicaciones Spark reutilizables

Una Aplicación es una plantilla de aplicación de Spark infinitamente reutilizable.

Las aplicaciones de Data Flow consisten en una aplicación de Spark, sus dependencias, los parámetros por defecto y una especificación de recurso de tiempo de ejecución por defecto. Después de que un desarrollador de Spark crea una aplicación de Data Flow, cualquier usuario puede utilizarla sin preocuparse por las complejidades de desplegarla, configurarla o ejecutarla. Puede utilizarla a través del análisis de Spark en paneles de control personalizados, informes, scripts o llamadas de API de REST. A la izquierda hay una figura que representa a los desarrolladores de Spark. Una flecha se dirige a un cuadro que representa las aplicaciones publicadas. La flecha se denomina Publicar: Aplicación con parámetros. A la derecha del cuadro hay otra figura que representa a los no desarrolladores. Una flecha se dirige de los no desarrolladores al cuadro y se denomina Ejecutar: Informes personalizados y paneles de control personalizados.

Cada vez que llama a la aplicación Data Flow, crea una ejecución de . Rellena los detalles de la plantilla de la aplicación y la inicia en un juego específico de recursos IaaS. Hay un cuadro denominado Data Flow. Contiene una lista: enlazar a Código Spark, Dependencias, Controlador por defecto/Unidad de ejecutor y Recuento, Argumentos y Parámetros por defecto. Una flecha con la etiqueta Ejecutar una aplicación pasa a otra casilla etiquetada como Ejecución de Data Flow. Contiene la lista: Vincular a código Spark, Dependencias, Controlador específico/Unidades de ejecutor y recuentos, Argumentos, Parámetros específicos, IU de Spark y Salida de log.