Flujo de Spark

Obtenga información sobre el flujo de Spark en Data Flow.

Las aplicaciones de flujo requieren una ejecución continua durante un largo período de tiempo que, a menudo, se extiende más allá de las 24 horas y puede tener una duración de hasta semanas o incluso meses. En caso de fallos inesperados, las aplicaciones de flujo deben reiniciarse desde el punto de fallo sin producir resultados de cálculo incorrectos. Data Flow se basa en el punto de control de flujo estructurado de Spark para registrar el desplazamiento procesado que se puede almacenar en el cubo de Object Storage.

Para permitir el mantenimiento regular de Oracle Cloud Infrastructure, Data Flow implanta un cierre controlado de los clusters de Spark para el flujo estructurado de Spark. Una vez completado el mantenimiento, se crea un nuevo cluster de Spark con el software actualizado y aparece una nueva ejecución en la lista. El estado de la ejecución anterior indica que está parada para mantenimiento.

Data Flow proporciona acceso a la interfaz de usuario de Spark y al servidor de historial de Spark, que es un conjunto de interfaces de usuario web (UI) que puede utilizar para supervisar los eventos, el estado y el consumo de recursos del cluster de Spark. Es importante destacar que le permite explorar planes de ejecución lógicos y físicos. Para la transmisión, proporciona información sobre el progreso del procesamiento, por ejemplo, tasas de entrada/salida, desfases, duraciones y distribución estadística. La interfaz de usuario de Spark proporciona información sobre los trabajos en ejecución, y el servidor de historial sobre los trabajos terminados.

Las ejecuciones por lotes permiten varias ejecuciones simultáneas del mismo código con la mayoría mismos argumentos. Sin embargo, la ejecución de varias instancias de aplicaciones de flujo daña los datos de punto de control, por lo que Data Flow está limitado a una sola ejecución por aplicación de flujo. Para evitar cualquier daño involuntario de la aplicación de flujo, debe parar la ejecución para poder editarla. Una vez completada la edición, puede reiniciar la aplicación de flujo. Para ayudarle a identificar aplicaciones por lotes y de flujo, hay el tipo de aplicación que tiene los valores Batch o Streaming.

Al igual que con las ejecuciones por lotes, Data Flow permite que las aplicaciones de transmisión se conecten a redes privadas.

Si la ejecución se para por error, Data Flow realiza hasta 10 intentos para reiniciarla, esperando tres minutos entre intentos. Si el décimo intento falla, no se realizan más intentos y la ejecución se para.

Documentación de Oracle Cloud Infrastructure

Flujo de Spark