Spark Streaming

Saiba mais sobre o Spark Streaming no serviço Data Flow.

Os aplicativos de streaming exigem execução contínua por um longo período de tempo, que muitas vezes se estende além de 24 horas, e podem demorar semanas ou até meses. Em caso de falhas inesperadas, os aplicativos de streaming devem ser reiniciados do ponto de falha sem produzir resultados computacionais incorretos. O serviço Data Flow conta com o checkpoint de streaming estruturado do Spark para registrar o offset processado que pode ser armazenado no bucket do serviço Object Storage.

Para permitir a manutenção regular do Oracle Cloud Infrastructure, o serviço Data Flow implementa um shutdown normal dos clusters Spark para streaming estruturado do Spark. Quando a manutenção estiver concluída, um novo cluster do Spark com o software atualizado será criado e uma nova execução aparecerá na lista. O status da Execução anterior indica que ela foi interrompida para manutenção.

O serviço Data Flow fornece acesso à interface do usuário do Spark e ao Servidor de Histórico do Spark, que é um conjunto de interfaces de usuário (UIs) Web que você pode usar para monitorar os eventos, o status e o consumo de recursos do cluster do Spark. É importante ressaltar que ele permite explorar planos de execução lógicos e físicos. Para streaming, ele fornece insights sobre o andamento do processamento, por exemplo, taxas de entrada/saída, offsets, durações e distribuição estatística. A interface do usuário do Spark fornece informações sobre jobs atualmente em execução e o Servidor de Histórico sobre jobs finalizados.

As execuções em batch permitem várias execuções simultâneas do mesmo código, principalmente com os mesmos argumentos. Mas a execução de várias instâncias de aplicativos de streaming corrompe os dados do checkpoint; portanto, o serviço Data Flow é limitado a apenas uma execução por aplicativo de streaming. Para evitar qualquer corrupção não intencional do aplicativo de streaming, você deve interrompê-lo para poder editá-lo. Quando a edição for concluída, você poderá reiniciar o aplicativo de streaming. Para ajudá-lo a identificar aplicativos em batch e de streaming, há o Tipo de Aplicativo, que tem os valores Batch ou Streaming.

Assim como nas execuções em batch, o serviço Data Flow permite que os aplicativos de streaming se conectem a redes privadas.

Se a execução for interrompida por engano, o serviço Data Flow fará até 10 tentativas para reiniciá-la, aguardando três minutos entre tentativas. Se a décima tentativa falhar, não serão feitas mais tentativas e a execução será interrompida.