Streaming Spark

Informazioni sullo streaming Spark in Data Flow.

Le applicazioni di streaming richiedono un'esecuzione continua per un lungo periodo di tempo che spesso si estende oltre le 24 ore e potrebbe durare fino a settimane o addirittura mesi. In caso di errori imprevisti, le applicazioni di streaming devono riavviare dal punto di errore senza produrre risultati computazionali errati. Data Flow si basa sul checkpoint di streaming strutturato Spark per registrare l'offset elaborato che può essere memorizzato nel bucket di storage degli oggetti.

Per consentire una manutenzione regolare di Oracle Cloud Infrastructure, Data Flow implementa una chiusura regolare dei cluster Spark per lo streaming strutturato Spark. Una volta completata la manutenzione, viene creato un nuovo cluster Spark con il software aggiornato e viene visualizzata una nuova esecuzione nella lista. Lo stato dell'esecuzione precedente indica che è stata interrotta per manutenzione.

Data Flow fornisce l'accesso all'interfaccia utente Spark e al server della cronologia Spark, una suite di interfacce utente Web che è possibile utilizzare per monitorare gli eventi, lo stato e il consumo delle risorse del cluster Spark. È importante sottolineare che ti consente di esplorare piani di esecuzione logici e fisici. Per lo streaming fornisce approfondimenti sull'avanzamento dell'elaborazione, ad esempio tassi di input/output, offset, durate e distribuzione statistica. L'interfaccia utente di Spark fornisce informazioni sui job attualmente in esecuzione e sul server della cronologia sui job completati.

Le esecuzioni batch consentono diverse esecuzioni simultanee dello stesso codice con lo stesso argomento. Tuttavia, l'esecuzione di diverse istanze di applicazioni di streaming danneggia i dati del checkpoint, pertanto il flusso di dati è limitato a una sola esecuzione per applicazione di streaming. Per evitare qualsiasi danneggiamento involontario dell'applicazione di streaming, è necessario arrestarla prima di poterla modificare. Una volta completata la modifica, è possibile riavviare l'applicazione di streaming. Per facilitare l'identificazione delle applicazioni batch e di streaming, è disponibile il tipo di applicazione, che ha i valori Batch o Streaming.

Come per le esecuzioni batch, Data Flow consente alle applicazioni di streaming di connettersi a reti private.

Se l'esecuzione si arresta per errore, il flusso di dati esegue fino a 10 tentativi per riavviarla, in attesa di tre minuti tra i tentativi. Se il decimo tentativo fallisce, non vengono effettuati più tentativi e la corsa viene interrotta.