Spark Streaming

Weitere Informationen zum Spark-Streaming in Data Flow.

Streaminganwendungen müssen über einen langen Zeitraum, der häufig über 24 Stunden hinausgeht, kontinuierlich ausgeführt werden. Sie Ausführung kann sogar Wochen oder Monate dauern. Bei unerwarteten Fehlern müssen Streaminganwendungen vom Fehlerpunkt aus neu gestartet werden, ohne falsche Berechnungsergebnisse zu erzeugen. Data Flow basiert auf strukturierten Spark-Streamingcheckpoints, um den verarbeiteten Offset aufzuzeichnen, der in Ihrem Object Storage-Bucket gespeichert werden kann.

Um eine regelmäßige Oracle Cloud Infrastructure-Verwaltung zu ermöglichen, wird in Data Flow ein ordnungsgemäßes Herunterfahren der Spark-Cluster für strukturiertes Spark-Streaming implementiert. Wenn die Wartung abgeschlossen ist, wird ein neues Spark-Cluster mit der aktualisierten Software erstellt, und eine neue Ausführung wird in der Liste angezeigt. Der Status des vorherigen Laufs gibt an, dass er zur Wartung gestoppt wurde.

Data Flow bietet Zugriff auf die Spark-UI und den Spark-Historie-Server. Dies ist eine Suite von Webbenutzeroberflächen (UIs), mit denen Sie die Ereignisse, den Status und die Ressourcenauslastung Ihres Spark-Clusters überwachen können. Wichtig ist, dass Sie logische und physische Ausführungspläne explorieren können. Beim Streaming erhalten Sie Informationen zum Verarbeitungsfortschritt, wie Eingabe-/Ausgaberaten, Offsets, Dauer und statistische Verteilung. Die Spark-UI enthält Informationen zu aktuell ausgeführten Jobs und der Historienserver zu abgeschlossenen Jobs.

Batchläufe ermöglichen mehrere nebenläufige Ausführungen desselben Codes mit meist gleichen Argumenten. Wenn jedoch mehrere Instanzen von Streaminganwendungen ausgeführt werden, werden die Checkpointdaten beschädigt. Daher ist Data Flow auf nur eine Ausführung pro Streaminganwendung begrenzt. Um unbeabsichtigte Beschädigungen der Streaminganwendung zu vermeiden, müssen Sie die Ausführung stoppen, bevor Sie sie bearbeiten können. Wenn die Bearbeitung abgeschlossen ist, können Sie die Streaminganwendung neu starten. Mit dem Anwendungstyp, der die Werte Batch oder Streaming haben kann, können Sie Batch- und Streaminganwendungen identifizieren.

Wie bei Batchausführungen ermöglicht Data Flow Streaming-Anwendungen die Verbindung zu privaten Netzwerken.

Wenn die Ausführung mit einem Fehler beendet wird, führt Data Flow einen Neustart von bis zu 10 Versuchen aus und wartet drei Minuten lang zwischen den Versuchen. Wenn der zehnte Versuch nicht erfolgreich verläuft, werden keine weiteren Versuche unternommen und die Ausführung wird gestoppt.