Spark Streaming
Apprenez-en davantage sur Spark Streaming dans Data Flow.
Les applications de transmission en continu nécessitent une exécution continue sur une longue période qui s'étend souvent au-delà de 24 heures et qui peut durer des semaines, voire des mois. En cas d'échec inattendu, les applications de transmission en continu doivent redémarrer à partir du point d'échec sans générer de résultats de calcul incorrects. Data Flow s'appuie sur des points de reprise Spark Structured Streaming pour enregistrer le décalage traité, qui peut être stocké dans le bucket Object Storage.
Afin d'assurer la maintenance régulière d'Oracle Cloud Infrastructure, Data Flow implémente un arrêt progressif des clusters Spark pour Spark Structured Streaming. Une fois la maintenance terminée, un cluster Spark avec le logiciel mis à jour est créé et une nouvelle exécution apparaît dans la liste. Le statut de l'exécution précédente indique qu'elle est arrêtée pour maintenance.
Data Flow permet d'accéder à l'interface utilisateur Spark et au serveur d'historique Spark. Il s'agit d'une suite d'interfaces Web que vous pouvez utiliser pour surveiller les événements, le statut et l'utilisation des ressources de votre cluster Spark. De surcroît, elle vous permet d'explorer des plans d'exécution logiques et physiques. Pour la transmission en continu, elle fournit des informations clés sur la progression du traitement, par exemple les taux d'entrée/de sortie, les décalages, les durées et la distribution statistique. L'interface utilisateur Spark donne des informations sur les travaux en cours d'exécution et le serveur d'historique sur les travaux terminés.
Les exécutions de batch permettent d'effectuer plusieurs exécutions simultanées du même code avec principalement les mêmes arguments. Toutefois, l'exécution de plusieurs instances d'applications de streaming entraîne l'altération des données de point de reprise. Par conséquent, Data Flow est limité à une seule exécution par application de streaming. Afin d'éviter toute altération involontaire de l'application de transmission en continu, vous devez arrêter son exécution pour pouvoir la modifier. Une fois la modification terminée, vous pouvez redémarrer l'application de transmission en continu. Pour vous aider à identifier les applications de batch et de transmission en continu, l'option Type d'application affiche la valeur Batch
ou Streaming
.
Comme pour les exécutions par lots, Data Flow permet aux applications de transmission en continu de se connecter à des réseaux privés.
Si l'exécution s'arrête en erreur, Data Flow effectue jusqu'à 10 tentatives de redémarrage, en attendant trois minutes entre les tentatives. Si le dixième essai échoue, aucune autre tentative n'est effectuée et l'exécution est arrêtée.