Développement d'applications Data Flow

Apprenez-en davantage sur la bibliothèque , y compris sur les modèles d'application Spark réutilisables et la sécurité des applications. Découvrez également comment créer des applications, les visualiser, les modifier, les supprimer, et comment appliquer des arguments ou des paramètres.

Data Flow arrête automatiquement les traitements batch à longue durée d'exécution (plus de 24 heures) à l'aide d'un jeton de délégation. Dans ce cas, si l'application n'est pas terminée avec le traitement des données, vous risquez d'échouer et le travail reste inachevé. Pour éviter cela, utilisez les options suivantes pour limiter la durée totale d'exécution de l'application :
Lors de la création d'applications à l'aide de la console
Sous Options avancées, indiquez la durée en Durée d'exécution maximale en minutes.
Lors de la création d'applications à l'aide de la CLI
Option Transmettre la ligne de commande de --max-duration-in-minutes <number>
Lors de la création d'applications à l'aide du kit SDK
Indiquez l'argument facultatif max_duration_in_minutes
Lors de la création d'applications à l'aide de l'API
Définissez l'argument facultatif maxDurationInMinutes.

Modèles d'application Spark réutilisables

Une application est un modèle d'application Spark réutilisable à l'infini.

Les applications Data Flow se composent d'une application Spark, de ses dépendances, des paramètres par défaut et d'une spécification de ressource d'exécution par défaut. Une fois qu'un développeur Spark a créé une application Data Flow, tout utilisateur peut s'en servir sans s'inquiéter de la complexité de son déploiement, de sa configuration ou de son exécution. Vous pouvez l'utiliser via les analyses Spark dans des rapports, des scripts, des tableaux de bord personnalisés ou des appels d'API REST. Une image à gauche représente des développeurs Spark. Une flèche pointe vers un cadre qui représente les applications publiées. La flèche est libellée Publication : Application paramétrée. A droite du cadre, une autre image représente des utilisateurs non développeurs. Une flèche part de ces personnes vers le cadre et est libellée Exécuter : Rapports personnalisés et Tableaux de bord personnalisés.

Chaque fois que vous appelez l'application Data Flow, vous créez une exécution Run . Elle renseigne les détails du modèle d'application et démarre sur un ensemble spécifique de ressources IaaS. Cadre libellé Application Data Flow. Elle contient une liste : Lien vers le code Spark, Dépendances, Nombre et forme du pilote/des exécuteurs par défaut, Arguments et Paramètres par défaut. Une flèche libellée Exécuter une application pointe vers un autre cadre libellé Exécution Data Flow. Elle contient la liste : Lien vers le code Spark, Dépendances, Nombres et formes du pilote/des exécuteurs spécifiques, Arguments, Paramètres spécifiques, Interface utilisateur Spark et Sortie de journal.