Développer des applications de flux de données

Découvrez la bibliothèque , y compris les modèles d'application Spark réutilisables et la sécurité des applications. Découvrez également comment créer et voir des applications, modifier ou supprimer des applications et appliquer des arguments ou des paramètres.

Le service de flux de données arrête automatiquement les tâches par lots de longue durée (plus de 24 heures) à l'aide d'un jeton de délégation. Dans ce cas, si l'application n'a pas terminé le traitement des données, vous risquez d'échouer et le travail reste inachevé. Pour éviter cela, utilisez les options suivantes pour limiter le temps total d'exécution de l'application :
Lors de la création d'applications à l'aide de la console
Sous Options avancées, spécifiez la durée en durée maximale d'exécution en minutes.
Lors de la création d'applications à l'aide de l'interface de ligne de commande
Transmettre l'option de ligne de commande de --max-duration-in-minutes <number>
Lors de la création d'applications à l'aide de la trousse SDK
Indiquez un argument facultatif max_duration_in_minutes
Lors de la création d'applications à l'aide de l'API
Définir l'argument facultatif maxDurationInMinutes

Modèles d'applications Spark réutilisables

Une application est un modèle d'application Spark réutilisable à l'infini.

Les applications de flux de données comprennent une application Spark, ses dépendances, des paramètres par défaut et une ressource d'exécution par défaut. Après qu'un développeur Spark crée une application de flux de données, n'importe qui peut l'utiliser sans se soucier de la complexité du déploiement, de la configuration ou de l'exécution. Vous pouvez l'utiliser grâce aux analyses Spark dans des tableaux de bord personnalisés, des rapports, des scripts ou des appels d'API REST. Une image à gauche représente des développeurs Spark. De cette image, une flèche pointe une boîte intitulée Published Applications (Applications publiées). La flèche est étiquetée Publish : Parameterized Application (Publier : application avec paramètres). À droite de la boîte, une autre image représente des non-développeurs. Une flèche étiquetée Execute: Custom Reports and Custom Dashboard (Exécuter : Rapports personnalisés et tableaux de bord personnalisés) part des non-développeurs et pointe la boîte.

Chaque fois que vous appelez l'application de flux de données, vous créez une exécution . Il alimente les détails du modèle d'application et le démarre sur un jeu de ressources IaaS spécifique. Une boîte est étiquetée Data Flow Application (Application de flux de données). Elle contient une liste : Link to Spark Code (Lien vers le code Spark), Dependencies (Dépendances), Default Driver/Executor Shape and Count (Forme et nombre par défaut de pilote/exécuteurs), Arguments (Arguments ) et Default Parameters (Paramètres par défaut). Une flèche étiquetée Run an Application (Exécuter une application) pointe une autre boîte étiquetée Data Flow Run (Exécution de flux de données). Elle contient la liste : Link to Spark Code (Lien vers le code Spark), Dependencies (Dépendances), Specific Driver/Executor Shapes and Counts (Formes et nombres spécifiques de pilote/exécuteurs), Arguments (Arguments ) et Specific Parameters (Paramètres spécifiques) et Log Output (Sortie de journal).