Aperçu du service de flux de données

Découvrez le service de flux de données et voyez comment l'utiliser pour créer, partager, exécuter des applications Apache Spark et en voir la sortie en toute facilité.

Architecture du service de flux de données montrant les applications, la bibliothèque et les exécutions dans la couche utilisateur. En dessous se trouve la couche d'administration constituée des contrôles d'administrateur pour les politiques d'accès et les limites d'utilisation. Plus bas il y a la couche d'infrastructure constituée des capacités de calcul extensibles et du stockage extensible. Enfin, il y a la couche de sécurité constituée de la gestion des identités et de la gestion des accès.

Qu'est-ce qu'Oracle Cloud Infrastructure Data Flow

Data Flow est une plate-forme sans serveur en nuage avec une interface utilisateur enrichie. Il permet aux développeurs Spark et aux spécialistes des données de créer, de modifier et d'exécuter des tâches Spark, quelle que soit l'échelle, sans grappes, équipe d'exploitation ni connaissances hautement spécialisées sur Spark. Sans serveur signifie qu'il n'y a aucune infrastructure à déployer ou à gérer. Le service est entièrement piloté par des API REST et permet ainsi une intégration facile à des applications ou des flux de travail. Vous pouvez contrôler le service de flux de données à l'aide de cette API REST. Vous pouvez exécuter le service de flux de données à partir de l'interface de ligne de commande, car les commandes du service de flux de données sont disponibles dans l'interface de ligne de commande d'Oracle Cloud Infrastructure. Vous pouvez :

  • Établir des connexions à des sources de données Apache Spark.

  • Créer des applications Apache Spark réutilisables

  • Lancer des tâches Apache Spark en quelques secondes.

  • Créer des applications Apache Spark en SQL, Python, Java ou Scala ou spark-submit.

  • Gérer toutes les applications Apache Spark à partir d'une seule plate-forme.

  • Traiter les données dans le nuage ou sur place dans votre centre de données.

  • Créer des blocs de mégadonnées pouvant être assemblés facilement dans des applications de mégadonnées avancées.

Une boîte intitulée Data Flow Spark on-demand représente une application de flux de données Spark sur demande à partir de laquelle une flèche étiquetée Processed Data (Données traitées) descend vers la boîte Object Storage (Stockage d'objets). En dessous de la boîte Object Storage (Stockage d'objets) sont situées deux autres boîtes avec une flèche pointant vers elle. Une boîte contient Spark Application (Application Spark) et l'autre, Raw Data (Données brutes). Deux flèches indiquent le flux des applications Spark et des données brutes depuis le stockage d'objets vers l'application de flux de données Spark sur demande.