Utilisation de blocs-notes pour la connexion à Data Flow

Vous pouvez vous connecter à Data Flow et exécuter une application Apache Spark à partir d'une session de bloc-notes Data Science. Ces sessions vous permettent d'exécuter des charges globales Spark interactives sur un cluster Data Flow durable via une intégration Apache Livy.

Data Flow utilise des blocs-notes Jupyter entièrement gérés pour permettre aux analystes de données et aux ingénieurs de données de créer, de visualiser et de déboguer des applications d'ingénierie et de science des données, ainsi que de collaborer sur celles-ci. Vous pouvez écrire ces applications en Python, en Scala et en PySpark. Vous pouvez également connecter une session de bloc-notes Data Science à Data Flow pour exécuter des applications. Les applications et noyaux Data Flow sont exécutés sur Oracle Cloud Infrastructure Data Flow. Data Flow est un service Apache Spark entièrement géré qui effectue des tâches de traitement sur des ensembles de données très grands, sans avoir à déployer ni à gérer l'infrastructure. Pour plus d'informations, reportez-vous à la documentation Data Flow.

Apache Spark est un système de calcul distribué conçu pour traiter les données à l'échelle. Il prend en charge les traitements de flux de données, batch et SQL, ainsi que les tâches d'apprentissage automatique à grande échelle. Spark SQL fournit une prise en charge de type base de données. Pour interroger des données structurées, utilisez Spark SQL. Il s'agit d'une implémentation SQL de norme ANSI.

Data Flow est un service Apache Spark entièrement géré qui effectue des tâches de traitement sur des ensembles de données très grands, sans infrastructure à déployer ni à gérer. Vous pouvez utiliser Spark Streaming pour effectuer un ETL cloud sur vos données de transmission en continu. Elle permet de fournir rapidement des applications, car vous pouvez vous concentrer sur le développement d'applications et non sur la gestion de l'infrastructure.

Apache Livy est une interface REST pour Spark. Soumettez les travaux Spark tolérant les pannes à partir du bloc-notes à l'aide de méthodes synchrones et asynchrones pour extraire la sortie.

Sparkmagic permet une communication interactive avec Spark à l'aide de Livy. Utilisez la directive magic %%spark dans une cellule de code JupyterLab. Les commandes SparkMagic sont disponibles pour Spark 3.2.1 et l'environnement conda Data Flow.

Data Flow Sessions prend en charge le redimensionnement automatique des fonctionnalités de cluster de Data Flow. Pour plus d'informations, reportez-vous à Redimensionnement automatique dans la documentation Data Flow. Les sessions Data Flow prennent en charge l'utilisation d'environnements conda en tant qu'environnements d'exécution Spark personnalisables.

Un bloc-notes Data Science utilise Spark Magic pour envoyer des demandes à Data Flow à l'aide des API NotebookSession afin d'exécuter du code Spark sur un serveur Data Flow.
Limites
  • Les sessions Data Flow peuvent durer jusqu'à 7 jours ou 10 080 minutes (maxDurationInMinutes).

  • La valeur de délai d'inactivité par défaut des sessions Data Flow est de 8 heures (480) (idleTimeoutInMinutes). Vous pouvez configurer une autre valeur.
  • La session Data Flow est uniquement disponible via une session de bloc-notes Data Science.
  • Seule la version 3.2.1 de Spark est prise en charge.
Conseil

Regardez le tutoriel vidéo sur l'utilisation de Data Science avec Data Flow. Pour plus d'informations sur l'intégration de Data Science et Data Flow, reportez-vous également à la documentation du kit SDK Oracle Accelerated Data Science.