Avant de commencer à utiliser les points d'extrémité SQL du service de flux de données

Vérifiez les préalables pour les points d'extrémité SQL du service de flux de données.

Pour utiliser des points d'extrémité SQL du service de flux de données, vous devez disposer des éléments suivants :

  • Un compte Oracle Cloud Infrastructure. Les comptes d'essai peuvent être utilisés pour afficher le service de flux de données.
  • Le rôle d'administrateur de service pour les services Oracle Cloud. Lorsque le service est activé, les données d'identification et l'URL sont envoyées à l'administrateur de compte sélectionné. L'administrateur de compte crée un compte pour chaque utilisateur qui a besoin d'accéder au service.
  • Un navigateur pris en charge, comme :
    • Microsoft Internet Explorer 11.x ou version ultérieure

    • Mozilla Firefox ESR 38 ou version ultérieure

    • Google Chrome 42 ou version supérieure

    Note

    Pour l'interface utilisateur Spark, utilisez uniquement Google Chrome.
  • Données pour traitement chargées dans le stockage d'objets. Les données peuvent être lues à partir de sources de données externes ou de services en nuage. Les points d'extrémité SQL du service de flux de données optimisent les performances et la sécurité des données stockées dans le service de stockage d'objets.

Note

Évitez d'entrer des informations confidentielles lorsque vous affectez des descriptions, des marqueurs ou des noms conviviaux aux ressources en nuage au moyen de la console, de l'API ou de l'interface de ligne de commande d'Oracle Cloud Infrastructure. Il s'applique lors de la création ou de la modification d'applications dans le service de flux de données.

Présentation des points d'extrémité SQL

Le point d'extrémité SQL du service de flux de données est une entité de service qui utilise des grappes de calcul de longue durée dans votre location. Vous choisissez une forme de calcul et le nombre d'instances à utiliser. Chaque cluster s'exécute jusqu'à ce qu'un administrateur l'arrête. Spark s'exécute dans la grappe. Son moteur SQL est rapide, s'intègre au service de flux de données et prend en charge les données non structurées. Vous vous connectez à l'aide d'ODBC ou JDBC, authentifiez-vous à l'aide des données d'identification IAM.

Qu'est-ce que les points d'extrémité SQL du service de flux de données

Les points d'extrémité SQL du service de flux de données sont conçus pour les développeurs, les experts en science des données et les analystes avancés qui souhaitent interroger des données de manière interactive directement là où elles se trouvent dans le lac de données. Ces données sont relationnelles, semi-structurées et non structurées, comme les journaux, les flux de capteurs et les flux vidéo généralement stockés dans le magasin d'objets. Au fur et à mesure que le volume et la complexité des données augmentent, les outils pour explorer et analyser les données dans le lac de données dans des formats natifs, plutôt que de les transformer ou de les déplacer, deviennent importants. À l'aide des points d'extrémité SQL du service de flux de données, vous pouvez traiter économiquement de grandes quantités de données brutes, avec la sécurité native en nuage utilisée pour contrôler l'accès. Vous pouvez accéder aux informations dont ils ont besoin en libre-service, sans avoir à coordonner des projets informatiques complexes ni à vous soucier des données obsolètes. Les interrogations dans les points d'extrémité SQL du service de flux de données interagissent de façon transparente avec le lot de flux de données pour les pipelines de production programmés. Ils permettent une analyse rapide des données et utilisent des grappes de calcul à mise à l'échelle automatique de longue durée qui ont une taille fixe et qui sont exécutées jusqu'à ce que l'administrateur les arrête.

Points d'extrémité SQL du service de flux de données :

  • Fournir des analyses interactives directement sur le lac de données.
  • Elles sont conçues sur Spark pour l'évolutivité horizontale, la lecture et l'écriture faciles des données non structurées et l'interopérabilité avec le service de flux de données existant.
  • Utilise SQL pour faciliter les analyses.
  • Prendre en charge les principaux outils Business Intelligence (BI) à l'aide de connexions ODBC ou JDBC avec des données d'identification IAM.
  • Utiliser les données pour le traitement chargées dans le stockage d'objets. Les données peuvent être lues à partir de sources de données externes ou de services en nuage.

Les points d'extrémité SQL du service de flux de données prennent en charge tous les mêmes types de fichier pris en charge par Spark. Par exemple, JSON, Parquet, CSV et Avro.

Considérations relatives à l'intégration du magasin de métadonnées du catalogue de données

Une intégration étroite entre les points d'extrémité SQL du service de flux de données et le magasin de métadonnées du catalogue de données (" magasin de métadonnées ") est essentielle pour fournir un accès cohérent, fiable et gouverné aux tables externes et gérées. Grâce à cette intégration, un point d'extrémité SQL utilise le magasin de métadonnées comme référentiel faisant autorité pour les schémas, les définitions de table, les métadonnées de partition et les emplacements de stockage, ce qui permet de planifier et d'optimiser les interrogations sans balayer de manière répétée les fichiers sous-jacents.

Pour les tables externes, le magasin de métadonnées garantit que les informations de schéma et de partition restent cohérentes avec les dispositions du stockage d'objets, tandis que pour les tables gérées et Delta, il assure le suivi des métadonnées transactionnelles, du lignage et des opérations de cycle de vie. Cette couche de métadonnées unifiée permet à Spark SQL d'offrir une performance prévisible, d'appliquer des contrôles d'accès et de gouvernance, de soutenir l'évolution des schémas et de maintenir la compatibilité entre les charges de travail et les grappes.

Le magasin de métadonnées utilise un mécanisme de verrouillage léger pour s'assurer que les opérations LDD (langage de définition de données) simultanées exécutées au moyen d'un point d'extrémité SQL ne corrompent pas les métadonnées ni ne créent des états de table incohérents. Lorsqu'un énoncé LDD tel que CREATE/ALTER TABLE/PARTITION ou DROP TABLE/PARTITION est exécuté, le magasin de métadonnées acquiert un verrouillage exclusif, ce qui empêche d'autres sessions de modifier son schéma ou ses métadonnées jusqu'à la fin de l'opération.

Cette coordination des verrous protège contre les conditions de course (par exemple, deux utilisateurs qui modifient simultanément la même table) et garantit que le point d'extrémité SQL fonctionne sur une vue cohérente et sérialisée des métadonnées. En associant l'exécution LDD à l'application de verrous au niveau du magasin de métadonnées, le point d'extrémité SQL conserve l'intégrité transactionnelle pour les opérations de métadonnées, même dans des environnements multi-utilisateurs très concurrents.

Toutefois, les verrous bloquent temporairement l'accès aux métadonnées de table, et les opérations LDD de longue durée peuvent entraîner des retards notables pour les interrogations d'autres utilisateurs qui nécessitent des lectures de métadonnées, en particulier dans les environnements partagés ou hautement simultanés.

Pour minimiser ces impacts, coordonnez l'activité LDD pendant les fenêtres de maintenance à faible trafic ou au moyen de flux de travail orchestrés qui garantissent que les modifications de schéma se produisent en dehors des périodes d'exécution des interrogations de pointe.