Avant de commencer à utiliser des adresses SQL Data Flow
Vérifiez les prérequis pour les adresses SQL Data Flow.
Pour utiliser des adresses SQL Data Flow, vous devez disposer des éléments suivants :
- Un compte Oracle Cloud Infrastructure. Les comptes d'essai peuvent être utilisés pour afficher Data Flow.
- Un rôle Administrateur de service pour les services Oracle Cloud. Lorsque le service est activé, les informations d'identification et l'URL sont envoyées à l'administrateur de compte choisi. L'administrateur de compte crée un compte pour chaque utilisateur ayant besoin d'accéder au service.
- Un navigateur pris en charge, tel que :
-
Microsoft Internet Explorer 11.x ou plus
-
Mozilla Firefox ESR 38 ou version ultérieure
-
Google Chrome 42 ou version ultérieure
Remarque
Pour l'interface utilisateur Spark, utilisez uniquement Google Chrome. -
-
Données à traiter chargées dans Object Storage. Les données peuvent être lues à partir de services cloud ou de sources de données externes. Les adresses SQL Data Flow optimisent les performances et la sécurité des données stockées dans Object Storage.
Evitez de saisir des informations confidentielles lorsque vous affectez des descriptions, des balises ou des noms conviviaux aux ressources cloud dans la console, l'API ou l'interface de ligne de commande Oracle Cloud Infrastructure. Il s'applique lors de la création ou de la modification d'applications dans Data Flow.
Comprendre les adresses SQL
L'adresse SQL Data Flow est une entité de service qui utilise des clusters de calcul à longue durée d'exécution dans votre location. Vous choisissez une forme de calcul et le nombre d'instances à utiliser. Chaque cluster s'exécute jusqu'à ce qu'un administrateur l'arrête. Spark est exécuté dans le cluster. Son moteur SQL est rapide, s'intègre à Data Flow et prend en charge les données non structurées. Vous vous connectez à l'aide d'ODBC ou de JDBC, puis vous authentifiez avec les informations d'identification IAM.
Points de terminaison SQL Data Flow
Les adresses SQL OCI Data Flow sont conçues pour les développeurs, les analystes de données et les analystes avancés afin d'interroger des données de façon interactive dans le lac de données. Ces données sont relationnelles, semi-structurées et non structurées, telles que les journaux, les flux de capteurs et les flux vidéo généralement stockés dans la banque d'objets. À mesure que le volume et la complexité des données augmentent, les outils permettant d'explorer et d'analyser les données du lac de données dans des formats natifs, plutôt que de les transformer ou de les déplacer, deviennent importants. A l'aide des adresses SQL Data Flow, vous pouvez traiter économiquement de grandes quantités de données brutes, avec une sécurité native du cloud utilisée pour contrôler l'accès. Vous pouvez accéder aux informations dont ils ont besoin en libre accès, sans avoir à coordonner des projets informatiques complexes ni à vous soucier de données obsolètes. Les requêtes dans les adresses SQL Data Flow interagissent de manière transparente avec le batch Data Flow pour les pipelines de production programmés. Ils permettent l'analyse rapide des données et utilisent des clusters de calcul à redimensionnement automatique à longue durée d'exécution, fixes et exécutés jusqu'à l'arrêt de l'administrateur.
Adresses SQL Data Flow :
- Fournissez des analyses interactives directement sur le lac de données.
- S'appuie sur Spark pour une évolutivité, une lecture et une écriture faciles des données non structurées et une interopérabilité avec les flux de données existants.
- Utilise SQL pour faciliter les analyses.
- Prise en charge des principaux outils Business Intelligence (BI) à l'aide de connexions ODBC ou JDBC avec des informations d'identification IAM.
- Utiliser les données pour le traitement chargé dans Object Storage. Les données peuvent être lues à partir de services cloud ou de sources de données externes.
Les adresses SQL Data Flow prennent en charge tous les mêmes types de fichier pris en charge par Spark. Par exemple, JSON, Parquet, CSV et Avro.
Remarques concernant l'intégration de metastore Data Catalog
Une intégration étroite entre les adresses SQL Data Flow et le metastore Data Catalog (le "metastore") est essentielle pour fournir un accès cohérent, fiable et régi aux tables externes et gérées. Grâce à cette intégration, une adresse SQL utilise le metastore comme référentiel faisant autorité pour les schémas, les définitions de table, les métadonnées de partition et les emplacements de stockage, ce qui permet de planifier et d'optimiser les requêtes sans analyser à plusieurs reprises les fichiers sous-jacents.
Pour les tables externes, le metastore garantit que les informations de schéma et de partition restent cohérentes avec les dispositions Object Storage, tandis que pour les tables gérées et Delta, il assure le suivi des métadonnées transactionnelles, du lignage et des opérations de cycle de vie. Cette couche de métadonnées unifiée permet à Spark SQL de fournir des performances prévisibles, d'appliquer des contrôles de gouvernance et d'accès, de prendre en charge l'évolution des schémas et de maintenir la compatibilité entre les charges de travail et les clusters.
Le metastore utilise un mécanisme de verrouillage léger pour garantir que les opérations LDD (langage de définition de données) simultanées exécutées via une adresse SQL n'endommagent pas les métadonnées ou ne créent pas d'états de table incohérents. Lorsqu'une instruction LDD telle que CREATE/ALTER TABLE/PARTITION ou DROP TABLE/PARTITION est exécutée, le metastore acquiert un verrou exclusif, empêchant les autres sessions de modifier son schéma ou ses métadonnées jusqu'à la fin de l'opération.
Cette coordination des verrous protège contre les conditions de course (par exemple, deux utilisateurs modifiant simultanément la même table) et garantit que l'adresse SQL fonctionne sur une vue cohérente et sérialisée des métadonnées. En associant l'exécution LDD à l'application de verrous au niveau du metastore, l'adresse SQL maintient l'intégrité transactionnelle des opérations de métadonnées, même dans des environnements multi-utilisateurs hautement simultanés.
Toutefois, les verrous bloquent temporairement l'accès aux métadonnées de table et les opérations LDD longues peuvent entraîner des retards notables pour les requêtes des autres utilisateurs qui nécessitent des lectures de métadonnées, en particulier dans les environnements partagés ou hautement simultanés.
Pour minimiser ces impacts, coordonnez l'activité LDD pendant les fenêtres de maintenance à faible trafic ou via des workflows orchestrés qui garantissent que les modifications de schéma se produisent en dehors des périodes d'exécution des requêtes de pointe.