Configuration du service de flux de données

Pour que vous puissiez créer, gérer et exécuter des applications dans le service de flux de données, l'administrateur du locataire (ou tout utilisateur disposant de privilèges élevés pour créer des seaux et modifier des politiques dans IAM) doit créer des groupes, un compartiment, du stockage et des politiques associées dans IAM.

En haut se trouvent les groupes d'utilisateurs suivants : ETL, Data engineering, Administration, SQL user et Data Science. Les utilisateurs du groupe ETL des espaces de travail DIS chargent des données à partir de diverses sources de données dans le service de flux de données. Il est nettoyé et préparé par les utilisateurs des groupes d'utilisateurs Data Engineering, Admin et SQL. Les données sont envoyées à des bases de données disparates où les scientifiques de données peuvent les utiliser dans des carnets et à l'aide du catalogue de modèles. Voici les étapes requises pour configurer le service de flux de données :
  • définition des groupes d'identités;
  • Configuration du compartiment et des seaux de stockage d'objets.
  • Configuration des politiques de gestion des identités et des accès

Configurer les groupes d'identités

Dans une pratique générale, catégorisez les utilisateurs du service de flux de données en trois groupes pour séparer clairement leurs cas d'utilisation et leur niveau de privilège.

Créez les trois groupes suivants dans votre service d'identité et ajoutez des utilisateurs à chaque groupe :

  • flux de données-administrateurs
  • ingénieurs de flux de données
  • dataflow-sql-users
flux de données-administrateurs
Les utilisateurs de ce groupe sont des administrateurs ou des superutilisateurs du service de flux de données. Ils disposent des privilèges nécessaires pour effectuer une action sur le service de flux de données ou pour configurer et gérer différentes ressources liées au service de flux de données. Ils gèrent les applications appartenant à d'autres utilisateurs et les exécutions démarrées par n'importe quel utilisateur de leur location. Les administrateurs de flux de données n'ont pas besoin d'un accès d'administration aux grappes Spark provisionnées sur demande par le service de flux de données, car ces grappes sont entièrement gérées par le service de flux de données.
ingénieurs de flux de données
Les utilisateurs de ce groupe ont le privilège de gérer et d'exécuter des applications et des exécutions de flux de données pour leurs tâches d'ingénierie des données. Par exemple, l'exécution de tâches ETL (extraction, transformation, chargement) dans les grappes Spark sans serveur sur demande du service de flux de données. Les utilisateurs de ce groupe n'ont pas d'accès d'administration aux grappes Spark provisionnées sur demande par le service de flux de données, car ces grappes sont entièrement gérées par le service de flux de données.
dataflow-sql-users
Les utilisateurs de ce groupe ont le privilège d'exécuter des interrogations SQL interactives en se connectant aux grappes SQL interactives du service de flux de données sur JDBC ou ODBC.

Configuration du compartiment et des seaux de stockage d'objets

Suivez ces étapes pour créer un compartiment et des seaux de stockage d'objets pour le service de flux de données.

Le service de flux de données attend quatre seaux de stockage spécifiques dans le service de stockage d'objets. Nous vous recommandons de créer un compartiment dédié au service de flux de données dans lequel organiser et isoler vos ressources en nuage. Pour plus d'informations sur les compartiments, consultez la documentation relative au service IAM.
  1. Créez un compartiment nommé dataflow-compartment.
    Suivez les étapes pour créer un compartiment dans la documentation sur le service IAM.
  2. Créez les seaux de stockage suivants dans le stockage d'objets sous le compartiment dataflow-compartment :
    • journaux de flux de données
    • entrepôt de données
    • seau de table gérée
    • seau de table externe
    journaux de flux de données

    Le service de flux de données nécessite un seau pour stocker les journaux (stdout et stderr) pour chaque exécution d'application. Créez-le en tant que compartiment de niveau de stockage standard. L'emplacement du seau doit suivre ce modèle : oci://dataflow-logs@<your_object_store_namespace>/.

    entrepôt de données

    Le service de flux de données nécessite un entrepôt de données pour les applications SQL Spark. Créez-le en tant que compartiment de niveau de stockage standard. L'emplacement de l'entrepôt doit suivre ce modèle : oci://dataflow-warehouse@<your_object_store_namespace>/.

    seau-table géré et seau-table externe
    Pour les ressources de données non structurées et semi-structurées dans le stockage d'objets, le service de flux de données nécessite un magasin de métadonnées pour stocker et extraire des définitions de schéma en toute sécurité. Le magasin de métadonnées du catalogue de données fournit un magasin de métadonnées compatible avec Hive en tant que référentiel de métadonnées externe persistant partagé par de nombreux services OCI. Avant de créer un magasin de métadonnées dans le service de catalogue de données, vous devez créer deux compartiments dans le service de stockage d'objets, pour contenir les tables gérées et externes. Nous vous recommandons de nommer ces seaux managed-table-bucket et external-table-bucket.
    • Managed-table-bucket est utilisé pour les ressources liées à Managed Table dans le magasin de métadonnées compatible avec Hive du catalogue de données, où le magasin de métadonnées gère l'objet de table.
    • External-table-bucket est utilisé pour les ressources liées à External Table dans le magasin de métadonnées compatible avec Hive du catalogue de données, où vous gérez l'objet de table.