Configuration de Data Flow

Pour pouvoir créer, gérer et exécuter des applications dans Data Flow, l'administrateur de locataire (ou tout utilisateur disposant de privilèges élevés permettant de créer des buckets et de modifier des stratégies dans IAM) doit créer des groupes, un compartiment, un stockage et les stratégies associées dans IAM.

En haut se trouvent les groupes d'utilisateurs, ETL, Data Engineering, Administration, SQL user et Data Science. Les utilisateurs du groupe ETL des espaces de travail DIS chargent des données à partir de diverses sources de données dans Data Flow. Il est nettoyé et préparé par les groupes d'utilisateurs Data Engineering, Admin et SQL. Les données sont envoyées à des bases de données disparates sur lesquelles les data scientists peuvent travailler dans des blocs-notes et à l'aide du catalogue de modèles. Voici les étapes de configuration de Data Flow :
  • Configuration des groupes d'identités.
  • Configuration des buckets de compartiment et de stockage d'objets.
  • Configuration de stratégies Identity and Access Management

Configurer des groupes d'identités

En règle générale, classez les utilisateurs Data Flow en trois groupes pour une séparation claire de leurs cas d'emploi et de leur niveau de privilège.

Créez les trois groupes suivants dans votre service d'identité et ajoutez des utilisateurs à chaque groupe :

  • administrateurs de flux de données
  • dataflow-data-engineers
  • dataflow-sql-users
administrateurs de flux de données
Les utilisateurs de ce groupe sont des administrateurs ou des superutilisateurs de Data Flow. Ils disposent des privilèges nécessaires pour effectuer une action sur Data Flow ou pour configurer et gérer différentes ressources liées à Data Flow. Ils gèrent les applications appartenant à d'autres utilisateurs et les exécutions démarrées par n'importe quel utilisateur de leur location. Les administrateurs de flux de données n'ont pas besoin d'un accès d'administration aux clusters Spark provisionnés à la demande par Data Flow, car ces clusters sont entièrement gérés par Data Flow.
dataflow-data-engineers
Les utilisateurs de ce groupe disposent des privilèges nécessaires pour gérer et exécuter les applications et exécutions Data Flow pour leurs travaux d'ingénierie des données. Par exemple, l'exécution de travaux ETL (extraction, transformation, chargement) dans les clusters Spark sans serveur à la demande de Data Flow. Les utilisateurs de ce groupe ne disposent pas et n'ont pas besoin d'un accès d'administration aux clusters Spark provisionnés à la demande par Data Flow, car ces clusters sont entièrement gérés par Data Flow.
dataflow-sql-users
Les utilisateurs de ce groupe sont autorisés à exécuter des requêtes SQL interactives en se connectant aux clusters SQL interactifs Data Flow via JDBC ou ODBC.

Configuration du compartiment et des buckets Object Storage

Suivez ces étapes pour créer un compartiment et des buckets Object Storage pour Data Flow.

Data Flow attend quatre buckets de stockage spécifiques dans Object Storage. Nous vous recommandons de créer un compartiment dédié à Data Flow dans lequel organiser et isoler vos ressources cloud. Pour plus d'informations sur les compartiments, reportez-vous à la documentation IAM.
  1. Créez un compartiment nommé dataflow-compartment.
    Suivez les étapes de création d'un compartiment dans la documentation IAM.
  2. Créez les buckets de stockage suivants dans Object Storage sous le compartiment dataflow-compartment :
    • journaux de flux de données
    • entrepôt de flux de données
    • regroupement de tables géré
    • table externe-bucket
    journaux de flux de données

    Data Flow nécessite un bucket pour stocker les journaux (stdout et stderr) de chaque exécution d'application. Créez-le en tant que bucket de niveau de stockage standard. L'emplacement du bucket doit respecter le modèle oci://dataflow-logs@<your_object_store_namespace>/.

    entrepôt de flux de données

    Le service Data Flow nécessite un entrepôt de données pour les applications Spark SQL. Créez-le en tant que bucket de niveau de stockage standard. L'emplacement de l'entrepôt doit respecter le modèle oci://dataflow-warehouse@<your_object_store_namespace>/.

    managed-table-bucket et external-table-bucket
    Pour les ressources de données non structurées et semi-structurées dans Object Storage, Data Flow nécessite un métastore pour stocker et extraire en toute sécurité des définitions de schéma. Le metastore Data Catalog fournit un metastore compatible Hive en tant que référentiel de métadonnées externe persistant partagé entre de nombreux services OCI. Avant de créer un métastore dans Data Catalog, vous devez créer deux compartiments dans Object Storage, qui doivent contenir les tables gérée et externe. Nous vous recommandons de nommer ces buckets managed-table-bucket et external-table-bucket.
    • Managed-table-bucket est utilisé pour les ressources associées à Managed Table dans le metastore compatible Hive de Data Catalog, où le metastore gère l'objet de table.
    • External-table-bucket est utilisé pour les ressources associées à External Table dans le metastore compatible Hive de Data Catalog, où vous gérez l'objet de table.