Introduction à Data Integration
Avant de créer un espace de travail Data Integration, consultez les prérequis et la liste des tâches dont vous, le client, êtes responsable.
Liste de contrôle des responsabilités client
Vous devez disposer des ressources et des stratégies minimales suivantes dans la location. Si vous n'avez pas les droits appropriés, demandez à l'administrateur de les créer pour vous.
Avant de commencer
Avant de configurer le service Data Integration pour l'utiliser, vous devez :
- un compte Oracle Cloud Infrastructure avec des droits d'administrateur,
- Accès au service Data Integration
Liste des tâches client
Cette section récapitule les responsabilités des clients Data Integration avant de configurer et d'utiliser Data Integration pour la première fois.
Tâche | Description |
---|---|
Création de ressources Oracle Cloud Infrastructure pour vos activités Data Integration | Dans le service Oracle Cloud Infrastructure Identity and Access Management (IAM) avec des domaines d'identité, créez les compartiments, les utilisateurs et les groupes d'utilisateurs. |
Configuration de composants réseau pour vos sources de données | Vous pouvez configurer des réseaux cloud virtuels et des sous-réseaux sur Oracle Cloud Infrastructure Networking pour Data Integration. Seuls les sous-réseaux régionaux sont pris en charge, et des noms d'hôte DNS doivent être utilisés dans les sous-réseaux. Selon l'emplacement des sources de données que vous utilisez, vous devrez peut-être créer d'autres objets réseau, tels que des passerelles de service, des groupes de sécurité réseau et des passerelles NAT. Pour les sources de données dans un réseau privé, créez un VCN avec au moins un sous-réseau régional. |
Création de stratégies pour accéder à Data Integration et l'utiliser | Dans le service Oracle Cloud Infrastructure Identity and Access Management (IAM) avec des domaines d'identité, créez les stratégies requises pour accorder aux groupes d'utilisateurs un accès approprié aux ressources Data Integration. Data Integration doit également être autorisé à gérer les réseaux virtuels et les sous-réseaux que vous configurez pour l'intégration. Pour référence et des exemples, reportez-vous à Stratégies Data Integration et veillez également à comprendre la relation entre Droits d'accès et verbes. |
Lorsque vous créez un espace de travail dans Data Integration, vous pouvez activer le réseau privé que vous avez configuré. Après avoir créé un espace de travail, reportez-vous à Activités utilisateur standard d'intégration des données en guise de guide. |
Reportez-vous également à Sécurité des données.
Liste de contrôle des responsabilités partagées
Découvrez comment les tâches de gestion de plan de contrôle et de plan de données pour Data Integration sont partagées entre Oracle et vous, le client.
En règle générale, le plan de contrôle est responsable du provisionnement des ressources OCI et de la gestion des opérations de métadonnées pour obtenir, créer, mettre à jour et supprimer des espaces de travail Data Integration. Le plan de données est responsable des opérations de conception et d'exécution liées aux ressources de données, aux flux de données, aux pipelines, aux tâches et aux applications dans Data Integration.
Tâche | Qui | Description |
---|---|---|
Provisionnement des ressources d'espace de travail | Oracle et les clients |
Oracle est responsable du provisionnement des ressources Oracle Cloud Infrastructure pour les espaces de travail Data Integration, y compris les instances de calcul et leur connectivité à un sous-réseau (si fourni) via une carte d'interface réseau virtuelle secondaire. Vous, le client, êtes responsable de :
Pour obtenir la liste des responsabilités client permettant de configurer le service Data Integration avant la première utilisation, reportez-vous à la rubrique Liste de contrôle des responsabilités client. |
Sauvegarde et récupération des espaces de travail et des applications | Oracle et les clients |
Oracle sauvegarde le contenu en continu pour effectuer la récupération après sinistre des métadonnées des ressources du service Data Integration et le fonctionnement du service uniquement. Ces sauvegardes incluent les sauvegardes de l'espace de travail client, mais elles ne sont pas mises à la disposition des clients. Vous, le client, êtes responsable de la sauvegarde des données d'application en copiant les applications vers le même espace de travail, un autre espace de travail ou un autre compartiment. Ceci est particulièrement important pour la récupération après sinistre inter-région. |
Application de patches et mise à niveau aux services | Oracle | Oracle est responsable de l'application de patches et de la mise à niveau du service Data Integration et de ses composants d'agent. |
Redimensionnement | Oracle |
Oracle est responsable de la mise à l'échelle des plans de contrôle et de données. Vous, le client, pouvez demander le redimensionnement des ressources OCI dans le plan de données pour le calcul de l'agent. |
Surveillance de l'état | Oracle et les clients |
Oracle est responsable de la surveillance de l'état des ressources d'espace de travail et de leur disponibilité. Vous, le client, êtes responsable de la surveillance de l'état et des performances des tâches et des applications à tous les niveaux, y compris la disponibilité des ressources dépendantes référencées dans le plan de données lors des exécutions de tâche. |
Sécurité d'application | Oracle et les clients |
Oracle vérifie que les données stockées dans OCI sont cryptées et que les connexions à Data Integration nécessitent un cryptage SSL. Vous, le client, êtes responsable de la sécurité des applications à tous les niveaux. Cette responsabilité inclut l'accès aux ressources de l'espace de travail, l'accès réseau à ces ressources et l'accès aux données dépendantes. |
Audit en cours | Oracle et les clients |
Oracle est responsable de la journalisation des appels d'API REST vers les ressources d'espace de travail et de la mise à votre disposition de ces journaux à des fins d'audit. Vous, le client, êtes responsable de la configuration de l'accès aux journaux d'audit dans le service de journal d'audit, et de l'utilisation des journaux pour auditer l'utilisation et surveiller l'activité dans la location. |
Alertes et notifications | Oracle et les clients |
Oracle fournit des événements de service et des notifications. Vous, le client, êtes responsable de la configuration des alertes et des notifications pour les événements de service et de la surveillance des alertes susceptibles de vous intéresser. |
Création de ressources
Pour créer des ressources pour les activités Data Integration, procédez comme suit :
Création de stratégies
Pour contrôler l'accès des utilisateurs non administrateurs aux fonctions et aux ressources Data Integration, créez des groupes dans Oracle Cloud Infrastructure Identity and Access Management (IAM) avec des domaines d'identité. Ecrivez ensuite des stratégies IAM qui accordent à ces groupes un accès approprié.
Vous pouvez utiliser les modèles de stratégie Data Integration dans le générateur de stratégies IAM pour créer une stratégie, ou entrer manuellement les instructions de stratégie dans l'éditeur manuel. Pour plus d'informations sur l'utilisation du générateur de stratégies et des modèles de stratégie, reportez-vous à Ecriture d'instructions de stratégie à l'aide du générateur de stratégies.
Pour comprendre la syntaxe utilisée lors de l'écriture d'une instruction de stratégie, reportez-vous à Syntaxe de stratégie. Assurez-vous que vous connaissez la relation entre Droits d'accès et verbes.
Vous pouvez créer la plupart des stratégies Data Integration au niveau de la location ou du compartiment. Les stratégies répertoriées ici sont des exemples que vous pouvez modifier en fonction des besoins d'accès.
Pour obtenir plus d'exemples et de références, reportez-vous à Stratégies Data Integration.
Une fois que vous avez ajouté des composants IAM (par exemple, des groupes dynamiques et des instructions de stratégie), n'essayez pas d'effectuer les tâches associées immédiatement. Les nouvelles stratégies IAM prennent effet en cinq à 10 minutes environ.
Pour les espaces de travail
Cette stratégie autorise un groupe à créer des espaces de travail Data Integration.
allow group <group-name> to manage dis-workspaces in compartment <compartment-name>
Les utilisateurs disposant du droit d'accès inspect
peuvent uniquement répertorier les espaces de travail dis-workspaces
. Les utilisateurs disposant du droit d'accès manage
pour dis-workspaces
peuvent créer et supprimer des espaces de travail. Les utilisateurs disposant du droit d'accès use
peuvent uniquement effectuer des activités d'intégration dans les espaces de travail. Consultez d'autres exemples pour créer une stratégie pour des exigences spécifiques.
Cette stratégie autorise un groupe à vérifier le statut de création en cours d'un espace de travail.
allow group <group-name> to manage dis-work-requests in compartment <compartment-name>
Cette stratégie offre un accès à Data Integration permettant de répertorier les noms des utilisateurs dans le champ Création par lorsqu'ils créent des projets, des ressources de données et des applications dans l'espace de travail.
allow service dataintegration to inspect users in tenancy
Après avoir créé des espaces de travail, vous pouvez autoriser un groupe spécifique à gérer un espace de travail donné et aucun autre espace de travail :
allow group <group-name> to manage dis-workspaces in compartment <compartment-name> where target.workspace.id = '<workspace-ocid>'
Cette stratégie offre un accès à Data Integration permettant de déplacer un espace de travail d'un compartiment vers un autre (cible).
allow service dataintegration to inspect compartments in compartment <target-compartment-name>
Cette stratégie autorise un groupe à déplacer des espaces de travail Data Integration.
allow group <group-name> to manage dis-workspaces in compartment <source-compartment-name>
allow group <group-name> to manage dis-workspaces in compartment <target-compartment-name>
Cette stratégie autorise un groupe à gérer les espaces de noms de balise et les balises dans les espaces de travail Data Integration.
allow group <group-name> to manage tag-namespaces in compartment <compartment-name>
Pour ajouter une balise définie, vous devez être autorisé à utiliser l'espace de noms de balise. Pour en savoir plus sur le balisage, reportez-vous à Balises de ressource.
Ces stratégies offrent un accès Data Integration permettant d'accéder à la recherche dans les espaces de travail de la location.
allow service dataintegration to {TENANCY_INSPECT} in tenancy
allow service dataintegration to {DIS_METADATA_INSPECT} in tenancy
Lors de la création d'un espace de travail pour lequel un réseau privé est activé, pour vérifier si le sous-réseau dispose de suffisamment d'adresses IP à allouer, ajoutez la stratégie suivante :
allow group <group_name> to inspect instance-family in compartment <compartment_name>
Pour restreindre le droit d'accès à un appel d'API spécifique, ajoutez la stratégie suivante :
allow group <group_name> to inspect instance-family in compartment <compartment_name> where ALL {request.operation = 'ListVnicAttachments'}
allow service dataintegration to use virtual-network-family in compartment <compartment-name>
La stratégie suivante autorise un groupe à gérer les ressources réseau dans le compartiment.
allow group <group-name> to manage virtual-network-family in compartment <compartment-name>
Ou, pour les utilisateurs non administrateurs :
allow group <group-name> to use virtual-network-family in compartment <compartment-name>
allow group <group-name> to inspect instance-family in compartment <compartment-name>
Vous pouvez limiter les activités utilisateur sur le réseau lorsque vous affectez le droit d'accès inspect
pour les réseaux cloud virtuels et sous-réseau du compartiment au lieu de manage
. Les utilisateurs peuvent ensuite visualiser les réseaux cloud virtuels et sous-réseaux existants, et les sélectionner lors de la création d'un espace de travail. Consultez d'autres exemples pour créer une stratégie pour des exigences spécifiques.
Pour les ressources de données
Créez ces stratégies pour permettre à Data Integration d'accéder aux ressources Object Storage, telles que les objets et les buckets.
allow group <group-name> to use object-family in compartment <compartment-name>
allow any-user to use buckets in compartment <compartment-name> where ALL {request.principal.type = 'disworkspace', request.principal.id = '<workspace-ocid>'}
allow any-user to manage objects in compartment <compartment-name> where ALL {request.principal.type = 'disworkspace', request.principal.id = '<workspace-ocid>'}
Si l'espace de travail Data Integration et la source de données Object Storage se trouvent dans des locations différentes, vous devez également créer les stratégies suivantes pour les compartiments :
Dans la location de l'espace de travail :
Endorse any-user to inspect compartments in tenancy <tenancy-name> where ALL {request.principal.type = 'disworkspace'}
Dans la location Object Storage :
Admit any-user of tenancy <tenancy-name> to inspect compartments in tenancy
Vous devez disposer de différents types de stratégie (principal de ressource et Au nom de) pour utiliser Object Storage. Les stratégies requises dépendent également de la présence de l'instance Object Storage et de l'instance Data Integration dans la même location ou dans des locations différentes, et de la création des stratégies au niveau du compartiment ou de la location. Consultez d'autres exemples et le blog Politiques dans Oracle Cloud Infrastructure (OCI) Data Integration pour identifier les stratégies dont vous avez besoin.
Créez les stratégies suivantes pour permettre à Data Integration d'accéder aux buckets et aux objets d'Oracle Cloud Infrastructure Object Storage. Les stratégies sont requises pour la préparation des données extraites, qui nécessitent une pré-authentification pour terminer les opérations.
allow group <group-name> to use object-family in compartment <compartment-name>
allow any-user to use buckets in compartment <compartment-name> where ALL {request.principal.type = 'disworkspace', request.principal.id = '<workspace-ocid>'}
allow any-user to manage objects in compartment <compartment-name> where ALL {request.principal.type = 'disworkspace', request.principal.id = '<workspace-ocid>'}
allow any-user to manage buckets in compartment <compartment-name> where ALL {request.principal.type = 'disworkspace', request.principal.id = '<workspace-ocid>', request.permission = 'PAR_MANAGE'}
Vous devez disposer de différents types de stratégie (principal de ressource et Au nom de) pour utiliser Object Storage. Les stratégies requises dépendent également de la présence de l'instance Object Storage et de l'instance Data Integration dans la même location ou dans des locations différentes, et de la création des stratégies au niveau du compartiment ou de la location. Consultez d'autres exemples et le blog Politiques dans Oracle Cloud Infrastructure (OCI) Data Integration pour identifier les stratégies dont vous avez besoin.
Créez cette stratégie afin d'utiliser des clés secrètes dans OCI Vault pour les informations sensibles.
allow any-user to read secret-bundles in compartment <compartment-name> where ALL {request.principal.type = 'disworkspace', request.principal.id = '<workspace-ocid>'}
La stratégie suivante permet à un groupe d'utilisateurs qui ne sont pas administrateurs d'utiliser des clés secrètes avec Oracle Autonomous Data Warehouse et Oracle Autonomous Transaction Processing :
allow group <group-name> to read secret-bundles in compartment <compartment-name>
Créez cette stratégie si vous utilisez une base de données autonome en tant que cible. Les bases de données autonomes utilisent Object Storage pour la préparation des données et ont besoin d'une pré-authentification pour terminer les opérations.
allow any-user to manage buckets in compartment <compartment-name> where ALL {request.principal.type = 'disworkspace', request.principal.id = '<workspace-ocid>', request.permission = 'PAR_MANAGE'}
Créez cette stratégie si vous voulez que les informations d'identification de la base de données autonome soient extraites automatiquement lors de la création d'une ressource de données de base de données autonome.
allow group <group-name> to read autonomous-database-family in compartment <compartment-name>
Pour les publications
Créez les stratégies suivantes pour publier des tâches Data Integration à partir de Data Integration vers le service OCI Data Flow.
allow any-user to manage dataflow-application in compartment <compartment-name> where ALL {request.principal.type = 'disworkspace', request.principal.id = '<workspace-ocid>'}
allow any-user to read dataflow-private-endpoint in compartment <compartment-name> where ALL {request.principal.type = 'disworkspace', request.principal.id = '<workspace-ocid>'}
allow group <group-name> to read dataflow-application in compartment <compartment-name>
allow group <group-name> to manage dataflow-run in compartment <compartment-name>
Pour que les utilisateurs non administrateurs puissent effectuer une publication vers OCI Data Flow à l'aide d'une adresse privée, cette stratégie est requise pour afficher les adresses privées :
allow group <group-name> to inspect dataflow-private-endpoint in compartment <compartment-name>
Création d'un espace de travail
Pour pouvoir utiliser Data Integration, vous ou l'administrateur devez d'abord créer un espace de travail pour les projets d'intégration de données.
Créez un espace de travail une fois que les exigences de connectivité pour Data Integration sont satisfaites. Reportez-vous à Création de ressources.
Pour plus d'informations sur la mise en réseau, reportez-vous aux rubriques suivantes :
- Configurer des composants de réseau pour les ressources de données
- Blog : Comprendre la configuration de VCN pour l'intégration de données
- Blog : Utilisation de l'analyseur de chemin réseau (résoudre les problèmes, vérifier et valider)
Assurez-vous que vous disposez également des stratégies requises pour créer des espaces de travail, comme décrit dans Création de stratégies. Par exemple, si vous créez un espace de travail qui utilise des ressources de réseau cloud virtuel (VCN), vous devez créer des stratégies pour autoriser Data Integration à accéder au VCN dans le compartiment.
Utilisez l'espace de travail pour créer des artefacts de conception tels que des ressources de données, des flux de données et des tâches dans un ou plusieurs projets ou dossiers. Pour plus d'informations sur l'utilisation de projets dans un espace de travail, reportez-vous à Utilisation de projets et de dossiers.
Utilisez la commande oci data-integration workspace create et les paramètres requis pour créer un espace de travail :
oci data-integration workspace create [OPTIONS]
Afin d'obtenir la liste complète des indicateurs et des options de variable pour les commandes d'interface de ligne de commande, reportez-vous à Référence de ligne de commande.
Exécutez l'opération CreateWorkspace pour créer un espace de travail.
Composants d'une conception
Après avoir créé des ressources de données pour les systèmes de données source et cible, vous créez les processus d'intégration de données pour extraire, charger et transformer les données.
Dans Data Integration, pour inclure et transformer des données, vous créez des tâches de programme de chargement de données, des flux de données, des tâches d'intégration et d'autres tâches. Pour orchestrer un ensemble de tâches en séquence ou en parallèle, vous créez des pipelines et des tâches de pipeline. Vous pouvez utiliser les tâches suivantes pour vous guider.
Tâche | Description |
---|---|
Création d'une tâche de programme de chargement de données | Créez une tâche de programme de chargement de données à partir de la section Tâches de la page de détails d'un projet ou d'un dossier. Une tâche de programme de chargement de données prend des données dans une source, les transforme, puis les charge dans une cible. |
Créer un flux de données | Créez un flux de données à partir de la section Flux de données de la page de détails d'un projet ou d'un dossier. |
Ajouter des opérateurs | Dans le concepteur de flux de données, créez le flux logique des données entre les ressources de données source et les ressources de données cible. Ajoutez des opérateurs de données pour indiquer les sources de données source et cible. Ajoutez des opérateurs de mise en forme, tels que les opérateurs de filtre et de jointure, pour nettoyer, transformer et enrichir les données. |
Ajout de fonctions définies par l'utilisateur | Créez et utilisez des fonctions personnalisées. |
Application de transformations | Dans l'onglet Données d'un opérateur dans le concepteur de flux de données, appliquez des transformations pour agréger, nettoyer et mettre en forme les données. |
Affecter des paramètres | Dans l'onglet Détails d'un opérateur dans le concepteur de flux de données, affectez des paramètres pour externaliser et remplacer les valeurs. Les paramètres permettent de réutiliser différentes configurations de sources, de cibles et de transformations lors de la conception et de l'exécution. |
Création d'une tâche d'intégration | Une fois la conception d'un flux de données terminée, à partir de la section Tâches de la page de détails d'un projet ou d'un dossier, créez une tâche d'intégration qui utilise le flux de données. L'emballage du flux de données dans une tâche d'intégration permet d'exécuter le flux de données et de choisir les valeurs de paramètre à utiliser lors de l'exécution. |
Création d'autres tâches | Si nécessaire, vous pouvez créer d'autres types de tâche à partir de la section Tâches de la page de détails d'un projet ou d'un dossier. |
Création d'un pipeline | Créez un pipeline à partir de la section Pipelines de la page de détails d'un projet ou d'un dossier. Dans le concepteur de pipeline, utilisez des opérateurs pour ajouter les tâches et activités à orchestrer en tant qu'ensemble de processus en séquence ou en parallèle. Vous pouvez également utiliser des paramètres pour remplacer des valeurs lors de la conception et de l'exécution. |
Créer une tâche de pipeline | Une fois la conception d'un pipeline terminée, à partir de la section Tâches de la page de détails d'un projet ou d'un dossier, créez une tâche qui utilise le pipeline. L'encapsulation du pipeline dans une tâche de pipeline permet d'exécuter le pipeline et de choisir les valeurs de paramètre à utiliser lors de l'exécution. |