Inclusion et transformation de données à l'aide d'un flux de données
Un flux de données est un diagramme logique représentant le flux des données des ressources de données source (par exemple, base de données ou fichier plat) aux ressources de données cible (par exemple, lac de données ou entrepôt de données).
Le flux de données de la source vers la cible peut subir une série de transformations visant à agréger, nettoyer et mettre en forme les données. Les ingénieurs de données et les développeurs ETL peuvent ensuite analyser ou collecter des informations et les utiliser pour prendre des décisions commerciales importantes.
Dans ce tutoriel, vous effectuez les opérations suivantes :
- Créez un projet dans lequel vous pouvez enregistrer le flux de données.
- Ajoutez des opérateurs source et sélectionnez les entités de données à utiliser dans le flux de données.
- Utilisez des opérateurs de mise en forme et appliquez des transformations.
- Identifiez la ressource de données cible pour le chargement des données.
Avant de commencer
Pour inclure et transformer des données à l'aide d'un flux de données, vous devez disposer des éléments suivants :
- Accès à un espace de travail Data Integration. Reportez-vous à Connexion à Data Integration.
- Ressources de données source et cible créées.
-
Droit d'accès
PAR_MANAGE
activé sur le bucket de préparation.allow any-user to manage buckets in compartment <compartment-name> where ALL {request.principal.type = 'disworkspace', request.principal.id = '<workspace-ocid>', request.permission = 'PAR_MANAGE'}
Les bases de données autonomes utilisent Object Storage pour la préparation des données et ont besoin de demandes pré-authentifiées.
1. Création d'un projet et d'un flux de données
Dans Oracle Cloud Infrastructure Data Integration, les flux de données et les tâches peuvent uniquement être créés dans un projet ou un dossier.
Pour créer un projet et un flux de données, procédez comme suit :
2. Ajout d'opérateurs source
Vous ajoutez des opérateurs source afin d'identifier les entités de données à utiliser pour le flux de données. Une entité de données représente une table de base de données dans ce tutoriel.
3. Filtrage et transformation de données
L'opérateur Filtrer produit un sous-ensemble de données à partir d'un opérateur amont en fonction d'une condition.
A l'aide de Data Xplorer, vous pouvez explorer un échantillon de données, examiner des métadonnées de profilage et appliquer des transformations dans l'onglet Données du panneau Propriétés. Des opérateurs d'expression sont ajoutés au canevas pour chaque transformation appliquée.
4. Jointure de données
Après avoir appliqué des filtres et des transformations, vous pouvez joindre les entités de données source à l'aide d'un identificateur de client unique, puis charger les données dans une entité de données cible.
5. Ajout d'un opérateur cible
Ressources supplémentaires
Pour plus d'informations, reportez-vous aux sections suivantes ::
Etapes suivantes
Après avoir inclus et transformé des données à l'aide d'un flux de données, créez une tâche d'intégration pour configurer et exécuter le flux de données.