A propos des flux de données

Un flux de données définit comment les données sont déplacées et transformées entre différents systèmes.

Un flux de données dans les transformations de données connecte des sources à des cibles via un flux de composants tels que Join, Filter, Aggregate, Set, Split, etc. Pour plus d'informations, reportez-vous à Fonctions de base de données prises en charge.

Lorsque vous exécutez un flux de données, Data Transforms utilise les jointures, les filtres, les mappings et les contraintes pour transformer les données source et les charger dans des tables cible. Vous ne pouvez exécuter qu'un seul flux d'exécution à la fois. Vous ne pouvez pas placer plusieurs flux sur un flux de données et un flux ne peut pas diverger en plusieurs flux.

Sujets

Création d'un flux de données
Créez des flux de données pour charger des données à partir d'une connexion source, exécuter des transformations et déplacer les données vers une base de données cible.
Affichage et gestion des flux de données
La page Flux de données affiche la liste des flux de données.
A propos de l'éditeur de flux de données
L'éditeur de flux de données est divisé en cinq parties : le panneau Entité de données, la barre d'outils Fonctions de base de données, le canevas de conception, le panneau Propriétés et le panneau Statut.
Fonctions de base de données prises en charge
Oracle Data Transforms prend en charge diverses fonctions de base de données que vous pouvez glisser-déposer sur le canevas de conception pour connecter des composants dans un flux de données.
Ajout de composants
Ajoutez les entités de données et les fonctions de base de données au canevas de conception et connectez-les dans un ordre logique pour compléter vos flux de données.
Utilisation de vecteurs d'intégration dans un flux de données
Les transformations de données prennent en charge l'utilisation de types de données vectoriels et l'intégration de vecteurs dans un flux de données. Data Transforms s'intègre au service OCI Generative AI pour convertir le texte ou les images d'entrée en incorporations vectorielles que vous pouvez utiliser pour l'analyse et les recherches de données.
Utilisation de la jointure automatique pour mettre en correspondance des tables associées dans un flux de données
Vous pouvez utiliser la fonctionnalité de jointure automatique pour établir des conditions de jointure entre des tables en fonction de relations prédéfinies, telles que des relations clé primaire/clé étrangère ou des noms de colonne communs.
Génération de flux de données à partir d'instructions SQL
Vous pouvez utiliser des instructions SQL pour générer des flux de données à l'aide de la fonctionnalité d'analyseur SQL des transformations de données.
Création et utilisation d'une vue matérialisée dans un flux de données
Une vue matérialisée est un objet de base de données qui contient les résultats d'une requête. Pour utiliser des vues matérialisées dans des transformations de données, vous devez d'abord créer l'entité de données de vue matérialisée à l'aide de l'éditeur Data Flow, puis utiliser l'entité de données dans un flux de données comme source.
Propriétés de composant
Le panneau Propriétés affiche divers paramètres pour les composants sélectionnés dans le canevas de conception.
Mise en correspondance des colonnes de données
Lorsque vous connectez l'entité de données source à l'entité de données cible, les noms de colonne sont automatiquement mis en correspondance par les noms de colonne. Vous pouvez choisir de mettre en correspondance les colonnes par position ou par nom, ou de les mettre en correspondance manuellement à l'aide de l'éditeur d'expressions.
Validation et exécution d'un flux de données
Une fois les mappings prêts, vous pouvez procéder à la validation et à l'exécution du flux de données.

Rubrique parent : Page Data Transforms

Création d'un flux de données

Créez des flux de données pour charger des données à partir d'une connexion source, exécutez des transformations et déplacez les données vers une base de données cible.

Vous pouvez créer des flux de données de l'une des manières suivantes :

Le flux de données nouvellement créé s'affiche sur la page Flux de données du projet associé. Cliquez sur l'icône Actions () en regard du flux de données sélectionné pour le modifier, le renommer, le copier, le modifier, le démarrer, l'exporter ou le supprimer. Reportez-vous à Affichage et gestion des flux de données.

A partir de la page Projets

Pour créer un flux de données à partir de la page Projets,

Sur la page d'accueil, cliquez sur Projets dans le panneau de gauche.
Sur la page Projets, cliquez sur Créer un flux de données.
La page Créer un flux de données apparaît :
Dans le champ Nom, entrez un nom pour le nouveau flux de données.
Sélectionnez Créer un projet, si vous souhaitez créer un dossier de projet pour le flux de données nouvellement créé.
Sinon, cliquez sur Ajouter aux projets existants, si vous souhaitez ajouter le flux de données nouvellement créé à un dossier de projet existant.
Si vous avez sélectionné Créer un projet pour l'option précédente, entrez le nom du projet que vous venez de créer dans le champ Nom du projet.
Sinon, si vous avez sélectionné Ajouter à des projets existants pour l'option précédente, sélectionnez le projet requis dans la flèche déroulante Nom du projet.
Dans le champ Description, entrez la description du flux de données que vous venez de créer.
Cliquez sur Créer.

A partir de la page Flux de données d'un projet

Pour créer un flux de données à partir de la page Flux de données d'un projet, procédez comme suit :

Sur la page d'accueil, cliquez sur Projets dans le panneau de gauche.
Dans la page Projets, cliquez sur la mosaïque de projet pour laquelle vous souhaitez créer un flux de données.
Sur la page Détails du projet, cliquez sur Flux de données dans le panneau de gauche.
Sur la page Flux de données, cliquez sur Créer un flux de données.
Indiquez le nom et la description du nouveau flux de données.
Cliquez sur Suivant.
Pour définir la connexion source, dans la liste déroulante Connexion, sélectionnez la connexion requise à partir de laquelle vous souhaitez ajouter les entités de données.
Dans la liste déroulante Schema, tous les schémas correspondant à la connexion sélectionnée sont répertoriés en deux groupes :
- Schéma existant (éléments que vous avez importés dans Oracle Data Transforms) et
- Nouveau schéma de base de données (ceux que vous n'avez pas encore importés).
Sélectionnez le schéma à utiliser dans la liste déroulante. Pour les connexions Oracle Object Storage, la liste déroulante Schéma répertorie le nom du bucket indiqué dans l'URL lors de la création de la connexion.
Cliquez sur Enregistrer.
L'éditeur de flux de données apparaît et vous permet de créer un flux de données.

Sur la page d'accueil

Pour créer un flux de données à partir de la page d'accueil,

Sur la page d'accueil, cliquez sur Transformer les données. La page Create Data Flow apparaît.
Indiquez le nom et la description du nouveau flux de données.
Sélectionnez un nom de projet dans la liste déroulante. Vous pouvez également cliquer sur l'icône + pour créer un projet.
Cliquez sur Suivant.
Dans la liste déroulante Connexion, sélectionnez la connexion requise à partir de laquelle vous souhaitez ajouter les entités de données. Vous pouvez également cliquer sur l'icône + pour créer une connexion.
Dans la liste déroulante Schema, tous les schémas correspondant à la connexion sélectionnée sont répertoriés en deux groupes :
- Schéma existant (éléments que vous avez importés dans Oracle Data Transforms) et
- Nouveau schéma de base de données (ceux que vous n'avez pas encore importés).
Sélectionnez le schéma à utiliser dans la liste déroulante.
Cliquez sur Enregistrer.

Rubrique parent : A propos des flux de données

Afficher et gérer les flux de données

La page Flux de données affiche la liste des flux de données.

Vous pouvez rechercher le flux de données requis pour connaître ses détails en fonction des filtres suivants :

Nom du flux de données.
Dossier associé au flux de données.

Cliquez sur l'icône Actions () en regard du flux de données sélectionné pour effectuer les opérations suivantes :

Sélectionnez Modifier pour accéder à la page Détails du flux de données sur laquelle vous pouvez apporter des modifications et exécuter le flux de données.
Sélectionnez Renommer pour renommer le flux de données.
Sélectionnez Copier : pour créer une copie du flux de données sélectionné.
Sélectionnez Modifier le dossier pour modifier le dossier dans lequel se trouve le flux de données.
Cliquez sur Exporter pour exporter le flux de données. Reportez-vous à Export d'objets.
Cliquez sur Démarrer pour exécuter le flux de données.
Cliquez sur Afficher les dépendances pour vérifier les workflows dépendants associés au flux de données sélectionné, le cas échéant. Les dépendances sont regroupées par projet.
Vous pouvez supprimer un ou plusieurs flux de données. Pour supprimer des flux de données, procédez comme suit :
- Sélectionnez les flux de données.
- Cliquez sur le bouton Supprimer. Le premier écran de confirmation affiche la liste des flux de données sélectionnés.
- Cliquez sur Supprimer. Un autre écran de confirmation apparaît, répertoriant les workflows qui seront affectés dans le cadre de la suppression. Pour les flux de données qui n'ont aucune dépendance, l'écran de confirmation affiche le statut "Supprimé".
- Sélectionnez des flux de données, le cas échéant, et cliquez sur Supprimer. Un écran de confirmation affiche le statut des flux de données "Supprimé".
Le flux de données et toutes les étapes de workflow qui y font référence sont supprimés.

Rubrique parent : A propos des flux de données

A propos de l'éditeur Data Flow

L'éditeur de flux de données est divisé en cinq parties : le panneau Entité de données, la barre d'outils Fonctions de base de données, le canevas de conception, le panneau Propriétés et le panneau Statut.

Description de l'image datafloweditor.png

description de l'illustration datafloweditor.png,

Panneau Entités de données : le panneau Entité de données affiche les entités de données disponibles pour utilisation dans vos flux de données. La liste affichée peut être filtrée à l'aide des champs Nom et Balises. Le panneau comprend des options qui vous permettent d'ajouter des schémas, d'importer des entités de données, d'enlever tous les schémas associés au flux de données et d'actualiser les entités de données. Pour plus d'informations sur l'utilisation de ces options, reportez-vous à Ajouter des composants.
Ce panneau comprend également les commandes suivantes :
- : enregistre le flux de données.
- : exécute le flux de données.
- : permet de planifier l'exécution du flux de données à un intervalle de temps spécifié.
- : valide le flux de données.
- : permet de vérifier le code qui sera exécuté lorsque vous exécuterez le travail de flux de données.
- : aligne les noeuds du flux de données.
- : Agrandit ou réduit le diagramme de flux de données dans le canevas de conception.
- : permet d'utiliser des requêtes SQL pour créer un flux de données. Reportez-vous à Génération d'un flux de données à partir d'instructions SQL.
- : synchronise les mises à jour apportées aux entités de données dans le flux de données.
Barre d'outils Fonctions de base de données : la barre d'outils Fonctions de base de données affiche les fonctions de base de données qui peuvent être utilisées dans vos flux de données. Tout comme les entités de données, vous pouvez glisser-déposer les outils de base de données à utiliser sur le canevas de conception. Pour plus d'informations, reportez-vous à Fonctions de base de données prises en charge.
canevas de conception : le canevas de conception est l'endroit où vous créez votre logique de transformation. Après avoir ajouté les entités de données et les fonctions de base de données au canevas de conception, vous pouvez les connecter dans un ordre logique pour compléter vos flux de données.
Panneau Propriétés : le panneau Propriétés affiche les propriétés de l'objet sélectionné sur le canevas de conception. Le panneau Propriétés est regroupé en quatre onglets. Général, Attributs, Aperçu des données, Mise en correspondance de colonnes et Options. Tous les onglets ne sont pas disponibles car ils varient en fonction de l'objet sélectionné. Pour en savoir plus sur ces options, reportez-vous à Propriétés de composant.
Panneau d'état : lorsque vous exécutez un flux de données, le panneau d'état affiche le statut du travail en cours d'exécution en arrière-plan pour terminer la demande. Vous pouvez voir le statut du travail en cours d'exécution ou celui du dernier travail. Pour plus d'informations sur le panneau Statut, reportez-vous à la section Monitor Status of Data Loads, Data Flows, and Workflows.

Rubrique parent : A propos des flux de données

Fonctions de base de données prises en charge

Oracle Data Transforms prend en charge diverses fonctions de base de données que vous pouvez glisser-déposer sur le canevas de conception pour connecter des composants dans un flux de données.

La barre d'outils Fonctions de base de données de l'éditeur Data Flow inclut les fonctions de base de données suivantes qui peuvent être utilisées dans vos flux de données. Pour plus d'informations sur les fonctions de base de données, reportez-vous à Oracle Database SQL Language Reference.

Transformation des données
Elle propose plusieurs options :
- Agréger
- Expression
- Filtrer
- Rejoindre
- Distinct
- Code express
- Définir
- Trier
- Filtre de sous-requête
- Fonction de table
Préparation des données
Elle propose plusieurs options :
- Nettoyage des données
- Substitution
- Equi_Width Catégorisation
- Plages par quantiles
- LEAD
- Décalage
- Remplacer
Machine Learning
Elle propose plusieurs options :
- Prévision
- Modèle de prévision
- Détection des valeurs aberrantes
- Vecteur de plongement textuel
Texte
Elle propose plusieurs options :
- NOMBRE D'EXPRESSIONS RÉGULIÈRES
- INSTR. EXPRESSION RÉGULIÈRE
- SUBSTRAT D'EXPRESSION RÉGULIÈRE
- REMPLACEMENT D'EXPRESSION RÉGULIÈRE
- Modifier la similarité de distance
- Contient
Oracle Spatial and Graph
Elle propose plusieurs options :
- Dimension de tampon
- Tolérance de tampon
- Dimension de distance
- Tolérance de distance
- Au plus proche
- Simplifier
- Point
- Outils de géocode :
  Remarque
  
  Les outils de géocodage suivants fonctionnent uniquement dans un environnement non Autonomous Database.
  - Géocoder sous forme de géométrie
  - Géocoder
  - Géocoder une adresse
  - Géocoder tout
  - Géocoder toutes les adresses
  - Géocodage inverse
  Remarque
  
  L'outil de géocodage suivant fonctionne uniquement dans un environnement Autonomous Database.
  - Géocoder le cloud
- Jointure spatiale

Rubrique parent : A propos des flux de données

Ajout de composants

Ajoutez les entités de données et les fonctions de base de données au canevas de conception et connectez-les dans un ordre logique pour compléter vos flux de données.

Pour ajouter des composants à votre flux de données :

Dans le panneau Entités de données, cliquez sur Ajouter un schéma pour ajouter des schémas qui contiennent les entités de données à utiliser dans le flux de données.
Dans la page Add a Schema, sélectionnez la connexion et le nom du schéma.
Cliquez sur Importer.
Dans la page Importer des entités de données, sélectionnez le type d'objet à importer. Choisissez un masque/filtre si vous ne voulez pas importer tous les objets du schéma, puis cliquez sur Démarrer.
Le panneau Entités de données répertorie les entités de données importées. Le panneau comprend différentes options qui vous permettent d'effectuer les opérations suivantes :
- Refresh Data Entities – Cliquez sur l'icône Refresh pour régénérer la liste affichée.
- Nom : recherchez des entités de données par nom.
- Balises : filtrez les entités de données en fonction du nom de la balise utilisée.
- Importer des entités de données : cliquez avec le bouton droit de la souris sur le schéma pour afficher cette option. Utilisez cette option pour importer les entités de données.
- Enlever le schéma : cliquez avec le bouton droit de la souris sur l'entité de données pour afficher cette option. Utilisez cette option pour enlever le schéma de la liste. Notez que cette option ne supprime pas le schéma, mais seulement l'association du schéma à ce flux de données.
Si nécessaire, ajoutez d'autres schémas au flux de données.
Faites glisser les entités de données requises que vous souhaitez utiliser dans le flux de données et déposez-les sur le canevas de conception.
Dans la barre d'outils Fonctions de base de données, faites glisser le composant de transformation à utiliser dans le flux de données et déposez-le sur le canevas de conception. Vous pouvez utiliser des variables dans le flux de données. Pour plus d'informations, reportez-vous à Utilisation de variables dans un flux de données.
Sélectionnez un objet sur le canevas de conception et faites glisser l'icône Connecteur () en regard de celle-ci pour connecter les composants.
Une fois le flux de données enregistré, une icône Transfert peut être superposée sur une ou plusieurs connexions de composant. Cela indique qu'ODI a détecté une étape supplémentaire et qu'il est nécessaire de déplacer les données entre les serveurs de données. Vous pouvez cliquer sur cette icône pour afficher les propriétés associées à cette étape.

Par exemple :

Description de l'image add-components.png

description de l'illustration add-components.png,

Rubrique parent : A propos des flux de données

Utiliser l'incorporation de vecteurs dans un flux de données

Data Transforms prend en charge l'utilisation de types de données vectoriels et l'intégration de vecteurs dans un flux de données. Data Transforms s'intègre au service OCI Generative AI pour convertir le texte ou les images d'entrée en incorporations vectorielles que vous pouvez utiliser pour l'analyse et les recherches de données.

Avant d'utiliser des vecteurs d'intégration dans un flux de données, vous devez effectuer les opérations suivantes :

Créez une connexion Oracle AI Database 26ai. Pour obtenir des instructions génériques sur la création d'une connexion dans les transformations de données, reportez-vous à Utilisation des connexions.
Créez une connexion d'IA générative Oracle Cloud Infrastructure (OCI). Reportez-vous à Création et utilisation d'une connexion Oracle Cloud Infrastructure Generative AI.
Créer un flux de données. Reportez-vous à Création d'un flux de données pour découvrir les différentes options que vous pouvez utiliser pour créer un flux de données.

Vous pouvez ajouter les types d'intégration suivants dans un flux de données :

Utiliser des vecteurs d'intégration de texte dans un flux de données

Pour l'intégration de texte, les transformations de données prennent en charge à la fois le texte stocké dans une colonne et les liens HTTP stockés dans une colonne.

Pour utiliser des incorporations de vecteurs de texte dans un flux de données, procédez comme suit :

Sélectionnez le flux de données dans la liste affichée sur la page Flux de données de votre projet.
Dans l'éditeur de flux de données, cliquez sur Ajouter un schéma pour définir la source. Dans la liste déroulante Connexion, sélectionnez la connexion Oracle AI Database 26ai et le schéma à utiliser dans la liste déroulante. Cliquez sur OK. Définissez la connexion cible de la même manière.
Dans le panneau de gauche, faites glisser la table que vous souhaitez utiliser comme source dans le flux de données et déposez-la sur le canevas de conception.
Dans la barre d'outils Fonctions de base de données, cliquez sur Machine Learning et faites glisser le composant de transformation Vecteur d'incorporation de texte vers le canevas de conception.
Sélectionnez l'objet source sur le canevas de conception et faites glisser l'icône Connecteur () en regard de celle-ci pour le connecter au composant de transformation Vecteur d'incorporation de texte.
Cliquez sur le composant de transformation Vecteur d'incorporation de texte pour afficher ses propriétés dans le panneau de droite.
Dans l'onglet Général, indiquez les informations suivantes :
- Service AI : sélectionnez OCI Generative AI dans la liste déroulante.
- Connexion : la liste déroulante répertorie toutes les connexions disponibles pour le service AI sélectionné. Sélectionnez la connexion à utiliser.
- Modèle AI : la liste déroulante répertorie tous les modèles disponibles pour le service et la connexion AI sélectionnés. Les modèles suivants sont répertoriés :
  - cohere.embed-english-light-v2.0
  - cohere.embed-english-light-v3.0
  - cohere.embed-english-v3.0
  - cohere.embed-multilingual-light-v3.0
  - cohere.embed-multilingual-v3.0
  Vous pouvez également saisir le nom du modèle.
Dans l'onglet Mise en correspondance de colonnes, mettez en correspondance la colonne source à intégrer avec l'attribut INPUT de l'opérateur. La seule colonne disponible dans les mappings de colonne est input_text. Faites glisser une colonne de texte des colonnes disponibles vers la colonne Expression. Il s'agit des données sur lesquelles les vecteurs seront construits.
Faites glisser la table à utiliser comme cible dans le flux de données et déposez-la sur le canevas de conception.
Sélectionnez le composant de transformation Vecteur d'intégration de texte et faites glisser l'icône Connecteur () en regard de celui-ci pour le connecter à l'objet cible.
Enregistrez () et exécutez () le flux de données.
Data Transforms crée des vecteurs pour chacune des lignes de la table source et les écrit dans la table cible.

Pour vérifier l'état du flux de données, reportez-vous au panneau Statut situé à droite sous le panneau Propriétés. Pour plus d'informations sur le panneau Statut, reportez-vous à la section Monitor Status of Data Loads, Data Flows, and Workflows. Ce panneau affiche également le lien vers l'ID de travail sur lequel vous pouvez cliquer pour surveiller la progression sur la page Travaux.

Pour afficher l'intégration de vecteurs générée dans le cadre du flux de données, sélectionnez la table cible sur le canevas de conception et cliquez sur l'icône dans le panneau de droite. Vous devriez voir une entrée appelée VECTOR_EMBEDDING de type VECTOR. Ce nom peut être modifié.

Utilisation de vecteurs d'incorporation d'images dans un flux de données

Pour l'utilisation des vecteurs d'intégration d'images, les transformations de données prennent en charge les images appartenant au type de données BLOB.

Pour utiliser l'intégration de vecteurs d'image dans un flux de données, procédez comme suit :

Dans l'éditeur de flux de données, cliquez sur Ajouter un schéma pour définir la connexion source. Dans la liste déroulante Connexion, sélectionnez la connexion Oracle AI Database 26ai et le schéma à utiliser dans la liste déroulante. Cliquez sur OK. Définissez la connexion cible de la même manière.
Dans le panneau de gauche, faites glisser la table que vous souhaitez utiliser comme source dans le flux de données et déposez-la sur le canevas de conception.
Sélectionnez la table source dans le canevas de conception et cliquez sur l'icône dans le panneau de droite pour prévisualiser les données de la table. Assurez-vous que la table comprend une colonne qui répertorie les images que vous souhaitez utiliser pour l'intégration de vecteurs.
Ajoutez une jointure de type Filtre et définissez la condition de filtre souhaitée.
Sélectionnez l'objet source sur le canevas de conception et faites glisser l'icône Connecteur () en regard de celle-ci pour la connecter à la jointure Filtre.
Dans la barre d'outils Fonctions de base de données, cliquez sur Machine Learning et faites glisser le composant de transformation Vecteur d'intégration d'image vers le canevas de conception.
Sélectionnez la jointure Filtre et faites glisser l'icône Connecteur () en regard de celle-ci pour la connecter au composant de transformation Vecteur d'intégration d'image.
Cliquez sur le composant de transformation Vecteur d'intégration d'image pour afficher ses propriétés dans le panneau de droite.
Dans l'onglet Général, indiquez les informations suivantes :
- Service AI : sélectionnez OCI Generative AI dans la liste déroulante.
- Connexion AI : la liste déroulante répertorie toutes les connexions disponibles pour le service AI sélectionné. Sélectionnez la connexion à utiliser.
- Modèle AI : la liste déroulante répertorie tous les modèles disponibles pour le service et la connexion AI sélectionnés. Les modèles suivants sont répertoriés :
  - cohere.embed-v4.0
  - cohere.embed-english-image-v3.0
  - cohere.embed-english-light-image-v3.0
  - cohere.embed-multilingual-image-v3.0
  - cohere.embed-multilingual-lumière-image-v3.0
  Vous pouvez également saisir le nom du modèle.
[Facultatif] Si la colonne de table source répertorie une image stockée dans un fichier d'un bucket OCI Object Storage, sélectionnez la connexion dans la liste déroulante Connexion Object Storage. Les transformations de données extraient le fichier à partir de cet emplacement pour l'intégration.
Dans l'onglet Mise en correspondance de colonnes, mettez en correspondance la colonne source qui répertorie les images à intégrer à l'attribut INPUT de l'opérateur. La seule colonne disponible dans les mappings de colonne est input_image. Faites glisser une colonne de texte des colonnes disponibles vers la colonne Expression. Il s'agit des données sur lesquelles les vecteurs seront construits.
Faites glisser la table à utiliser comme cible dans le flux de données et déposez-la sur le canevas de conception.
Sélectionnez le composant de transformation Vecteur d'intégration d'image et faites glisser l'icône Connecteur () en regard de celle-ci pour la connecter à l'objet cible.
Enregistrez () et exécutez () le flux de données.
Data Transforms crée des vecteurs pour chacune des lignes de la table source et les écrit dans la table cible.

Pour vérifier l'état du flux de données, reportez-vous au panneau Statut situé à droite sous le panneau Propriétés. Pour plus d'informations sur le panneau Statut, reportez-vous à la section Monitor Status of Data Loads, Data Flows, and Workflows. Ce panneau affiche également le lien vers l'ID de travail sur lequel vous pouvez cliquer pour surveiller la progression sur la page Travaux.

Pour afficher l'intégration de vecteurs générée dans le cadre du flux de données, sélectionnez la table cible sur le canevas de conception et cliquez sur l'icône dans le panneau de droite. Vous devriez voir une entrée appelée VECTOR_EMBEDDING de type VECTOR. Ce nom peut être modifié.

Rubrique parent : A propos des flux de données

Utiliser la jointure automatique pour mapper des tables associées dans un flux de données

Vous pouvez utiliser la fonctionnalité de jointure automatique pour établir des conditions de jointure entre les tables en fonction de relations prédéfinies, telles que des relations clé primaire/clé étrangère ou des noms de colonne communs.

Pour utiliser des jointures automatiques dans un flux de données, procédez comme suit :

Suivez les instructions fournies dans Création d'un flux de données pour créer un flux de données.
Dans l'éditeur de flux de données, cliquez sur Ajouter un schéma pour définir la connexion source.
Faites glisser la table contenant la clé étrangère et déposez-la sur le canevas de conception.
Sélectionnez l'objet sur le canevas de conception, puis cliquez sur l'icône .
La page Rejoindre une entité de données apparaît. Elle répertorie les tables dans lesquelles la clé étrangère de cette table référence la clé primaire d'une autre table.
Sélectionnez les tables à utiliser, puis cliquez sur Enregistrer. La condition de jointure est alors automatiquement créée.
Enregistrez et exécutez le flux de données.
Les transformations de données rejoignent les tables et insèrent les enregistrements correspondants dans la table cible.

Rubrique parent : A propos des flux de données

Générer un flux de données à partir d'instructions SQL

Vous pouvez utiliser des instructions SQL pour générer des flux de données à l'aide de la fonctionnalité d'analyseur SQL des transformations de données.

Vous pouvez fournir une représentation d'un flux de données avec des entités de données cible et source en incluant à la fois les sections INSERT (cible) et SELECT (source) dans l'instruction SQL. Vous pouvez également fournir une instruction avec uniquement la section SELECT. Dans ce cas, le flux de données généré inclut l'entité de données source et les opérations de transformation décrites dans l'instruction SQL, mais omet l'entité de données cible. La fonctionnalité d'analyseur SQL Data Transforms analyse l'instruction SQL, la convertit en flux de données et l'affiche dans le canevas de conception.

L'analyseur SQL prend en charge les opérateurs suivants :

Entités de données : les entités de données sont générées en fonction de leur emplacement dans les instructions SQL reçues en tant qu'entrées par l'analyseur SQL.
Expression : les composants d'expression sont générés lorsqu'une fonction est identifiée dans l'instruction SQL. Toutefois, ce type de composant n'est pas généré si la fonction est une agrégation. Dans ce cas, il est remplacé par un composant d'agrégation. Les composants d'expression sont également générés si le composant SQL Parser trouve des expressions arithmétiques ou logiques dans l'instruction.
Agrégation : les composants d'agrégation sont générés exclusivement lorsque des fonctions d'agrégation sont détectées dans l'instruction SQL. Ces composants peuvent être créés, qu'ils incluent ou non d'autres opérateurs d'agrégation, tels que GROUP BY et HAVING.
Filtre : les composants de filtre sont générés chaque fois que le composant d'analyseur SQL rencontre le mot-clé WHERE et qu'il est capable de gérer tout type de condition.
Jointure : les composants de jointure sont générés pour chaque type de jointure pris en charge par Oracle et peuvent gérer la condition de jointure indiquée dans l'instruction SQL. Notez les points suivants concernant la notation de jointure externe non ANSI pour les jointures implicites (+) :
- Bien que la génération de flux de données prenne en charge les jointures implicites, elle ne respecte pas l'opérateur de jointure externe non ANSI (+) Oracle.
- Les instructions SQL utilisant (+) n'échoueront pas lors de la génération. Toutefois, le composant de jointure généré est toujours inféré comme une jointure interne, même si (+) indique une jointure externe gauche ou droite.
- Pour garantir une sémantique de jointure externe correcte, utilisez la syntaxe de jointure ANSI (LEFT OUTER JOIN/RIGHT OUTER JOIN) si elle est prise en charge.
Définir : les composants de jeu sont générés pour tous les types d'opération de jeu (UNION, INTERSECT et EXCEPT, par exemple) lorsqu'ils sont présents dans l'instruction SQL.

Pour générer un flux de données à l'aide d'instructions SQL :

Suivez les instructions fournies dans Création d'un flux de données pour créer un flux de données.
Dans l'éditeur de flux de données, cliquez sur l'icône .
Sur la page Générer un flux de données à partir de SQL, insérez l'instruction SQL dans la fenêtre Entrer une requête SQL. Reportez-vous à l'Example.
Cliquez sur Générer.
La fonction d'analyseur SQL génère le flux de données et affiche un aperçu.
Cliquez sur Appliquer pour charger le flux de données sur le canevas de conception.
Enregistrez le flux de données.
Si nécessaire, faites glisser d'autres éléments vers le canevas de conception.
Enregistrez et exécutez le flux de données.

Remarque

Vous ne pouvez pas utiliser la fonctionnalité d'analyseur SQL pour l'ajouter à un flux de données existant. Un flux de données ajouté à l'aide de l'analyseur SQL écrasera tout flux de données existant sur le canevas de conception.

Exemple

L'exemple suivant illustre l'utilisation d'un composant d'agrégation dans une instruction SQL pour générer un flux de données :

INSERT 
  /*+  APPEND PARALLEL  */ 
  INTO DEMO_TARGET.SUB_QUANTITY
  (
    QUANTITY_SOLD ,
    PROD_SUBCATEGORY 
  ) 
SELECT 
  (SUM(SALES.QUANTITY_SOLD)) ,
  PRODUCTS.PROD_SUBCATEGORY  
FROM 
  SH.SALES SALES  INNER JOIN  SH.PRODUCTS PRODUCTS  
    ON  SALES.PROD_ID=PRODUCTS.PROD_ID
GROUP BY
  PRODUCTS.PROD_SUBCATEGORY

Le flux de données généré se présente comme suit :

Exemple de flux de données généré à l'aide de l'analyseur SQL

Rubrique parent : A propos des flux de données

Créer et utiliser une vue matérialisée dans un flux de données

Une vue matérialisée est un objet de base de données qui contient les résultats d'une requête. Pour utiliser des vues matérialisées dans des transformations de données, vous devez d'abord créer l'entité de données de vue matérialisée à l'aide de l'éditeur Data Flow, puis utiliser l'entité de données dans un flux de données comme source.

Pour utiliser une entité de données de vue matérialisée dans l'éditeur de flux de données,

Faites glisser l'entité de données sur laquelle vous voulez construire la vue matérialisée vers le canevas de conception.
Sélectionnez le composant et cliquez sur l'icône Ajouter une entité de données présente dans l'angle supérieur droit du composant.
La page Ajouter une entité de données apparaît et vous permet de configurer les détails suivants du composant cible :
Onglet Général
- Dans la zone de texte Nom, entrez le nom de la nouvelle entité de données créée.
- Dans la liste déroulante Type d'entité, sélectionnez le type d'entité de données Vue matérialisée.
  Lorsque vous sélectionnez ce type d'entité, la liste déroulante Type de connexion répertorie uniquement Oracle comme option et la liste déroulante Connexion contient la même connexion que l'entité de données source. Les deux options sont grisées.
- Dans la liste déroulante Schéma, tous les schémas correspondant à la connexion sélectionnée sont répertoriés dans deux groupes.
  - Nouveau schéma de base de données (ceux dont vous n'avez pas importé auparavant) et
  - Schéma de base de données existant (ceux dont vous avez importé précédemment et qui remplacent potentiellement des entités de données).
  Dans la liste déroulante Schéma, sélectionnez le schéma requis.
- Dans la zone de texte Balises, entrez la balise de votre choix. Vous pouvez utiliser des balises pour filtrer les entités de données affichées sur la page Entité de données.
- Pour marquer cette entité de données comme groupe de fonctions, développez Options avancées et cochez la case Traiter comme groupe de fonctions.
- Cliquez sur Suivant.
Onglet Colonnes
- Cliquez sur l'icône Add Columns (Ajouter des colonnes) pour ajouter des colonnes à la nouvelle entité de données.
  Une nouvelle colonne est ajoutée au tableau affiché.
- La table comporte les colonnes suivantes :
  - Nom
  - Type de données : cliquez sur la cellule pour configurer le type de données requis.
  - Redimensionner
  - Longueur
  - Actions : cliquez sur l'icône en forme de croix pour supprimer la colonne créée.
- Pour supprimer les colonnes en masse, sélectionnez-les et cliquez sur l'icône Supprimer.
- Pour rechercher les détails de colonne requis, saisissez le nom de la colonne requise dans la zone de texte Rechercher et cliquez sur Entrée. Les détails de la colonne requise s'affichent.
- Cliquez sur Suivant.
Onglet Aperçu de l'entité de données

Cet onglet affiche un aperçu de toutes les colonnes créées et de leurs détails configurés.
Cliquez sur Enregistrer pour enregistrer la configuration et quitter l'assistant. L'entité de données de vue matérialisée est ajoutée en tant que composant sur le canevas de conception.
Cliquez sur l'entité de données de la vue matérialisée et, dans le volet Propriétés à droite, cliquez sur Options ().
Définissez les options suivantes pour définir les paramètres d'actualisation :
- Recréer une vue matérialisée : cette option vous permet de supprimer la vue matérialisée existante et d'en créer une si la définition change. Définissez cette valeur sur true pour recréer la vue matérialisée afin qu'elle corresponde à la requête du flux de données mis à jour. Cela ne doit être fait qu'une seule fois. La valeur par défaut est false.
- Actualiser avec : Cette option vous permet d'indiquer si l'actualisation incrémentielle doit être effectuée à l'aide de PRIMARY KEY ou du ROWID interne. La valeur par défaut est ROWID.
Enregistrez et exécutez le flux de données. Le panneau de gauche de la page Détails du flux de données répertorie les entités de données de vue matérialisée que vous pouvez utiliser en tant que composant source dans un flux de données.
Glissez-déplacez l'entité de données de vue matérialisée vers le canevas de conception. Faites glisser les entités de données requises que vous souhaitez utiliser dans le flux de données et déposez-les sur le canevas de conception.
Enregistrez et exécutez le flux de données. Lors de l'exécution du flux de données, la vue matérialisée est actualisée en fonction des paramètres configurés.

Rubrique parent : A propos des flux de données

Propriétés de composant

Le panneau Propriétés affiche divers paramètres pour les composants sélectionnés dans le canevas de conception.

Selon le composant sélectionné, vous pouvez voir l'une des icônes suivantes :

Général () : affiche le nom du composant, ainsi que ses détails de connexion et de schéma. Vous pouvez modifier certaines de ces propriétés.
Attributs () : affiche les détails de tous les attributs associés au composant.
Mise en correspondance de colonnes () : permet de mettre en correspondance automatiquement toutes les colonnes. Pour plus d'informations, reportez-vous à Mettre en correspondance des colonnes de données.
Preview () : affiche un aperçu du composant. Pour les tables Oracle, vous pouvez également afficher les statistiques de l'entité de données sélectionnée. Pour plus d'informations sur les informations statistiques disponibles, reportez-vous à Visualiser les statistiques des entités de données.
Options () : les options affichées peuvent varier en fonction du type de connexion. Cliquez sur l'icône pour afficher une aide contextuelle pour chaque option.
Vous pouvez voir des options telles que :
- Truncate Table : remplace tout contenu de table cible existant par de nouvelles données.
- Ajouter - Insère des enregistrements à partir du flux dans la cible. Les enregistrements existants ne sont pas mis à jour.
- Incrémentiel : intègre les données de la table cible en comparant les enregistrements du flux avec les enregistrements existants et en mettant à jour les enregistrements lorsque leurs données associées ne sont pas identiques. Ceux qui n'existent pas encore dans la cible sont insérés.
  L'option inclut une fonction de compression automatique définie sur True par défaut. Pour les travaux de flux de données qui utilisent le mode de mise à jour incrémentielle pour charger des données sur une partition cible Oracle compressée, la fonction de compression automatique recompresse les partitions cible modifiées une fois le chargement terminé. Pour les partitions de table qui ne sont pas compressées à l'origine, la compression est ignorée, que la compression automatique soit définie sur True ou non.
  Remarque
  
  L'option de compression automatique est disponible pour l'utilisateur ADMIN ou pour un utilisateur doté du rôle DWROLE. Pour les flux de données qui ont des utilisateurs de schéma autres qu'ADMIN, vous devez affecter le DWROLE à l'utilisateur ou désactiver la compression automatique pour éviter les erreurs d'exécution.

Rubrique parent : A propos des flux de données

Mapper les colonnes de données

Lorsque vous connectez l'entité de données source à l'entité de données cible, les noms de colonne sont automatiquement mis en correspondance par les noms de colonne. Vous pouvez choisir de mettre en correspondance les colonnes par position ou par nom, ou de les mettre en correspondance manuellement à l'aide de l'éditeur d'expressions.

Pour mapper des colonnes par position ou par nom :

Sélectionnez l'entité de données cible.
Cliquez sur l'icône en forme de flèche dans le coin supérieur droit pour développer le panneau Propriétés. Cela vous donnera plus d'espace pour travailler.
Dans le panneau Propriétés, cliquez sur l'icône Mise en correspondance de colonnes ().
Pour mapper les colonnes par position ou par nom, sélectionnez Mappage automatique ou Par position dans le menu déroulant Par nom.

Pour mapper les colonnes manuellement :

Dans le menu déroulant Mappage automatique, sélectionnez Effacer pour effacer les mappages existants.
Glissez-déplacez les attributs de l'arborescence de gauche pour les mettre en correspondance avec la colonne Expression.
Pour modifier une expression, cliquez sur l'icône Modifier de la colonne correspondante. L'éditeur d'expression apparaît pour vous permettre d'effectuer les modifications requises (par exemple, vous pouvez simplement ajouter une expression "UPPER" ou ouvrir l'éditeur d'expression pour modifier l'expression).
Remarque

Utilisez l'éditeur d'expressions uniquement si vous disposez d'expressions complexes pour une colonne particulière.
Cliquez sur OK.

Rubrique parent : A propos des flux de données

Validation et exécution d'un flux de données

Une fois les mappings prêts, vous pouvez valider et exécuter le flux de données.

Procédez comme suit :

Cliquez sur Enregistrer.
Après l'enregistrement, si des données doivent être préparées avant la transformation, le bouton Transférer est ajouté à un ou plusieurs liens. Vous pouvez cliquer sur ces boutons pour définir d'autres options, le cas échéant.
Cliquez sur l'icône Simulation de code () si vous souhaitez vérifier le code qui sera exécuté pour effectuer les tâches effectuées lors de l'exécution du travail de flux de données. Les détails de la source et de la cible sont affichés dans différentes couleurs pour faciliter la référence. Ceci est utile si vous voulez vérifier si le mapping est correct avant d'exécuter le travail ou si le travail échoue. Notez que le code ne peut pas être utilisé pour le débogage. Pour plus d'informations sur le travail, reportez-vous à la page Détails du travail.
Cliquez sur l'icône Valider () dans la barre d'outils au-dessus du canevas de conception pour valider le flux de données.
Une fois la validation effectuée, cliquez sur l'icône Exécuter () en regard de l'icône Valider pour exécuter le flux de données.
Si vous avez ajouté des variables au flux de données, la page Valeurs de variable qui affiche la liste des variables que vous avez ajoutées au flux de données apparaît. Vous pouvez choisir d'utiliser la valeur actuelle, la valeur par défaut ou de définir une valeur personnalisée pour chaque variable. Notez que la valeur personnalisée est appliquée uniquement à l'exécution en cours du flux de données. La valeur personnalisée n'est pas conservée pour les sessions suivantes.

Un message s'affiche, indiquant l'ID et le nom du travail d'exécution. Pour vérifier l'état du flux de données, reportez-vous au panneau Statut situé à droite sous le panneau Propriétés. Pour plus d'informations sur le panneau Statut, reportez-vous à la section Monitor Status of Data Loads, Data Flows, and Workflows. Ce panneau affiche également le lien vers l'ID de travail sur lequel vous pouvez cliquer pour surveiller la progression sur la page Travaux. Pour plus d'informations, reportez-vous à la rubrique Création et gestion de travaux.

Pour les flux de données créés à l'aide de connexions Oracle Object Storage, les données du fichier CSV source sont chargées dans l'instance Oracle Autonomous Database cible. Vous pouvez également exporter des données d'une table Oracle Autonomous Database vers un fichier CSV dans Oracle Object Storage.

Rubrique parent : A propos des flux de données

Documentation Oracle Cloud Infrastructure

A propos des flux de données

Création d'un flux de données

Afficher et gérer les flux de données

A propos de l'éditeur Data Flow

Fonctions de base de données prises en charge

Ajout de composants

Utiliser l'incorporation de vecteurs dans un flux de données

Utiliser la jointure automatique pour mapper des tables associées dans un flux de données

Générer un flux de données à partir d'instructions SQL

Créer et utiliser une vue matérialisée dans un flux de données

Propriétés de composant

Mapper les colonnes de données

Validation et exécution d'un flux de données