A propos des flux de données

Un flux de données définit comment les données sont déplacées et transformées entre différents systèmes.

Un flux de données dans les transformations de données connecte des sources à des cibles via un flux de composants tels que Join, Filter, Aggregate, Set, Split, etc. Pour plus d'informations, reportez-vous à Fonctions de base de données prises en charge.

Lorsque vous exécutez un flux de données, Data Transforms utilise les jointures, les filtres, les mappings et les contraintes pour transformer les données source et les charger dans des tables cible. Vous ne pouvez exécuter qu'un seul flux d'exécution à la fois. Vous ne pouvez pas placer plusieurs flux sur un flux de données et un flux ne peut pas diverger en plusieurs flux.

Sujets

Création d'un flux de données

Créez des flux de données pour charger des données à partir d'une connexion source, exécutez des transformations et déplacez les données vers une base de données cible.

Vous pouvez créer des flux de données de l'une des manières suivantes :

Le flux de données nouvellement créé s'affiche sur la page Flux de données du projet associé. Cliquez sur l'icône Actions (Icône Actions) en regard du flux de données sélectionné pour le modifier, le renommer, le copier, le modifier, le démarrer, l'exporter ou le supprimer.

A partir de la page Projets

Pour créer un flux de données à partir de la page Projets,

  1. Sur la page Projets, cliquez sur Créer un flux de données.

    La page Créer un flux de données apparaît :

  2. Entrez le nom du nouveau flux de données dans le champ Nom.
  3. Sélectionnez Créer un projet, si vous souhaitez créer un dossier de projet pour le flux de données nouvellement créé.
  4. Sinon, cliquez sur Ajouter aux projets existants, si vous souhaitez ajouter le flux de données nouvellement créé à un dossier de projet existant.
  5. Si vous avez sélectionné Créer un projet pour l'option précédente, entrez le nom du projet que vous venez de créer dans le champ Nom du projet.
  6. Sinon, si vous avez sélectionné Ajouter à des projets existants pour l'option précédente, sélectionnez le projet requis dans la flèche déroulante Nom du projet.
  7. Dans le champ Description, entrez la description du flux de données nouvellement créé.
  8. Cliquez sur Créer.

A partir de la page Flux de données d'un projet

Pour créer un flux de données à partir de la page Flux de données d'un projet, procédez comme suit :

  1. Dans la page Projets, cliquez sur la mosaïque de projet pour laquelle vous souhaitez créer un flux de données. La page Détails de projet apparaît.
  2. Sur la page Flux de données, cliquez sur Créer un flux de données.
  3. Indiquez le nom et la description du nouveau flux de données.
  4. Cliquez sur Suivant.
  5. Pour définir la connexion source, dans la liste déroulante Connexion, sélectionnez la connexion requise à partir de laquelle vous souhaitez ajouter les entités de données.
  6. Dans la liste déroulante Schema, tous les schémas correspondant à la connexion sélectionnée sont répertoriés en deux groupes :
    • Schéma existant (éléments que vous avez importés dans Oracle Data Transforms) et
    • Nouveau schéma de base de données (ceux que vous n'avez pas encore importés).

    Sélectionnez le schéma à utiliser dans la liste déroulante. Pour les connexions Oracle Object Storage, la liste déroulante Schéma répertorie le nom du bucket indiqué dans l'URL lors de la création de la connexion.

  7. Cliquez sur Enregistrer.

    L'éditeur de flux de données apparaît et vous permet de créer un flux de données.

Sur la page d'accueil

Pour créer un flux de données à partir de la page d'accueil,

  1. Sur la page d'accueil, cliquez sur Transformer les données. La page Create Data Flow apparaît.
  2. Indiquez le nom et la description du nouveau flux de données.
  3. Sélectionnez un nom de projet dans la liste déroulante. Vous pouvez également cliquer sur l'icône + pour créer un projet.
  4. Cliquez sur Suivant.
  5. Dans la liste déroulante Connexion, sélectionnez la connexion requise à partir de laquelle vous souhaitez ajouter les entités de données. Vous pouvez également cliquer sur l'icône + pour créer une connexion.
  6. Dans la liste déroulante Schema, tous les schémas correspondant à la connexion sélectionnée sont répertoriés en deux groupes :
    • Schéma existant (éléments que vous avez importés dans Oracle Data Transforms) et
    • Nouveau schéma de base de données (ceux que vous n'avez pas encore importés).

    Sélectionnez le schéma à utiliser dans la liste déroulante.

  7. Cliquez sur Enregistrer.

A propos de l'éditeur Data Flow

L'éditeur de flux de données est divisé en cinq parties : le panneau Entité de données, la barre d'outils Fonctions de base de données, le canevas de conception, le panneau Propriétés et le panneau Statut.



  • Panneau Entités de données : le panneau Entité de données affiche les entités de données disponibles pour utilisation dans vos flux de données. La liste affichée peut être filtrée à l'aide des champs Nom et Balises. Le panneau comprend des options qui vous permettent d'ajouter des schémas, d'importer des entités de données, d'enlever tous les schémas associés au flux de données et d'actualiser les entités de données. Pour plus d'informations sur l'utilisation de ces options, reportez-vous à Ajouter des composants.
  • Barre d'outils Fonctions de base de données : la barre d'outils Fonctions de base de données affiche les fonctions de base de données qui peuvent être utilisées dans vos flux de données. Tout comme les entités de données, vous pouvez glisser-déposer les outils de base de données à utiliser sur le canevas de conception. Pour plus d'informations, reportez-vous à Fonctions de base de données prises en charge.
  • canevas de conception : le canevas de conception est l'endroit où vous créez votre logique de transformation. Après avoir ajouté les entités de données et les fonctions de base de données au canevas de conception, vous pouvez les connecter dans un ordre logique pour compléter vos flux de données.
  • Panneau Propriétés : le panneau Propriétés affiche les propriétés de l'objet sélectionné sur le canevas de conception. Le panneau Propriétés est regroupé en quatre onglets. Général, Attributs, Aperçu des données, Mise en correspondance de colonnes et Options. Tous les onglets ne sont pas disponibles car ils varient en fonction de l'objet sélectionné. Pour en savoir plus sur ces options, reportez-vous à Propriétés de composant.
  • Panneau d'état : lorsque vous exécutez un flux de données, le panneau d'état affiche le statut du travail en cours d'exécution en arrière-plan pour terminer la demande. Vous pouvez voir le statut du travail en cours d'exécution ou celui du dernier travail. Pour plus d'informations sur le panneau Statut, reportez-vous à la section Monitor Status of Data Loads, Data Flows, and Workflows.

Après avoir conçu le flux de données requis,

  • Cliquez sur icône Enregistrer pour enregistrer le flux de données créé/conçu.
  • Cliquez sur icône Mise en page automatique pour aligner les noeuds du flux de données conçu.
  • Cliquez sur icône d'exécution pour exécuter le flux de données créé.
  • Cliquez sur icône Valider pour valider le flux de données créé.
  • Cliquez sur Icônes Zoom avant et Zoom avant pour agrandir ou réduire le diagramme de flux de données créé dans le canevas de conception.

Fonctions de base de données prises en charge

Oracle Data Transforms prend en charge diverses fonctions de base de données que vous pouvez glisser-déposer sur le canevas de conception pour connecter des composants dans un flux de données.

La barre d'outils Fonctions de base de données de l'éditeur Data Flow inclut les fonctions de base de données suivantes qui peuvent être utilisées dans vos flux de données. Pour plus d'informations sur les fonctions de base de données, reportez-vous à Oracle Database SQL Language Reference.

  1. Transformation des données

    Elle propose plusieurs options :

    • Agréger
    • Expression
    • Filtrer
    • Rejoindre
    • Distinct
    • Code express
    • Définir
    • Trier
    • Filtre de sous-requête
    • Fonction de table
  2. Préparation des données

    Elle propose plusieurs options :

    • Nettoyage des données
    • Substitution
    • Equi_Width Catégorisation
    • Plages par quantiles
    • LEAD
    • Décalage
    • Remplacer
  3. Machine Learning

    Elle propose plusieurs options :

    • Prévision
    • Modèle de prédition
    • Détection des valeurs aberrantes
    • Vecteur d'incorporation de texte
  4. Texte

    Elle propose plusieurs options :

    • NOMBRE D'EXPRESSIONS RÉGULIÈRES
    • INSTR. EXPRESSION RÉGULIÈRE
    • SUBSTRAT D'EXPRESSION RÉGULIÈRE
    • REMPLACEMENT D'EXPRESSION RÉGULIÈRE
    • Modifier la similarité de distance
    • Contient
  5. Oracle Spatial and Graph

    Elle propose plusieurs options :

    • Dimension de tampon
    • Tolérance de tampon
    • Dimension de distance
    • Tolérance de distance
    • Au plus proche
    • Simplifier
    • Point
    • Outils de géocode :
      Remarque

      Les outils de géocodage suivants fonctionnent uniquement dans un environnement non Autonomous Database.
      • Géocoder sous forme de géométrie
      • Géocoder
      • Géocoder une adresse
      • Géocoder tout
      • Géocoder toutes les adresses
      • Géocodage inverse
      Remarque

      L'outil de géocodage suivant fonctionne uniquement dans un environnement Autonomous Database.
      • Cloud de géocode
    • Jointure spatiale

Ajout de composants

Ajoutez les entités de données et les fonctions de base de données au canevas de conception et connectez-les dans un ordre logique pour compléter vos flux de données.

Pour ajouter des composants à votre flux de données :
  1. Dans le panneau Entités de données, cliquez sur Ajouter un schéma pour ajouter des schémas qui contiennent les entités de données à utiliser dans le flux de données.
  2. Dans la page Add a Schema, sélectionnez la connexion et le nom du schéma.
  3. Cliquez sur Importer.
  4. Dans la page Importer des entités de données, sélectionnez le type d'objet à importer. Choisissez un masque/filtre si vous ne voulez pas importer tous les objets du schéma, puis cliquez sur Démarrer.
  5. Le panneau Entités de données répertorie les entités de données importées. Le panneau comprend différentes options qui vous permettent d'effectuer les opérations suivantes :
    • Refresh Data Entities – Cliquez sur l'icône RefreshIcône Actualiser pour régénérer la liste affichée.
    • Nom : recherchez des entités de données par nom.
    • Balises : filtrez les entités de données en fonction du nom de la balise utilisée.
    • Importer des entités de données : cliquez avec le bouton droit de la souris sur le schéma pour afficher cette option. Utilisez cette option pour importer les entités de données.
    • Enlever le schéma : cliquez avec le bouton droit de la souris sur l'entité de données pour afficher cette option. Utilisez cette option pour enlever le schéma de la liste. Notez que cette option ne supprime pas le schéma, mais seulement l'association du schéma à ce flux de données.
  6. Si nécessaire, ajoutez d'autres schémas au flux de données.
  7. Faites glisser les entités de données requises que vous souhaitez utiliser dans le flux de données et déposez-les sur le canevas de conception.
  8. Dans la barre d'outils Fonctions de base de données, faites glisser le composant de transformation à utiliser dans le flux de données et déposez-le sur le canevas de conception. Vous pouvez utiliser des variables dans le flux de données. Pour plus d'informations, reportez-vous à Utilisation de variables dans un flux de données.
  9. Sélectionnez un objet sur le canevas de conception et faites glisser l'icône Connecteur (Icône de connecteur) en regard de celle-ci pour connecter les composants.
  10. Une fois le flux de données enregistré, une icône Transfert peut être superposée sur une ou plusieurs connexions de composant. Cela indique qu'ODI a détecté une étape supplémentaire et qu'il est nécessaire de déplacer les données entre les serveurs de données. Vous pouvez cliquer sur cette icône pour afficher les propriétés associées à cette étape.

Utiliser un vecteur d'intégration de texte dans un flux de données

Data Transforms prend en charge l'utilisation du type de données vectoriel et l'intégration de vecteurs dans un flux de données. Actuellement, Data Transforms s'intègre au service OCI Generative AI pour convertir le texte d'entrée en incorporations vectorielles que vous pouvez utiliser pour l'analyse et les recherches de données.

Pour l'intégration de texte, les transformations de données prennent en charge à la fois le texte stocké dans une colonne et les liens HTTP stockés dans une colonne. Avant d'utiliser des vecteurs d'intégration dans un flux de données, vous devez effectuer les opérations suivantes :

Pour utiliser des incorporations vectorielles dans un flux de données :

  1. Suivez les instructions fournies dans Création d'un flux de données pour créer un flux de données.
  2. Dans l'éditeur de flux de données, cliquez sur Ajouter un schéma pour définir la connexion source. Dans la liste déroulante Connexion, sélectionnez la connexion Oracle Database 23ai et le schéma à utiliser dans la liste déroulante. Cliquez sur OK.
  3. Faites glisser les tables que vous souhaitez utiliser comme source dans le flux de données et déposez-les sur le canevas de conception.
  4. Dans la barre d'outils Fonctions de base de données, cliquez sur Machine Learning et faites glisser le composant de transformation Vecteur d'incorporation de texte vers le canevas de conception.
  5. Cliquez sur le composant de transformation Vecteur d'incorporation de texte pour afficher ses propriétés.
  6. Dans l'onglet Général, indiquez les informations suivantes :
    • Service AI : sélectionnez OCI Generative AI dans la liste déroulante.
    • Connexion : la liste déroulante répertorie toutes les connexions disponibles pour le service AI sélectionné. Sélectionnez la connexion à utiliser.
    • Modèle AI : la liste déroulante répertorie tous les modèles disponibles pour le service et la connexion AI sélectionnés. Les modèles suivants sont répertoriés :
      • "cohere.embed-english-light-v2.0"
      • "cohere.embed-english-light-v3.0"
      • "cohere.embed-français-v3.0"
      • "cohere.embed-multilingual-light-v3.0"
      • "cohere.embed-multilingue-v3.0"
      Vous pouvez également saisir le nom du modèle.
  7. Dans l'onglet Mise en correspondance de colonnes, mettez en correspondance la colonne source à intégrer avec l'attribut INPUT de l'opérateur. La seule colonne disponible dans les mappings de colonne est input_text. Faites glisser une colonne de texte des colonnes disponibles vers la colonne Expression. Il s'agit des données sur lesquelles les vecteurs seront construits.
  8. Faites glisser la table à utiliser comme cible dans le flux de données et déposez-la sur le canevas de conception.
  9. Enregistrez et exécutez le flux de données.

    Data Transforms crée des vecteurs pour chacune des lignes de la table source et les écrit dans la table cible.

Propriétés de composant

Le panneau Propriétés affiche divers paramètres pour les composants sélectionnés dans le canevas de conception.

Selon le composant sélectionné, vous pouvez voir l'une des icônes suivantes :

  • Général (Généralités) : affiche le nom du composant, ainsi que ses détails de connexion et de schéma. Vous pouvez modifier certaines de ces propriétés.
  • Attributs (Attributs) : affiche les détails de tous les attributs associés au composant.
  • Mise en correspondance de colonnes (Correspondance de colonne) : permet de mettre en correspondance automatiquement toutes les colonnes. Pour plus d'informations, reportez-vous à Mettre en correspondance des colonnes de données.
  • Preview (Afficher un aperçu) : affiche un aperçu du composant. Pour les tables Oracle, vous pouvez également afficher les statistiques de l'entité de données sélectionnée. Pour plus d'informations sur les informations statistiques disponibles, reportez-vous à Visualiser les statistiques des entités de données.
  • Options (Options) : affiche des options telles que
    • Truncate Table : remplace tout contenu de table cible existant par de nouvelles données.
    • Ajouter - Insère des enregistrements à partir du flux dans la cible. Les enregistrements existants ne sont pas mis à jour.
    • Incrémentiel : intègre les données de la table cible en comparant les enregistrements du flux avec les enregistrements existants et en mettant à jour les enregistrements lorsque leurs données associées ne sont pas identiques. Ceux qui n'existent pas encore dans la cible sont insérés.
      L'option inclut une fonction de compression automatique définie sur True par défaut. Pour les travaux de flux de données qui utilisent le mode de mise à jour incrémentielle pour charger des données sur une partition cible Oracle compressée, la fonction de compression automatique recompresse les partitions cible modifiées une fois le chargement terminé. Pour les partitions de table qui ne sont pas compressées à l'origine, la compression est ignorée, que la compression automatique soit définie sur True ou non.
      Remarque

      L'option de compression automatique est disponible pour l'utilisateur ADMIN ou pour un utilisateur doté du rôle DWROLE. Pour les flux de données qui ont des utilisateurs de schéma autres qu'ADMIN, vous devez affecter le DWROLE à l'utilisateur ou désactiver la compression automatique pour éviter les erreurs d'exécution.

Mapper les colonnes de données

Lorsque vous connectez l'entité de données source à l'entité de données cible, les noms de colonne sont automatiquement mis en correspondance par les noms de colonne. Vous pouvez choisir de mettre en correspondance les colonnes par position ou par nom, ou de les mettre en correspondance manuellement à l'aide de l'éditeur d'expressions.

Pour mapper des colonnes par position ou par nom :

  1. Sélectionnez l'entité de données cible.
  2. Cliquez sur l'icône en forme de flèche dans le coin supérieur droit pour développer le panneau Propriétés. Cela vous donnera plus d'espace pour travailler.
  3. Dans le panneau Propriétés, cliquez sur l'icône Mise en correspondance de colonnes (Icône Mapping de colonne).
  4. Pour mapper les colonnes par position ou par nom, sélectionnez Mappage automatique ou Par position dans le menu déroulant Par nom.

Pour mapper les colonnes manuellement :

  1. Dans le menu déroulant Mappage automatique, sélectionnez Effacer pour effacer les mappages existants.
  2. Glissez-déplacez les attributs de l'arborescence de gauche pour les mettre en correspondance avec la colonne Expression.
  3. Pour modifier une expression, cliquez sur l'icône Modifier de la colonne correspondante. L'éditeur d'expression apparaît pour vous permettre d'effectuer les modifications requises (par exemple, vous pouvez simplement ajouter une expression "UPPER" ou ouvrir l'éditeur d'expression pour modifier l'expression).
    Remarque

    Utilisez l'éditeur d'expressions uniquement si vous disposez d'expressions complexes pour une colonne particulière.
  4. Cliquez sur OK.

Validation et exécution d'un flux de données

Une fois les mappings prêts, vous pouvez valider et exécuter le flux de données.

Procédez comme suit :
  1. Cliquez sur Enregistrer.

    Après l'enregistrement, si des données doivent être préparées avant la transformation, le bouton Transférer est ajouté à un ou plusieurs liens. Vous pouvez cliquer sur ces boutons pour définir d'autres options, le cas échéant.

  2. Cliquez sur l'icône Simulation de code (Icône Simuler un code) si vous souhaitez vérifier le code qui sera exécuté pour effectuer les tâches effectuées lors de l'exécution du travail de flux de données. Les détails de la source et de la cible sont affichés dans différentes couleurs pour faciliter la référence. Ceci est utile si vous voulez vérifier si le mapping est correct avant d'exécuter le travail ou si le travail échoue. Notez que le code ne peut pas être utilisé pour le débogage. Pour plus d'informations sur le travail, reportez-vous à la page Détails du travail.
  3. Cliquez sur l'icône Valider (Icône Valider) dans la barre d'outils au-dessus du canevas de conception pour valider le flux de données.
  4. Une fois la validation effectuée, cliquez sur l'icône Exécuter (Icône d'exécution) en regard de l'icône Valider pour exécuter le flux de données.

    Si vous avez ajouté des variables au flux de données, la page Valeurs de variable qui affiche la liste des variables que vous avez ajoutées au flux de données apparaît. Vous pouvez choisir d'utiliser la valeur actuelle, la valeur par défaut ou de définir une valeur personnalisée pour chaque variable. Notez que la valeur personnalisée est appliquée uniquement à l'exécution en cours du flux de données. La valeur personnalisée n'est pas conservée pour les sessions suivantes.

    Un message s'affiche, indiquant l'ID et le nom du travail d'exécution. Pour vérifier l'état du flux de données, reportez-vous au panneau Statut situé à droite sous le panneau Propriétés. Pour plus d'informations sur le panneau Statut, reportez-vous à la section Monitor Status of Data Loads, Data Flows, and Workflows. Ce panneau affiche également le lien vers l'ID de travail sur lequel vous pouvez cliquer pour surveiller la progression sur la page Travaux. Pour plus d'informations, reportez-vous à la rubrique Création et gestion de travaux.

    Pour les flux de données créés à l'aide de connexions Oracle Object Storage, les données du fichier CSV source sont chargées dans l'instance Oracle Autonomous Database cible. Vous pouvez également exporter des données d'une table Oracle Autonomous Database vers un fichier CSV dans Oracle Object Storage.