A propos des pipelines de données sur une base de données d'IA autonome

Les pipelines de données de base de données Autonomous AI sont des pipelines de chargement ou d'exportation.

Les pipelines de chargement fournissent un chargement incrémentiel continu de données à partir de sources externes (à mesure que les données arrivent dans la banque d'objets, elles sont chargées dans une table de base de données). Les pipelines d'export fournissent une exportation incrémentielle continue des données vers la banque d'objets (les nouvelles données apparaissant dans une table de base de données sont exportées vers la banque d'objets). Les pipelines utilisent le planificateur de base de données pour charger ou exporter en continu des données incrémentielles.

Les pipelines de données Autonomous AI Database fournissent les éléments suivants :

Cycle de vie du pipeline de données

Le package DBMS_CLOUD_PIPELINE fournit des procédures permettant de créer, de configurer, de tester et de démarrer un pipeline. Le cycle de vie et les procédures du pipeline sont les mêmes pour les pipelines de chargement et d'exportation.

Description de l'image pipeline_lifecycle.png

Pour chaque type de pipeline, procédez comme suit pour créer et utiliser un pipeline :

  1. Créez et configurez le pipeline. Pour plus d'informations, reportez-vous à Création et configuration de pipelines.

  2. Testez un nouveau pipeline. Pour plus d'informations, reportez-vous à Pipelines de test.

  3. Démarrez un pipeline. Reportez-vous à Démarrage d'un pipeline pour plus d'informations.

En outre, vous pouvez surveiller, arrêter ou supprimer des pipelines :

Charger des pipelines

Utilisez un pipeline de chargement pour le chargement incrémentiel continu de données à partir de fichiers externes dans une banque d'objets dans une table de base de données. Un pipeline de chargement identifie régulièrement de nouveaux fichiers dans la banque d'objets et charge les nouvelles données dans la table de base de données.

Un pipeline de charge fonctionne comme suit (certaines de ces fonctionnalités sont configurables à l'aide des attributs de pipeline) :

La description de l'image suit

description de l'illustration load-pipeline.svg,

La migration à partir de bases de données non Oracle est un cas d'emploi possible pour un pipeline de chargement. Lorsque vous devez migrer vos données d'une base de données non Oracle vers Oracle Autonomous AI Database on Dedicated Exadata Infrastructure, vous pouvez extraire les données et les charger dans Autonomous AI Database (le format Oracle Data Pump ne peut pas être utilisé pour les migrations à partir de bases de données non Oracle). En utilisant un format de fichier générique tel que CSV pour exporter des données à partir d'une base de données non Oracle, vous pouvez enregistrer vos données dans des fichiers et les télécharger vers la banque d'objets. Créez ensuite un pipeline pour charger les données dans la base de données Autonomous AI. L'utilisation d'un pipeline de chargement pour charger un ensemble important de fichiers CSV offre des avantages importants, tels que la tolérance aux pannes, ainsi que les opérations de reprise et de nouvelle tentative. Pour une migration avec un ensemble de données volumineux, vous pouvez créer plusieurs pipelines, un par table pour les fichiers de base de données non Oracle, afin de charger des données dans la base de données Autonomous AI.

Exporter des pipelines

Utilisez un pipeline d'export pour l'export incrémentiel continu de données de la base de données vers la banque d'objets. Un pipeline d'export identifie périodiquement les données candidates et les télécharge vers la banque d'objets.

Il existe trois options de pipeline d'export (les options d'export sont configurables à l'aide des attributs de pipeline) :

Les pipelines d'export disposent des fonctionnalités suivantes (certaines d'entre elles peuvent être configurées à l'aide des attributs de pipeline) :

Pipelines mis à jour par Oracle

La base de données Autonomous AI sur une infrastructure Exadata dédiée fournit des pipelines intégrés pour exporter des journaux spécifiques vers une banque d'objets au format JSON. Ces pipelines sont préconfigurés et sont démarrés et détenus par l'utilisateur ADMIN.

Les pipelines Oracle Maintained sont les suivants :

Pour configurer et démarrer un pipeline géré par Oracle, procédez comme suit :

  1. Déterminez le pipeline géré par Oracle à utiliser : ORA$AUDIT_EXPORT ou ORA$APEX_ACTIVITY_EXPORT.

  2. Définissez les attributs credential_name et location.

    Remarque : credential_name est une valeur obligatoire sur la base de données Autonomous AI sur une infrastructure Exadata dédiée.

    Exemple :

     BEGIN
       DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE(
         pipeline_name => 'ORA$AUDIT_EXPORT',
         attribute_name => 'credential_name',
         attribute_value => 'DEF_CRED_OBJ_STORE'
       );
       DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE(
         pipeline_name => 'ORA$AUDIT_EXPORT',
         attribute_name => 'location',
         attribute_value => 'https://objectstorage.us-phoenix-1.oraclecloud.com/n/namespace-string/b/bucketname/o/'
       );
     END;
     /
    

    Les données de journal de la base de données sont exportées vers l'emplacement de banque d'objets indiqué.

    Pour plus d'informations, voir SET_ATTRIBUTE.

  3. Définissez éventuellement les attributs interval, format ou priority.

    Pour plus d'informations, voir SET_ATTRIBUTE.

  4. Démarrez le pipeline.

    Pour plus d'informations, reportez-vous à START_PIPELINE.

Contenu connexe

Package DBMS_CLOUD_PIPELINE