Package DBMS_CLOUD_PIPELINE
Le package DBMS_CLOUD_PIPELINE vous permet de créer des pipelines de données pour le chargement et l'export de données dans le cloud. Ce package prend en charge le chargement incrémentiel continu des données des fichiers de la banque d'objets dans la base de données. DBMS_CLOUD_PIPELINE prend également en charge l'export incrémentiel continu des données de table ou des résultats de requête de la base de données vers la banque d'objets en fonction d'une colonne d'horodatage.
Prérequis
En tant que développeur, vous pouvez utiliser les procédures DBMS_CLOUD avec des bases de données d'IA autonomes déployées sur Oracle Public Cloud, Multicloud ou Exadata Cloud@Customer.
Selon le choix de déploiement, les prérequis suivants doivent être respectés pour utiliser les procédures DBMS_CLOUD avec les fournisseurs de services Amazon S3, Azure Blob Storage et Google Cloud Storage.
L'administrateur de parc doit avoir configuré une connectivité sortante à l'aide d'une passerelle NAT, comme décrit ci-dessous :
-
Créez une passerelle NAT dans le réseau cloud virtuel (VCN) où résident vos ressources de base de données Autonomous AI en suivant les instructions de la section Création d'une passerelle NAT dans la documentation Oracle Cloud Infrastructure.
-
Après avoir créé la passerelle NAT, ajoutez une règle de routage et une règle de sécurité sortante à chaque sous-réseau (dans le VCN) où résident les ressources de base de données Autonomous AI afin que ces ressources puissent utiliser la passerelle pour obtenir une clé publique à partir de votre instance Azure AD :
-
Accédez à la page Détails du sous-réseau correspondante.
-
Dans l'onglet Information sur le sous-réseau, cliquez sur le nom de la table de acheminement du sous‑réseau pour afficher la page Détails de la table de acheminement correspondante.
-
Dans la table des règles de acheminement existantes, vérifiez s'il existe déjà une règle avec les caractéristiques suivantes :
-
Destination : 0.0.0.0/0
-
Type de cible : passerelle NAT
-
Cible : nom de la passerelle NAT que vous venez de créer dans le VCN
Si une telle règle n'existe pas, cliquez sur Ajouter des règles de routage et ajoutez une règle de routage possédant ces caractéristiques.
-
-
Revenez à la page Détails du sous-réseau du sous-réseau.
-
Dans la table Listes de sécurité du sous‑réseau, cliquez sur le nom de la liste des sécurité du sous-réseau pour afficher sa page Détails de la liste.
-
Dans le menu latéral, sous Ressources, cliquez sur Règles sortantes.
-
Dans la table des règles sortantes existantes, vérifiez s'il existe déjà une règle avec les caractéristiques suivantes :
-
Type de destination : CIDR
-
Destination :0.0.0.0/0
-
Protocole IP : TCP
-
Plage de ports source:443
-
Plage de ports de Destination : Tout
Si une telle règle n'existe pas, cliquez sur Ajouter des règles sortantes et ajoutez une règle possédant ces caractéristiques.
-
-
Les paramètres de proxy HTTP de votre environnement doivent autoriser la base de données à accéder au fournisseur de service cloud.
Ces paramètres sont définis par l'administrateur de parc lors de la création de l'infrastructure Exadata Cloud@Customer, comme décrit dans Utilisation de la console pour provisionner Exadata Database Service on Cloud@Customer.
Remarque : la configuration réseau, y compris le proxy HTTP, ne peut être modifiée que jusqu'à ce que l'infrastructure Exadata présente l'état Activation requise. Une fois qu'il est activé, vous ne pouvez pas modifier ces paramètres.
La configuration d'un proxy HTTP pour une infrastructure Exadata déjà provisionnée nécessite une demande de service dans My Oracle Support. Pour plus d'informations, reportez-vous à Création d'une demande d'assistance dans My Oracle Support.
Récapitulatif des sous-programmes DBMS_CLOUD_PIPELINE
Ce tableau récapitule les sous-programmes inclus dans le package DBMS_CLOUD_PIPELINE.
| Sous-programme | Description |
|---|---|
| Procédure CREATE_PIPELINE | Crée un pipeline de données. |
| Procédure DROP_PIPELINE | Supprime un pipeline de données existant. |
| Procédure RESET_PIPELINE | Réinitialise l'état de suivi d'un pipeline de données. Utilisez le pipeline reset pour redémarrer le pipeline à partir de l'état initial du chargement ou de l'export de données. Le pipeline de réinitialisation peut éventuellement purger les données de la base de données ou de la banque d'objets, selon le type de pipeline. |
| Procédure RUN_PIPELINE_ONCE | Effectue une exécution à la demande du pipeline dans la session de premier plan en cours, au lieu d'un travail planifié. |
| Procédure SET_ATTRIBUTE | Définit les attributs de pipeline. Il existe deux procédures surchargées, l'une pour définir un seul attribut et l'autre pour définir plusieurs attributs à l'aide d'un document JSON de paires nom/valeur d'attribut |
| Procédure START_PIPELINE | Démarre le pipeline de données. Lorsqu'un pipeline est démarré, l'opération de pipeline s'exécute en continu dans un travail programmé en fonction de l'"intervalle" configuré dans les attributs de pipeline. |
| Procédure STOP_PIPELINE | Arrête le pipeline de données. Lorsqu'un pipeline est arrêté, aucun travail futur n'est programmé pour le pipeline. |
Procédure CREATE_PIPELINE
La procédure crée un pipeline de données.
Syntaxe
DBMS_CLOUD_PIPELINE.CREATE_PIPELINE(
pipeline_name IN VARCHAR2,
pipeline_type IN VARCHAR2,
attributes IN CLOB DEFAULT NULL,
description IN VARCHAR2 DEFAULT NULL
);
Paramètres
| Paramètre | Description |
|---|---|
pipeline_name |
Indique le nom du pipeline. Le nom du pipeline doit respecter les règles de dénomination des identificateurs SQL Oracle. Pour plus d'informations, reportez-vous à Identificateurs dans Référence de langage PL/SQL Oracle Database Database ou Référence de langage PL/SQL Oracle Database 26ai Database. Ce paramètre est obligatoire. |
pipeline_type |
Indique le type de pipeline. Valeurs valides : Ce paramètre est obligatoire. |
attributes |
Attributs de pipeline au format JSON. Valeur par défaut : Pour plus d'informations, reportez-vous à Attributs DBMS_CLOUD_PIPELINE. |
description |
Description du pipeline. La valeur par défaut est |
Procédure DROP_PIPELINE
La procédure supprime un pipeline de données existant. Si un pipeline a été démarré, il doit être arrêté avant de pouvoir être supprimé.
Syntaxe
DBMS_CLOUD_PIPELINE.DROP_PIPELINE(
pipeline_name IN VARCHAR2,
force IN BOOLEAN DEFAULT FALSE
);
Paramètres
| Paramètre | Description |
|---|---|
pipeline_name |
Indique un nom de pipeline. Ce paramètre est obligatoire. |
force |
Forcer la suppression d'un pipeline, même s'il est à l'état Démarré. Valeurs valides : La valeur par défaut est |
Remarque sur l'utilisation
- Pour supprimer un pipeline dont l'état est Démarré, définissez le paramètre
forcesurTRUE.
Procédure RESET_PIPELINE
Réinitialise l'état de suivi d'un pipeline de données. Utilisez le pipeline reset pour redémarrer le pipeline à partir de l'état initial du chargement ou de l'export de données. Le pipeline de réinitialisation peut éventuellement purger les données de la base de données ou de la banque d'objets, selon le type de pipeline. Un pipeline de données doit être à l'état Arrêté pour pouvoir le réinitialiser.
Syntaxe
DBMS_CLOUD_PIPELINE.RESET_PIPELINE(
pipeline_name IN VARCHAR2,
purge_data IN BOOLEAN DEFAULT FALSE
);
Paramètres
| Paramètre | Description |
|---|---|
pipeline_name |
Indique le nom du pipeline. Ce paramètre est obligatoire. |
purge_data |
Les données de purge s'appliquent à un pipeline de chargement ou à un pipeline d'export :
Valeurs valides : La valeur par défaut est |
Remarques sur l'utilisation
-
Un pipeline de données doit être à l'état Arrêté pour pouvoir le réinitialiser. Pour plus d'informations, reportez-vous à Procédure STOP_PIPELINE.
-
Pour un pipeline de chargement, la réinitialisation du pipeline efface l'enregistrement des fichiers en cours de chargement par le pipeline. Lorsque vous appelez
START_PIPELINEouRUN_PIPELINE_ONCEaprès la réinitialisation d'un pipeline de chargement, le pipeline répète le chargement de données et inclut tous les fichiers présents dans l'emplacement de la banque d'objets.Lorsque
purge_dataest défini surTRUE,DBMS_CLOUD_PIPELINE.RESET_PIPELINEeffectue les opérations suivantes :-
Vide les données de la table de base de données du pipeline que vous indiquez avec l'attribut
table_name. -
Supprime la table de statut du pipeline, ainsi que la table de fichiers et d'erreurs du pipeline (s'ils existent).
-
-
Pour un pipeline d'export, la réinitialisation du pipeline efface les dernières données suivies dans la table de base de données. Lorsque vous appelez
START_PIPELINEouRUN_PIPELINE_ONCEaprès la réinitialisation d'un pipeline d'export, le pipeline répète l'export des données de la table ou de la requête.Lorsque
purge_dataest défini surTRUE,DBMS_CLOUD_PIPELINE.RESET_PIPELINEsupprime les fichiers existants à l'emplacement de banque d'objets indiqué avec l'attributlocation.
Procédure RUN_PIPELINE_ONCE
Cette procédure effectue une exécution à la demande du pipeline dans la session de premier plan en cours, au lieu d'une exécution dans un travail planifié. Utilisez DBMS_CLOUD_PIPELINE.RUN_PIPELINE_ONCE pour tester un pipeline avant de le démarrer en tant que travail continu.
Syntaxe
DBMS_CLOUD_PIPELINE.RUN_PIPELINE_ONCE(
pipeline_name IN VARCHAR2
);
Paramètres
| Paramètre | Description |
|---|---|
pipeline_name |
Indique le nom du pipeline à exécuter. Ce paramètre est obligatoire. |
Remarques sur l'utilisation
-
Après avoir effectué une exécution de test d'un pipeline, vous pouvez réinitialiser l'état du pipeline à l'aide de
DBMS_CLOUD_PIPELINE.RESET_PIPELINE. Vous pouvez ainsi réinitialiser l'état du pipeline avant de le démarrer dans un travail programmé. -
Si un pipeline est à l'état Démarré, il ne peut pas être exécuté dans la session de premier plan.
Procédure SET_ATTRIBUTE
Cette procédure définit les attributs de pipeline. Il existe deux procédures surchargées : l'une pour définir un seul attribut et l'autre pour définir plusieurs attributs à l'aide d'un document JSON de paires nom/valeur d'attribut.
Syntaxe
PROCEDURE DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE(
pipeline_name IN VARCHAR2,
attribute_name IN VARCHAR2,
attribute_value IN CLOB
);
PROCEDURE DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE(
pipeline_name IN VARCHAR2,
attributes IN CLOB
);
Paramètres
| Paramètre | Description |
|---|---|
pipeline_name |
Indique le nom du pipeline pour la définition des attributs. Ce paramètre est obligatoire. |
attribute_name |
Spécifie le nom de l'attribut à définir. Pour plus d'informations, reportez-vous à Attributs DBMS_CLOUD_PIPELINE. |
attribute_value |
Indique la valeur de l'attribut de pipeline à définir. Pour plus d'informations, reportez-vous à Attributs DBMS_CLOUD_PIPELINE. |
attributes |
Indique un document JSON contenant des noms et des valeurs d'attribut. Pour plus d'informations, reportez-vous à Attributs DBMS_CLOUD_PIPELINE. |
Remarque sur l'utilisation
Lorsque vous utilisez DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE pour définir plusieurs attributs avec le paramètre attributes, tous les attributs existants sont supprimés et remplacés par les attributs indiqués du document JSON.
Procédure START_PIPELINE
La procédure démarre le pipeline de données. Lorsqu'un pipeline est démarré, l'opération de pipeline s'exécute en continu dans un travail programmé en fonction de la valeur interval configurée avec les attributs de pipeline.
Syntaxe
DBMS_CLOUD_PIPELINE.START_PIPELINE(
pipeline_name IN VARCHAR2,
start_date IN TIMESTAMP WITH TIME ZONE DEFAULT NULL
);
Paramètres
| Paramètre | Description |
|---|---|
pipeline_name |
Indique le nom du pipeline. Ce paramètre est obligatoire. |
start_date |
Indique la date de début du travail de pipeline. La valeur par défaut est |
Remarques sur l'utilisation
-
Par défaut, un travail de pipeline démarre immédiatement dès que le pipeline est démarré. Pour démarrer un travail de pipeline ultérieurement, indiquez une date ou un horodatage valide à l'aide du paramètre
start_date. -
Pour plus d'informations sur le pipeline
intervalet d'autres attributs de pipeline, reportez-vous à Attributs DBMS_CLOUD_PIPELINE.
Procédure STOP_PIPELINE
La procédure arrête le pipeline de données. Lorsqu'un pipeline est arrêté, aucun travail futur n'est programmé pour le pipeline.
Syntaxe
DBMS_CLOUD_PIPELINE.STOP_PIPELINE(
pipeline_name IN VARCHAR2,
force IN BOOLEAN DEFAULTFALSE
);
Paramètres
| Paramètre | Description |
|---|---|
pipeline_name |
Indique le nom du pipeline. Ce paramètre est obligatoire. |
force |
Si le paramètre force est transmis en tant que Valeurs valides : La valeur par défaut est |
Attributs DBMS_CLOUD_PIPELINE
Les attributs permettent de contrôler et de configurer le comportement d'un pipeline de données.
Attributs
Remarque : comme indiqué dans la colonne Type de pipeline, selon le type de pipeline LOAD ou EXPORT, un pipeline prend en charge un autre ensemble d'attributs.
| Nom d'attribut | Description | Type de pipeline | Modifiable après le démarrage du pipeline |
|---|---|---|---|
credential_name |
Nom des infos d'identification permettant d'accéder au stockage d'objet cloud source. Valeur par défaut : Si vous ne fournissez pas de valeur |
LOAD, EXPORT |
Oui |
field_list |
Identifie les champs dans les fichiers source et leurs types de données. La syntaxe de cet argument est identique à la clause La valeur par défaut est La valeur par défaut indique les champs et leurs types de données sont déterminés par les colonnes de la table indiquée dans l'attribut |
LOAD |
Oui |
format |
Options décrivant le format du type de pipeline.
Datapump Cet attribut est obligatoire pour les pipelines |
LOAD, EXPORT |
Oui |
interval |
Intervalle en minutes entre les exécutions consécutives du travail de pipeline programmé. La valeur par défaut est 15 minutes |
LOAD, EXPORT |
Oui |
key_column |
Colonne d'horodatage ou de date dans le fichier Valeur par défaut : NULL Si |
EXPORT |
No |
location |
Ce paramètre spécifie l'URI ou les répertoires du fichier source et les fichiers source. Vous pouvez utiliser les caractères génériques dans les noms de fichier. Ce paramètre est obligatoire. URI de fichier source cloud Vous pouvez indiquer un URI de fichier source pour le bucket ou le sous-dossier. Vous pouvez utiliser des caractères génériques pour spécifier des sous-dossiers ou des modèles de nom de fichier. Le caractère "\*" peut être utilisé comme générique pour plusieurs caractères et le caractère " ?" peut être utilisé comme générique pour un seul caractère. Exemple avec des caractères génériques :
Le format des URI dépend du service Cloud Object Storage que vous utilisez. Pour en savoir plus, reportez-vous àFormats d'URI de stockage d'objet cloud. Annuaire Vous pouvez indiquer un répertoire et un nom de fichier. Le format de spécification d'un répertoire est Vous pouvez uniquement utiliser des caractères génériques pour indiquer des noms de fichier dans un répertoire. Le caractère Par exemple : Utilisez des guillemets doubles pour indiquer un nom de répertoire sensible à la casse. Par exemple : Pour inclure un guillemet, utilisez deux guillemets. Par exemple : |
||
priority |
Spécifie une valeur de chaîne qui détermine le nombre d'opérations parallèles effectuées pour le pipeline.
Une opération avec une priorité plus élevée consomme plus de ressources de base de données et est terminée plus tôt. Valeurs valides :
Valeur par défaut : Le nombre maximal d'opérations de fichier simultanées est limité à 64. |
LOAD, EXPORT |
Oui |
query |
Spécifie une instruction Exemple : Valeur par défaut : Pour un pipeline d'export, |
EXPORT |
No |
table_name |
Indique le nom de la table cible pour le chargement ou l'export des données. Pour un pipeline de chargement, Pour un pipeline d'export, |
LOAD, EXPORT |
No |
table_owner |
Nom du schéma dans lequel réside la table cible pour le chargement ou l'export de données. La valeur par défaut est Avec une valeur |
LOAD, EXPORT |
No |