Package DBMS_DCAT

Le package DBMS_DCAT fournit des fonctions et des procédures pour aider les utilisateurs Autonomous Database à tirer parti du système de repérage de données et de gestion centralisée des métadonnées d'OCI Data Catalog.

Data Catalog collecte les métadonnées à partir des ressources de stockage d'objets d'un lac de données. Le processus de collecte crée des entités logiques, qui peuvent être considérées comme des tables avec des colonnes et des types de données associés. Les procédures et fonctions DBMS_DCAT connectent Autonomous Database à Data Catalog, puis synchronisent les ressources avec la base de données, créant ainsi des schémas protégés et des tables externes. Vous pouvez ensuite interroger la banque d'objets à l'aide de ces tables externes, en joignant facilement des données externes à des données stockées dans Autonomous Database. Cela simplifie considérablement le processus de gestion. Il existe une seule banque de métadonnées gérée de manière centralisée qui est partagée entre plusieurs services OCI (y compris les bases de données autonomes). Il existe également des vues de dictionnaire Autonomous Database qui vous permettent d'inspecter le contenu de Data Catalog à l'aide de SQL et de vous montrer comment ces entités Data Catalog sont mises en correspondance avec vos tables et schémas Autonomous Database.

Utilisateurs et rôles Data Catalog

Le package DBMS_DCAT prend en charge les utilisateurs/schémas synchronisés, les utilisateurs dcat_admin et les utilisateurs locaux. Les utilisateurs doivent disposer du rôle dcat_sync pour pouvoir utiliser ce package.

Utilisateurs Data Catalog

  • Utilisateurs/schémas synchronisés

    Les tables externes synchronisées sont organisées en schémas de base de données correspondant à des combinaisons ressource de données/bucket, ou en fonction des propriétés personnalisées définies par l'utilisateur. Les schémas synchronisés sont automatiquement créés/supprimés lors de la synchronisation de Data Catalog. Ils sont créés en tant qu'utilisateurs d'authentification sans le privilège CREATE SESSION. Les schémas synchronisés sont également créés à l'aide de la clause protégée, de sorte qu'ils ne peuvent pas être modifiés par les utilisateurs locaux (pas même l'administrateur de base de données pluggable) et ne peuvent être modifiés que via la synchronisation.

  • Utilisateur dcat_admin

    L'utilisateur dcat_admin est un utilisateur de base de données local qui peut exécuter une synchronisation et accorder le privilège READ sur les tables synchronisées à d'autres utilisateurs ou rôles. L'utilisateur est créé en tant qu'utilisateur sans authentification sans le privilège CREATE SESSION.

  • Utilisateurs locaux

    Les utilisateurs de base de données qui interrogent les tables externes doivent disposer explicitement de privilèges READ sur les tables externes synchronisées par les utilisateurs dcat_admin ou ADMIN. Par défaut, une fois la synchronisation terminée, seuls les utilisateurs dcat_admin et ADMIN ont accès aux tables externes synchronisées.

Rôles Data Catalog

  • dcat_sync

    Le rôle dcat_sync dispose de tous les privilèges requis pour utiliser le package DBMS_DCAT. Les utilisateurs doivent disposer de ce rôle pour pouvoir utiliser l'API pour naviguer dans le catalogue de données et exécuter la synchronisation.

Informations d'identification et stratégies IAM requises

Cette rubrique décrit les stratégies et les informations d'identification utilisateur Oracle Cloud Infrastructure Identity and Access Management (IAM) requises pour autoriser les utilisateurs Autonomous Database à gérer un catalogue de données et à lire à partir du stockage d'objets.

Exigences relatives aux informations d'identification et aux stratégies OCI Data Catalog :

Configuration requise pour les informations d'identification et les stratégies AWS Glue Data Catalog

Les informations d'identification et stratégies utilisateur suivantes sont requises pour autoriser les utilisateurs Autonomous Database à accéder aux catalogues de données Glue Amazon Web Services (AWS) et à lire à partir du stockage d'objets S3 :
  • Un objet d'informations d'identification avec l'autorisation d'accéder à un catalogue de données AWS Glue est requis. Pour plus d'informations sur la gestion des informations d'identification, reportez-vous à DBMS_CLOUD pour Access Management.

    Pour accéder à un catalogue de données AWS Glue, les privilèges suivants sont requis : glue:GetDatabases , glue:GetTables et glue:GetTable.

    En outre, le privilège s3 :GetBucketLocation est nécessaire lors de la synchronisation pour générer des URL HTTPS pouvant être résolues pointant vers les objets S3 sous-jacents.
  • Un objet d'informations d'identification autorisé à accéder aux fichiers stockés dans S3 est requis afin qu'Autonomous Database puisse interroger les fichiers de données.
  • Les informations d'identification AWS sont prises en charge. Les informations d'identification AWS Amazon Resource Names (ARN) ne sont pas prises en charge.

Exemple : création d'un objet d'informations d'identification d'authentification native OCI

Dans cet exemple, nous créons des informations d'identification d'authentification native OCI qui peuvent être utilisées lors de la création d'un catalogue de données ou d'un objet d'informations d'identification de banque d'objets. Pour plus d'informations, reportez-vous à Procédure DBMS_DCAT SET_DATA_CATALOG_CREDENTIAL et à Procédure DBMS_DCAT SET_OBJECT_STORE_CREDENTIAL respectivement.

Dans l'authentification native OCI, la procédure DBMS_CLOUD.CREATE_CREDENTIAL inclut les paramètres suivants : credential_name, user_ocid, tenancy_ocid, private_key et fingerprint. Pour obtenir une description complète de cette procédure, reportez-vous à DBMS_CLOUD CREATE_CREDENTIAL Procedure.

credential_name est le nom de l'objet d'informations d'identification. Les paramètres user_ocid et tenancy_ocid correspondent respectivement aux OCID de l'utilisateur et de la location.

Le paramètre private_key indique la clé privée générée au format PEM. Les clés privées créées avec une phrase de données ne sont pas prises en charge. Par conséquent, nous devons nous assurer de générer une clé sans phrase de passe. Pour plus d'informations sur la création d'une clé privée sans phrase de passe, reportez-vous à la section How to Generate an API Signing Key. En outre, la clé privée que nous fournissons pour ce paramètre ne doit contenir que la clé elle-même sans en-tête ni pied de page (par exemple, '-----BEGIN RSA PRIVATE KEY-----', '-----END RSA PRIVATE KEY-----').

Le paramètre fingerprint indique l'empreinte obtenue après le téléchargement de la clé publique vers la console ou à l'aide des commandes OpenSSL. Pour plus d'informations sur l'obtention de l'empreinte, reportez-vous aux sections Téléchargement de la clé publique et Obtention de l'empreinte de la clé.

Une fois toutes les informations nécessaires collectées et la clé privée générée, nous sommes prêts à exécuter la procédure CREATE_CREDENTIAL suivante :

BEGIN
  DBMS_CLOUD.CREATE_CREDENTIAL (
    credential_name => 'OCI_NATIVE_CRED',
    user_ocid              => 'ocid1.user.oc1..aaaaaaaatfn77fe3fxux3o5lego7glqjejrzjsqsrs64f4jsjrhbsk5qzndq',
    tenancy_ocid           => 'ocid1.tenancy.oc1..aaaaaaaapwkfqz3upqklvmelbm3j77nn3y7uqmlsod75rea5zmtmbl574ve6a',
    private_key            => 'MIIEogIBAAKCAQEA...t9SH7Zx7a5iV7QZJS5WeFLMUEv+YbYAjnXK+dOnPQtkhOblQwCEY3Hsblj7Xz7o=',
    fingerprint            => '4f:0c:d6:b7:f2:43:3c:08:df:62:e3:b2:27:2e:3c:7a');
END;
/
Une fois l'objet d'informations d'identification créé, il apparaît dans la table dba_credentials :
SELECT owner, credential_name
FROM dba_credentials 
WHERE credential_name LIKE '%NATIVE%';

OWNER CREDENTIAL_NAME
----- ---------------
ADMIN OCI_NATIVE_CRED

Exemple : utilisation du principal de ressource Autonomous Database

Dans cet exemple, un groupe dynamique est créé avec les membres de ressource appropriés, le groupe dynamique est autorisé à gérer un catalogue de données, puis le groupe dynamique est autorisé à lire à partir du stockage d'objets.

  1. Créez un groupe dynamique nommé adb-grp-1. Ajoutez une règle de mise en correspondance à adb-grp-1 qui inclut l'instance Autonomous Database avec l'OCID ocid1.autonomousdatabase.oc1.iad.abuwcljr...fjkfe en tant que membre de ressource.

    Règle de mise en correspondance de groupe dynamique:

    resource.id = 'ocid1.autonomousdatabase.oc1.iad.abuwcljr...fjkfe'
  2. Définissez une stratégie accordant au groupe dynamique adb-grp-1 un accès complet aux instances Data Catalog, dans le compartiment mycompartment.

    allow dynamic-group adb-grp-1 to manage data-catalog-family in compartment mycompartment
  3. Définissez une stratégie qui permet au groupe dynamique adb-grp-1 de lire n'importe quel bucket dans le compartiment nommé mycompartment.
    allow dynamic-group adb-grp-1 to read objects in compartment mycompartment

Exemple : utilisation d'ID utilisateur

Dans cet exemple, user1 est membre du groupe adb-admins. Tous les membres de ce groupe sont autorisés à gérer tous les catalogues de données dans mycompartment et à lire à partir de la banque d'objets dans mycompartment.

  1. Autorisez les utilisateurs membres de adb-admins à gérer tous les catalogues de données dans mycompartment.
    allow group adb-admins to manage data-catalog-family in compartment mycompartment
  2. Autorisez les utilisateurs membres de adb-admins à lire tous les objets de n'importe quel bucket dans mycompartment.
    allow group adb-admins to read objects in compartment mycompartment

Récapitulatif des sous-programmes de gestion des connexions

Ce tableau répertorie les procédures de package DBMS_DCAT utilisées pour créer, interroger et supprimer des connexions Data Catalog.

Sous-programme Description
Procédure SET_DATA_CATALOG_CONN Créer une connexion au catalogue de données indiqué
Procédure SET_DATA_CATALOG_CREDENTIAL Définir les informations d'identification d'accès au catalogue de données utilisées par une connexion spécifique au catalogue de données
Procédure SET_OBJECT_STORE_CREDENTIAL Définir les informations d'identification utilisées par l'identificateur de connexion unique indiqué pour accéder à la banque d'objets
Procédure UNSET_DATA_CATALOG_CONN Enlever une connexion Data Catalog existante

Procédure SET_DATA_CATALOG_CREDENTIAL

Cette procédure définit les informations d'identification d'accès à Data Catalog utilisées par une connexion spécifique à Data Catalog.

Syntaxe

PROCEDURE DBMS_DCAT.SET_DATA_CATALOG_CREDENTIAL(
    credential_name VARCHAR2(128) DEFAULT NULL,
    dcat_con_id     VARCHAR2 DEFAULT NULL
  );

Paramètres

Paramètre Description

credential_name

(Facultatif) Informations d'identification utilisées pour accéder au catalogue de données.

dcat_con_id Identificateur de connexion unique du catalogue de données. Ces informations d'identification sont utilisées pour la connexion identifiée par dcat_con_id. Par défaut, la valeur NULL est affectée.

Utilisation

Ces informations d'identification doivent disposer des droits d'accès Gérer Data Catalog. Reportez-vous à Stratégies Data Catalog. La valeur par défaut est le principal de ressource. Reportez-vous à Accès aux ressources cloud par configuration des stratégies et des rôles.

Procédure SET_OBJECT_STORE_CREDENTIAL

Cette procédure définit les informations d'identification utilisées par l'identificateur de connexion unique donné pour accéder à la banque d'objets. La modification des informations d'identification d'accès à la banque d'objets modifie toutes les tables synchronisées existantes pour utiliser les nouvelles informations d'identification.

Syntaxe

PROCEDURE DBMS_DCAT.SET_OBJECT_STORE_CREDENTIAL(
    credential_name  VARCHAR2(128),
    dcat_con_id      IN VARCHAR2 DEFAULT NULL
  );

Paramètres

Paramètre Description

credential_name

Informations d'identification utilisées par les tables externes pour accéder à la banque d'objets.

dcat_con_id Identificateur de connexion unique du catalogue de données. Valeur par défaut : NULL.

Procédure SET_DATA_CATALOG_CONN

Cette procédure crée une connexion au catalogue de données donné. La connexion est requise pour synchroniser les métadonnées avec Data Catalog. Une instance Autonomous Database peut se connecter à plusieurs instances Data Catalog et prend en charge la connexion à OCI Data Catalogs et AWS Glue Data Catalogs.

Syntaxe

PROCEDURE DBMS_DCAT.SET_DATA_CATALOG_CONN (
   region       VARCHAR2 DEFAULT NULL,
   endpoint     VARCHAR2 DEFAULT NULL,
   catalog_id   VARCHAR2 DEFAULT NULL,
   dcat_con_id  VARCHAR2 DEFAULT NULL,
   catalog_type VARCHAR2 DEFAULT NULL
 );

Paramètres

Paramètre Description

region

Région Data Catalog. Si endpoint est indiqué, region est facultatif. Si endpoint et region sont fournis, endpoint est prioritaire. La valeur par défaut est NULL.

endpoint

Adresse Data Catalog. Si region est indiqué, endpoint est facultatif. Si endpoint et region sont fournis, endpoint est prioritaire. La valeur par défaut est NULL.

catalog_id

Identificateur Oracle Cloud (OCID) unique de l'instance Data Catalog. Lors de la connexion à AWS Glue Data Catalogs, catalog_id est facultatif.

dcat_con_id Identificateur de connexion Data Catalog unique. Cet identificateur est requis lors de la connexion à plusieurs catalogues de données et facultatif lors de la connexion à un seul. Il est utilisé pour faire référence à la connexion Data Catalog lors des appels suivants ou lors de l'interrogation des vues. Si aucun identificateur n'est spécifié, cette procédure génère un identificateur de connexion NULL. Pour dcat_con_id, les restrictions suivantes s'appliquent :
  • Il doit être unique au sein de l'instance Autonomous Database.
  • Elle doit commencer par une lettre.
  • Il peut contenir des caractères alphanumériques, des traits de soulignement (_), des signes dollar ($) et des signes dièse (#).
  • Il doit comporter au moins 16 caractères.
catalog_type Type de catalogue de données à connecter. Valeurs autorisées :
  • OCI_DCAT - OCI Data Catalog
  • AWS_GLUE - Catalogue de données AWS Glue
  • NULL : le type de catalogue est automatiquement détecté à partir de la région ou de l'adresse fournie.

Utilisation

Vous n'avez besoin d'appeler cette procédure qu'une fois pour définir la connexion. Dans le cadre du processus de connexion, Autonomous Database ajoute des propriétés personnalisées à Data Catalog. Ces propriétés personnalisées sont accessibles aux utilisateurs de Data Catalog et vous permettent de remplacer les noms par défaut (pour les schémas, les tables et les colonnes) et les types de données de colonne.

Avant de créer une connexion, vous devez créer et définir des informations d'identification. Pour obtenir une description du processus de connexion, reportez-vous à Workflow standard avec Data Catalog pour les catalogues de données OCI et à Workflow utilisateur pour l'interrogation avec AWS Glue Data Catalog pour les catalogues de données AWS Glue.

Exemple : connexion avec un OCID connu

Dans cet exemple, Autonomous Database se connecte à Data Catalog dans la région uk-london-1. Le paramètre catalog_id utilise l'identificateur Oracle Cloud (ocid) pour l'instance Data Catalog. Le type de catalogue de données est déterminé automatiquement : AWS Glue Data Catalog ou OCI Data Catalog.

BEGIN
  DBMS_DCAT.SET_DATA_CATALOG_CONN(
    region=>'uk-london-1',
    catalog_id=>'ocid1.datacatalog.oc1.uk-london-1...');
END;
/

Exemple : connexion à un catalogue de données AWS Glue

Une connexion est l'association entre une instance Autonomous Database et un catalogue de données AWS Glue. Une fois la connexion établie, l'instance Autonomous Database peut être synchronisée avec AWS Glue. Chaque compte AWS dispose d'un catalogue de données AWS Glue par région et chaque catalogue est accessible à l'aide de l'adresse de service correspondante pour chaque région. Une instance Autonomous Database peut être associée à un catalogue de données AWS Glue en appelant l'API DBMS_DCAT.SET_DATA_CATALOG_CONN et en indiquant l'adresse de la région dans laquelle réside le catalogue.

Reportez-vous à Adresses et quotas AWS Glue.

Dans cet exemple, Autonomous Database se connecte à un catalogue de données AWS Glue dans la région uk-london-1. Etant donné qu'il s'agit d'une connexion AWS Glue Data Catalog, le paramètre catalog_id n'est pas nécessaire.

BEGIN
  DBMS_DCAT.SET_DATA_CATALOG_CONN(
    region=>'uk-london-1',
    catalog_type=>'AWS_GLUE'
END;
/

Procédure UNSET_DATA_CATALOG_CONN

Cette procédure supprime une connexion Data Catalog existante.

Syntaxe

Remarque

L'appel de cette procédure supprime tous les schémas protégés et toutes les tables externes qui ont été créés dans le cadre de synchronisations précédentes. Elle n'a pas d'impact sur les métadonnées dans Data Catalog.
PROCEDURE DBMS_DCAT.UNSET_DATA_CATALOG_CONN (
    dcat_con_id IN VARCHAR2 DEFAULT NULL
);

Paramètres

Paramètre Description
dcat_con_id Identificateur de connexion unique du catalogue de données. La valeur par défaut est NULL.

Récapitulatif des sous-programmes de synchronisation

Vous pouvez exécuter une synchronisation, créer et supprimer un travail de synchronisation et supprimer des schémas synchronisés à l'aide des procédures répertoriées dans ce tableau.

Remarque

Le 4 avril 2022, les paramètres sync_option et grant_read ont été ajoutés à la procédure DBMS_DCAT.RUN_SYNC. Pour garantir les performances correctes des travaux de synchronisation planifiés créés avant cette date, vous devez supprimer et recréer les travaux de synchronisation planifiés. Reportez-vous à Procédure DBMS_DCAT.DROP_SYNC_JOB et à Procédure DBMS_DCAT.CREATE_SYNC_JOB.
Sous-programme Description
Procédure CREATE_SYNC_JOB Créer un travail de planificateur pour appeler RUN_SYNC régulièrement
Procédure DROP_SYNC_JOB Supprimer un travail de synchronisation existant pour l'identificateur de connexion unique donné
Procédure DROP_SYNCED_SCHEMAS Supprimer tous les schémas précédemment synchronisés pour l'identificateur de connexion unique donné
Procédure RUN_SYNC Exécuter une opération de synchronisation

Procédure RUN_SYNC

Cette procédure exécute une opération de synchronisation et constitue le point d'entrée de la synchronisation. En entrée, il prend des listes de ressources, de dossiers et d'entités de catalogue de données sélectionnés et les matérialise en créant, supprimant et modifiant des tables externes.

Le paramètre sync_option indique l'opération exécutée par la procédure RUN_SYNC : SYNC, DELETE ou REPLACE. L'opération est effectuée sur des entités comprises dans la portée du paramètre synced_objects.

Chaque appel de la procédure RUN_SYNC renvoie une valeur operation_id unique qui peut être utilisée pour interroger la vue USER_LOAD_OPERATIONS afin d'obtenir des informations sur le statut de la synchronisation et sur la valeur log_table correspondante. La vue DBMS_DCAT$SYNC_LOG peut être interrogée afin de faciliter l'accès à log_table pour la dernière opération de synchronisation exécutée par l'utilisateur en cours. Pour plus d'informations, reportez-vous à DBMS_DCAT$SYNC_LOG View et à Monitoring and Troubleshooting Loads.

Remarque

Le 4 avril 2022, les paramètres sync_option et grant_read ont été ajoutés à la procédure RUN_SYNC. Pour garantir les performances correctes des travaux de synchronisation planifiés créés avant cette date, vous devez supprimer et recréer les travaux de synchronisation planifiés. Reportez-vous à Procédure DBMS_DCAT.DROP_SYNC_JOB et à Procédure DBMS_DCAT.CREATE_SYNC_JOB.

Synchronisation des entités logiques partitionnées ou des tables de colle

La procédure RUN_SYNC crée une table externe partitionnée pour chaque entité logique ou table Glue lorsque les trois éléments suivants s'appliquent :

  1. L'entité logique ou la table Glue du catalogue de données OCI comporte un ou plusieurs attributs partitionnés.
  2. Pour les catalogues de données OCI, l'entité logique est dérivée d'un modèle de nom de fichier basé sur un préfixe. Les entités logiques partitionnées dérivées de modèles basés sur des expressions régulières ne sont pas prises en charge.
  3. Pour les catalogues de données OCI, l'entité logique est basée sur des données partitionnées qui suivent le format de dossier de type ruche ou non ruche. Les entités logiques basées sur des données partitionnées qui suivent le format de style non Beehive utilisant des noms d'objet ne sont pas prises en charge.
    • Exemple 1. Entités logiques basées sur des objets collectés qui suivent le format de partitionnement de style Hive avec des modèles de nom de fichier basés sur un préfixe.

      Considérez les objets suivants :
      Bucket: MYBUCKET
      cluster1/db1.db/sales/country=USA/year=2020/month=01/sales1.csv
      cluster1/db1.db/sales/country=USA/year=2020/month=01/sales2.csv
      cluster1/db1.db/sales/country=USA/year=2020/month=02/sales1.csv

      La collecte du bucket à l'aide d'un modèle de nom de fichier avec le préfixe de dossier de début cluster1/db1.db génère une entité logique nommée SALES avec trois attributs de partition : country, year et month. Le type des attributs partitionnés est Partition, tandis que le type des attributs non partitionnés est Primitive.

    • Exemple 2. Entités logiques basées sur des objets collectés qui suivent le format de partitionnement de style non Hive avec des modèles de nom de fichier basés sur un préfixe.
      Considérez les objets suivants :
      Bucket: MYBUCKET
      cluster2/db2.db/sales/USA/2020/01/sales1.csv
      cluster2/db2.db/sales/USA/2020/01/sales2.csv
      cluster2/db2.db/sales/USA/2020/02/sales1.csv

      La collecte du bucket à l'aide d'un modèle de nom de fichier avec le préfixe de dossier de début cluster2/db2.db génère une entité logique nommée SALES avec trois attributs de partition : name0, name1 et name2. La seule différence entre l'entité logique générée et l'exemple 1 est que les noms des attributs partitionnés sont générés automatiquement, tandis que dans l'exemple 1, ils sont extraits de l'URL (country, year et month respectivement).

Pour obtenir un exemple complet de synchronisation d'entités logiques partitionnées de bout en bout, reportez-vous à Exemple : scénario de données partitionnées.

Synchronisation incrémentielle des entités logiques partitionnées/tables Glue

Chaque appel de la procédure RUN_SYNC indique un ensemble d'entités logiques du catalogue de données OCI ou de tables AWS Glue à synchroniser avec la base de données. Lorsqu'une entité logique ou une table Glue est présente dans deux appels RUN_SYNC, le deuxième appel conserve et modifie éventuellement les tables externes existantes. Le tableau suivant indique quelles modifications d'entité logique ou de table Glue sont prises en charge lorsque l'entité logique ou la table Glue est partitionnée :

Modification d'une entité logique ou d'une table de colle Action

Ajout, suppression ou mise à jour d'une partition

Toutes les partitions de la table partitionnée externe sont mises à jour, qu'une modification ait été détectée ou non par le catalogue de données.

Ajout d'un attribut partitionné

L'ajout d'une colonne partitionnée à une table partitionnée externe n'est pas pris en charge. Une exception est générée.

Suppression d'un attribut de partition

La suppression d'une colonne partitionnée à partir d'une table partitionnée externe n'est pas prise en charge. Une exception est générée.

Modification du nom d'un attribut partitionné

Le changement de nom d'une colonne partitionnée dans une table partitionnée externe n'est pas pris en charge. Une exception est générée.

Syntaxe

PROCEDURE DBMS_DCAT.RUN_SYNC (
    synced_objects   IN  CLOB,
    sync_option      IN VARCHAR2 DEFAULT 'SYNC',
    error_semantics  IN VARCHAR2 DEFAULT 'SKIP_ERRORS',
    log_level        IN VARCHAR2 DEFAULT 'INFO',
    grant_read       IN VARCHAR2 DEFAULT NULL,
    dcat_con_id      IN VARCHAR2 DEFAULT NULL
 );
PROCEDURE DBMS_DCAT.RUN_SYNC (
    synced_objects   IN  CLOB,
    sync_option      IN VARCHAR2 DEFAULT 'SYNC',
    error_semantics  IN VARCHAR2 DEFAULT 'SKIP_ERRORS',
    log_level        IN VARCHAR2 DEFAULT 'INFO',
    grant_read       IN VARCHAR2 DEFAULT NULL,
    operation_id     OUT NOCOPY NUMBER,
    dcat_con_id      IN VARCHAR2 DEFAULT NULL
 );

Paramètres

Paramètre Description

synced_objects

Ce paramètre est un document JSON qui spécifie les objets de catalogue de données à synchroniser.

Pour les catalogues de données OCI, le document JSON indique un ensemble d'entités de granularité multiple : ressources de données, dossiers (buckets Object Store) ou entités logiques. Il contient un élément asset_list qui est soit un tableau d'objets de ressource, soit un tableau contenant une seule chaîne "*" qui signifie "synchroniser toutes les ressources de données (banque d'objets) dans le catalogue".

Pour AWS Glue Data Catalogs, le document JSON indique une liste de tables de granularité multiple : bases de données, tables. Le document indique la liste des bases de données. Les utilisateurs peuvent restreindre l'ensemble de tables à synchroniser en indiquant des tables individuelles dans une base de données.

sync_option (Facultatif) Trois options sont disponibles :
  • SYNC (valeur par défaut) : cette option garantit que les éléments du catalogue de données, sur la portée synced_objects, sont représentés dans Autonomous Database. Si une entité logique ou une table Glue a été supprimée du catalogue de données, depuis la dernière opération de synchronisation, elle est supprimée dans Autonomous Database. Les opérations suivantes sont effectuées sur la portée synced_objects :
    • Ajoute des tables pour les nouvelles entités de catalogue de données
    • Enlève des tables pour les entités de catalogue de données supprimées
    • Met à jour les propriétés (comme le nom, les colonnes et les types de données) des tables existantes
  • DELETE : supprime les tables dans la portée synced_objects.
  • REPLACE : remplace tous les objets actuellement synchronisés par les objets de la portée synced_objects.

error_semantics

(Facultatif) Ce paramètre indique le comportement de l'erreur. Si elle est définie sur SKIP_ERRORS, la synchronisation tente de continuer malgré les erreurs rencontrées pour des entités individuelles. Si elle est définie sur STOP_ON_ERROR, la procédure échoue lors de la première erreur rencontrée. La valeur par défaut est SKIP_ERRORS.

log_level

(Facultatif) Ce paramètre spécifie les valeurs suivantes pour augmenter le niveau de détail de journalisation : (OFF, FATAL, ERROR, WARN, INFO, DEBUG, TRACE, ALL). Par défaut, INFO.
grant_read (Facultatif) Ce paramètre est une liste des utilisateurs/rôles auxquels des privilèges READ sont automatiquement accordés sur toutes les tables externes traitées par cet appel de RUN_SYNC. Tous les utilisateurs/rôles de la liste grant_read disposent de privilèges READ sur toutes les tables externes nouvelles ou existantes qui correspondent aux entités spécifiées par le paramètre synced_objects. La procédure RUN_SYNC conserve les privilèges déjà accordés sur les tables externes synchronisées.

operation_id

(Facultatif) Ce paramètre permet de rechercher l'entrée correspondante dans USER_LOAD_OPERATIONS pour la synchronisation et de déterminer le nom de la table de journalisation.

Remarque : une version de RUN_SYNC qui ne renvoie pas de valeur operation_id est disponible afin que les utilisateurs puissent interroger USER_LOAD_OPERATIONS pour obtenir la dernière synchronisation.

dcat_con_id Ce paramètre est l'identificateur de connexion de catalogue de données unique qui a été spécifié lors de la création de la connexion au catalogue de données. Reportez-vous à la procédure DBMS_DCAT SET_DATA_CATALOG_CONN. Ce paramètre identifie la connexion utilisée pour la synchronisation et devient une partie du nom du schéma dérivé. Pour obtenir une description de la façon dont le nom de schéma est dérivé, reportez-vous à Mappage de synchronisation. La valeur par défaut du paramètre est NULL.

Exemple : Synchronisation de toutes les entités OCI Data Catalog

Dans l'exemple suivant, toutes les entités Data Catalog sont synchronisées.

EXEC DBMS_DCAT.RUN_SYNC(synced_objects=>'{"asset_list":["*"]}');

Exemple : paramètre synced_objects pour la synchronisation de toutes les ressources de données OCI Data Catalog

Voici un exemple de paramètre synced_objects pour la synchronisation de toutes les ressources de données (Object Storage) dans Data Catalog.

{"asset_list" : ["*"]}

Exemple : paramètre synced_objects pour la synchronisation de ressources de données OCI Data Catalog spécifiques

Voici un exemple de paramètre synced_objects pour la synchronisation de deux ressources de données.

{"asset_list": [
        {
            "asset_id":"0b320de9-8411-4448-91fb-9e2e7f78fd5f"
        },
        {
            "asset_id":"0b320de9-8411-4448-91fb-9e2e7f74523"
        }
    ]}

Exemple : paramètre synced_objects pour la synchronisation d'entités OCI Data Catalog spécifiques dans une ressource de données

L'exemple suivant illustre un paramètre synced_objects pour la synchronisation de deux entités au sein de la ressource de données.

{"asset_list": [
        {
            "asset_id":"0b320de9-8411-4448-91fb-9e2e7f78fd5f",
            "folder_list":[
                "f1",         
                "f2" 
           ]
        }   
    ]}

Exemple : paramètre synced_objects pour la synchronisation de dossiers et d'entités OCI Data Catalog spécifiques au sein d'une ressource de données

L'exemple suivant illustre un paramètre synced_objects pour synchroniser deux dossiers et deux entités au sein de la ressource de données.

{"asset_list":[
        {
            "asset_id":"0b320de9-8411-4448-91fb-9e2e7f78fd5f",
            "entity_list": [
                "entity1",     
                "entity2"
            ],
             "folder_list": [
                "f1",         
                "f2"
            ]
        }   
    ]}

Exemple : paramètre synced_objects pour la synchronisation de toutes les bases de données AWS Glue Data Catalog

Voici un exemple de paramètre synced_objects pour la synchronisation de toutes les bases de données dans AWS Glue Data Catalog.

{"database_list":["*"]}

Exemple : paramètre synced_objects pour la synchronisation de deux bases de données AWS Glue Data Catalog

Voici un exemple de paramètre synced_objects pour la synchronisation de deux bases de données AWS Glue Data Catalog.

{"database_list":[
    {"database":"tpcdscsv"},
    {"database":"tpcdsparquet"} ]}

Exemple : paramètre synced_objects pour la synchronisation de trois bases de données AWS Glue Data Catalog

Voici un exemple de paramètre synced_objects pour la synchronisation de trois tables à partir d'une base de données AWS Glue Data Catalog.

{"database_list":[
 {"database":"tpcdsparquet",
     "table_list": [ "tpcdsparquet_customer",
                     "tpcdsparquet_item",
                     "tpcdsparquet_web_sales" ] } ]}

Procédure CREATE_SYNC_JOB

Cette procédure crée un travail de planificateur pour appeler RUN_SYNC régulièrement.

Il prend en entrée l'ensemble des objets à synchroniser, la sémantique des erreurs, le niveau de journalisation et un intervalle de répétition. Pour plus de détails sur le fonctionnement de la synchronisation, reportez-vous à la procédure DBMS_DCAT RUN_SYNC.

Il ne peut y avoir qu'un seul travail de synchronisation. La procédure CREATE_SYNC_JOB échoue si un autre travail est déjà indiqué, sauf si le paramètre force est défini sur TRUE. Si force est définie sur TRUE, le travail précédent est supprimé.

Si un travail de planificateur tente de s'exécuter alors qu'une autre synchronisation est en cours, le travail de planificateur échoue.

Remarque

Le 4 avril 2022, les paramètres sync_option et grant_read ont été ajoutés à la procédure RUN_SYNC. Pour garantir les performances correctes des travaux de synchronisation planifiés créés avant cette date, vous devez supprimer et recréer les travaux de synchronisation planifiés. Reportez-vous à Procédure DBMS_DCAT.DROP_SYNC_JOB et à Procédure DBMS_DCAT.CREATE_SYNC_JOB.

Syntaxe

PROCEDURE DBMS_DCAT.CREATE_SYNC_JOB (
    synced_objects   IN CLOB,
    error_semantics  IN VARCHAR2 DEFAULT 'SKIP_ERRORS',
    log_level        IN VARCHAR2 DEFAULT 'INFO',
    repeat_interval  IN VARCHAR2,
    force            IN VARCHAR2 DEFAULT 'FALSE',
    grant_read       IN VARCHAR2 DEFAULT NULL,
    sync_option      IN VARCHAR2 DEFAULT 'SYNC',
    dcat_con_id      IN VARCHAR2 DEFAULT NULL
);

Paramètres

Paramètre Description

synced_objects

Objet JSON indiquant les objets à synchroniser, comme décrit dans la procédure RUN_SYNC.

error_semantics

(Facultatif) Comportement en cas d'erreur, comme indiqué pour RUN_SYNC. La valeur par défaut est SKIP_ERRORS.

log_level

(Facultatif) Niveau de journalisation, comme indiqué pour RUN_SYNC. La valeur par défaut est INFO.

repeat_interval

Intervalle de répétition du travail, avec la même sémantique que le paramètre d'intervalle de répétition de la procédure DBMS_SCHEDULER.CREATE_JOB. Pour plus d'informations sur repeat_interval, reportez-vous à Présentation de la création de travaux.

force

(Facultatif) Si TRUE, les travaux de synchronisation existants sont d'abord supprimés. Si FALSE, la procédure CREATE_SYNC_JOB échoue si un travail de synchronisation existe déjà. La valeur par défaut est FALSE.

grant_read (Facultatif) Liste des utilisateurs/rôles auxquels l'accès en lecture est accordé sur les tables externes synchronisées, comme décrit pour la procédure RUN_SYNC. Reportez-vous à Procédure DBMS_DCAT.RUN_SYNC.
sync_option (Facultatif) Comportement concernant les entités qui ont déjà été synchronisées via une opération RUN_SYNC précédente, comme décrit pour la procédure RUN_SYNC. Reportez-vous à Procédure DBMS_DCAT.RUN_SYNC.
dcat_con_id Ce paramètre est l'identificateur de connexion unique Data Catalog indiqué lors de la création de la connexion à Data Catalog. Reportez-vous à la procédure DBMS_DCAT SET_DATA_CATALOG_CONN. Ce paramètre identifie la connexion utilisée pour la synchronisation et devient une partie du nom du schéma dérivé. Pour obtenir une description de la façon dont le nom de schéma est dérivé, reportez-vous à Mappage de synchronisation. La valeur par défaut du paramètre est NULL.

Procédure DROP_SYNC_JOB

Cette procédure supprime un travail de synchronisation existant pour l'identificateur de connexion unique donné.

Syntaxe

PROCEDURE DBMS_DCAT.DROP_SYNC_JOB (
    dcat_con_id IN VARCHAR2 DEFAULT NULL
  );

Paramètres

Paramètre Description
dcat_con_id Identificateur de connexion unique du catalogue de données. Valeur par défaut : NULL.

Procédure DROP_SYNCED_SCHEMAS

Cette procédure supprime tous les schémas précédemment synchronisés pour l'identificateur de connexion unique donné.

Syntaxe

PROCEDURE DBMS_DCAT.DROP_SYNCED_SCHEMAS (
    dcat_con_id IN VARCHAR2 DEFAULT NULL
  );

Paramètres

Paramètre Description
dcat_con_id Identificateur de connexion unique du catalogue de données. Valeur par défaut : NULL.

Récapitulatif des vues Data Catalog

L'intégration de Data Catalog à Autonomous Database fournit de nombreuses tables et vues.

Les tableaux et vues suivants vous aident à comprendre :

  • Ressources Data Catalog disponibles. Obtenez des informations sur tout type de ressource Data Catalog, y compris les bases de données, les banques d'objets, etc.
  • Informations sur les ressources et entités Object Storage Data Catalog qui ont été synchronisées avec Autonomous Database. Cela inclut des détails sur la façon dont les éléments Data Catalog (actifs, dossiers et entités) sont mis en correspondance avec des objets Autonomous Database (schémas et tables externes).
  • Exécutions de synchronisation des métadonnées. Consultez les détails des travaux de synchronisation, y compris les problèmes éventuels survenus lors de la synchronisation.

Ce tableau répertorie les tables et les vues fournies par le package DBMS_DCAT.

Afficher Description
ALL_CLOUD_CATALOG_DATABASES Vue Afficher des informations sur les ressources de données OCI Data Catalog et les bases de données AWS Glue Data Catalog
ALL_CLOUD_CATALOG_TABLES Vue Utilisé pour afficher des informations sur les entités de données pour les catalogues de données OCI et les tables pour les catalogues de données AWS Glue
ALL_DCAT_ASSETS Vue Répertorier les ressources de catalogue de données auxquelles cette base de données est autorisée à accéder
ALL_DCAT_ATTRIBUTES Vue Répertorier les attributs de catalogue de données auxquels cette base de données est autorisée à accéder
ALL_DCAT_CONNECTIONS Vue Vue qui contient des informations sur les catalogues de données connectés à cette instance
ALL_DCAT_ENTITIES Vue

Répertorie les entités logiques auxquelles cette base de données est autorisée à accéder

ALL_DCAT_FOLDERS Vue Répertorier les métadonnées des buckets Object Storage contenant les fichiers de données des entités logiques
ALL_DCAT_GLOBAL_ACCESSIBLE_CATALOGS Vue Répertorier tous les catalogues accessibles dans toutes les régions, ainsi que le niveau de privilèges d'accès pour chaque catalogue
ALL_DCAT_LOCAL_ACCESSIBLE_CATALOGS Vue Répertorier tous les catalogues accessibles dans la région en cours, ainsi que le niveau des privilèges d'accès pour chaque catalogue
ALL_GLUE_DATABASES Vue Répertorie les bases de données AWS Glue Data Catalog auxquelles les informations d'identification du catalogue de données sont autorisées à accéder
ALL_GLUE_TABLES Vue Affiche toutes les tables AWS Glue Data Catalog auxquelles les informations d'identification du catalogue de données sont autorisées à accéder
DCAT_ATTRIBUTES Vue répertorier le mapping des attributs d'entité logique avec les colonnes de table externe
DCAT_ENTITIES Vue Décrit le mapping des entités logiques avec des tables externes
DBMS_DCAT$SYNC_LOG Voir Fournit un accès facile à la table de journalisation pour la dernière opération de synchronisation exécutée par l'utilisateur en cours

ALL_CLOUD_CATALOG_DATABASES Vue

Utilisez la vue ALL_CLOUD_CATALOG_DATABASES pour afficher des informations sur les ressources de données OCI Data Catalog et les bases de données AWS Glue Data Catalog.

Colonne Description
DCAT_CON_ID CON1
CATALOG_ID Identifiant unique du catalogue de données.

Exemple OCI Data Catalog :

ocid1.datacatalog.oc1.ap-mumbai-1.….y35a

Exemple de catalogue de données AWS Glue :

NULL

579294766787

NAME Nom de la ressource de données (OCI)/base de données (AWS Glue).

Exemple OCI Data Catalog :

OBJECT_STORE_AT_ASHBURN

Exemple de catalogue de données AWS Glue :

OBJECT_STORE_AT_N_CALIFORNIA

DESCRIPTION Description de la ressource de données (OCI)/base de données (AWS Glue).

Exemple OCI Data Catalog :

Data stored in S3 (N. California)

Exemple de catalogue de données AWS Glue :

Data stored in S3 (N. California)
TIME_CREATED Date et heure auxquelles la ressource de données (OCI) / les bases de données (AWS Glue) ont été créées dans le catalogue de données.

Exemple OCI Data Catalog :

26-SEP-22 10.56.01.395000 PM +00:00

Exemple de catalogue de données AWS Glue :

2022-06-15T09:45:35+01:00

DETAILS Document JSON avec des métadonnées sur chaque entité de données (OCI) / base de données (AWS Glue).

Exemple OCI Data Catalog :

{
  "catalog-id": "ocid1.datacatalog.oc1.ap-mumbai-1.amaaa...",
  "description": null,
  "display-name": "OBJECT_STORE_AT_ASHBURN",
  "external-key": "https://swiftobjectstorage.us-ashburn-1....",
  "key": "bc95181c-3ac3-4959-9e5f-4e460d3fb82a",
  "lifecycle-state": "ACTIVE",
  "time-created": "2022-09-26T22:56:01.395000+00:00",
  "type-key": "3ea65bc5-f60d-477a-a591-f063665339f9",
  "uri": "/dcat/20190325/dataAssets/bc95181c-3ac3-4959-9e5f-4e460d3fb82a"
}

Exemple de catalogue de données AWS Glue :

{
    "Name": "dbmsdcatpoc",
    "Parameters": {
        "somekey": "somevalue"
    },
    "CreateTime": "2022-06-15T09:45:35+01:00",
    "CreateTableDefaultPermissions": [
        {
            "Principal": {
                "DataLakePrincipalIdentifier": "IAM_ALLOWED_PRINCIPALS"
            },
            "Permissions": [
                "ALL"
            ]
        }
    ],
    "CatalogId": "579294766787"
}

ALL_CLOUD_CATALOG_TABLES Vue

La vue ALL_CLOUD_CATALOG_TABLES permet d'afficher des informations sur les entités de données pour les catalogues de données OCI et les tables pour les catalogues de données AWS Glue.

Colonne Description
DCAT_CON_ID Identifiant unique du catalogue de données. ID de connexion.

Exemple OCI Data Catalog : CON1

Exemple de catalogue de données AWS Glue : CON1

CATALOG_ID Identifiant unique du catalogue de données.

Exemple OCI Data Catalog : ocid1.datacatalog.oc1.ap-mumbai-1.….y35a

Exemple de catalogue de données AWS Glue : NULL

579294766787

DATABASE_NAME Nom de la ressource de données (OCI)/base de données (AWS Glue).

Exemple OCI Data Catalog : OBJECT_STORE_AT_ASHBURN

Exemple de catalogue de données AWS Glue : OBJECT_STORE_AT_N_CALIFORNIA

NAME Nom de l'entité de données (OCI) / de la table (AWS Glue).

Exemple OCI Data Catalog : BIKES_TRIPS

Exemple de catalogue de données AWS Glue : BIKES_TRIPS

DESCRIPTION Description de l'entité de données (OCI) / table (AWS Glue).

Exemple OCI Data Catalog : Table storing bike trips

Exemple d'AWS Glue Data Catalog : Table storing bike trips

TIME_CREATED Date et heure auxquelles l'entité de données (OCI) / la table (AWS Glue) a été créée dans le catalogue de données.

Exemple OCI Data Catalog : 26-SEP-22 10.56.01.395000 PM +00:00

Exemple d'AWS Glue Data Catalog : 2022-06-15T09:45:35+01:00

TIME_UPDATED Dernière modification apportée à l'entité de données (OCI) / à la table (AWS Glue).

Exemple OCI Data Catalog : 26-SEP-22 10.56.01.395000 PM +00:00

Exemple d'AWS Glue Data Catalog : 2022-06-15T09:45:35+01:00

DETAILS Document JSON avec des métadonnées sur chaque entité de données (OCI) / table (AWS Glue)

Exemple OCI Data Catalog :

{  
  "business-name": null,
  "data-asset-key": "bc95181c-3ac3-4959-9e5f-...",
  "description": null,
  "display-name": "bikes_trips",
  "external-key": "LE: https://swiftobjectstorage.us-ashburn-1.oraclecloud.com/v1/..._trips",
  "folder-key": "9c4b542d-d6eb-4b83-bf59-...",
  "folder-name": "hive",
  "is-logical": true,
  "is-partition": false,
  "key": "fde30a69-a07c-478a-ab62-...",
  "lifecycle-state": "ACTIVE",
  "object-storage-url": "https://objectstorage.us-ashburn-1.oraclecloud.com/n/...",
  "path": "OBJECT_STORE_AT_ASHBURN/hive/hive",
  "pattern-key": "db21b3f1-1508-4045-aa80-...",
  "properties": {
    "default": {
      "CONTENT-LENGTH": "4310321",
      "LAST-MODIFIED": "Fri, 9 Oct 2020 20:16:52 UTC",
      "archivedPECount": "0",
      "dataEntityExpression": "{logicalEntity:[^/]+}.db/{logicalEntity:[^/]+}/.*",
      "harvestedFile": "bikes.db/trips/p_start_month=2019-09/000000_0",
      "patternName": "bikes_trips"
    },
    "harvestProps": {
      "characterset": "UTF8",
      "compression": "none",
      "type": "PARQUET"
    }
  },
  "realized-expression": "bikes.db/trips/.*",
  "time-created": "2022-09-26T22:56:35.063000+00:00",
  "time-updated": "2022-09-26T22:56:35.063000+00:00",
  "type-key": "6753c3af-7f88-44b9-be52-1d57bef462fb",
  "updated-by-id": "ocid1.user.oc1..r5l3tov7a",
  "uri": "/dcat/20190325/dataAssets/bc95181c-3ac3-4959-9e5f-..."
}

Exemple de catalogue de données AWS Glue :

{
    "Name": "bikes_trips",
    "DatabaseName": "dbmsdcatpoc",
    "Owner": "owner",
    "CreateTime": "2022-06-23T13:24:20+01:00",
    "UpdateTime": "2022-06-23T13:24:20+01:00",
    "LastAccessTime": "2022-06-23T13:24:20+01:00",
    "Retention": 0,
    "StorageDescriptor": {
        "Columns": [
            {
                "Name": "trip_duration",
                "Type": "int"
            },
            {
                "Name": "start_month",
                "Type": "string"
            }, ...
        ],
        "Location": "s3://dbmsdcatpoc/hive/bikes.db/trips/",
        "InputFormat": "org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat",
        "OutputFormat": "org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat",
        "Compressed": false,
        "NumberOfBuckets": -1,
        "SerdeInfo":
 {            "SerializationLibrary": "org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe",
            "Parameters": {
                "serialization.format": "1"
            }
        },
        "BucketColumns": [],
        "SortColumns": [],
        "Parameters": {
            "CrawlerSchemaDeserializerVersion": "1.0",
            "CrawlerSchemaSerializerVersion": "1.0",
            "UPDATED_BY_CRAWLER": "crawler-bikes",
            "averageRecordSize": "86",
            "classification": "parquet",
            "compressionType": "none",
            "objectCount": "12",
            "recordCount": "404947",
            "sizeKey": "35312159",
            "typeOfData": "file"
        },
        "StoredAsSubDirectories": false
    },
    "PartitionKeys": [
        {
            "Name": "p_start_month",
            "Type": "string"
        }
    ],
    "TableType": "EXTERNAL_TABLE",
    "Parameters": {
        "CrawlerSchemaDeserializerVersion": "1.0",
        "CrawlerSchemaSerializerVersion": "1.0",
        "UPDATED_BY_CRAWLER": "crawler-bikes",
        "averageRecordSize": "86",
        "classification": "parquet",
        "compressionType": "none",
        "objectCount": "12",
        "recordCount": "404947",
        "sizeKey": "35312159",
        "typeOfData": "file"
    },
    "CreatedBy": "arn:aws:sts::579294766787:assumed-role/AWSGlueServiceRole-dbmsdcat/AWS-Crawler",
    "IsRegisteredWithLakeFormation": false,
    "CatalogId": "579294766787",
    "VersionId": "0"
}

Exemple

ALL_DCAT_ASSETS Vue

Ressources Data Catalog auxquelles cette base de données est autorisée à accéder.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2 (4000) Identificateur de connexion unique au sein de l'instance

KEY

VARCHAR2(4000)

Clé Immobilisation

DISPLAY_NAME VARCHAR2(4000) Nom d'affichage de l'équipement
DESCRIPTION VARCHAR2(4000) Description de la ressource
CATALOG_ID VARCHAR2(4000) OCID du catalogue de données contenant la ressource
EXTERNAL_KEY VARCHAR2(4000) URI Object Storage de base pour la ressource
URI VARCHAR2(4000) URI de ressource pour l'API Data Catalog
TIME_CREATED TIMESTAMP(6) WITH TIMEZONE Date et heure de création de la ressource de données
TYPE_KEY VARCHAR2(4000) Clé du type de ressource de données (actuellement, seules les ressources de données Object Storage sont prises en charge). Les clés de type sont disponibles via l'adresse Data Catalog '/types'.
LIFECYCLE_STATE VARCHAR2(4000) Etat en cours de la ressource de données. Pour plus d'informations sur les états de cycle de vie possibles, reportez-vous à la référence DataAsset de Data Catalog pour obtenir la liste des états possibles pour lifecycleState.

ALL_DCAT_ATTRIBUTES Vue

Attributs de catalogue de données auxquels cette base de données est autorisée à accéder.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2 (4000) Identificateur de connexion unique au sein de l'instance
KEY NUMBER Clé d'attribut

DISPLAY_NAME

VARCHAR2(4000)

Nom d'affichage de l'attribut

BUSINESS_NAME VARCHAR2(4000) Nom fonctionnel de l'attribut
DESCRIPTION VARCHAR2(4000) Description de l'attribut
DATA_ASSET_KEY VARCHAR2(4000) Clé de ressource de données
FOLDER_KEY VARCHAR2(4000) Clé de dossier
ENTITY_KEY VARCHAR2(4000) Clé d'entité
EXTERNAL_KEY VARCHAR2(4000) Clé externe unique pour l'attribut
LENGTH NUMBER Longueur maximale autorisée de la valeur d'attribut
PRECISION NUMBER Précision de la valeur d'attribut (s'applique généralement au type de données float)
SCALE NUMBER Echelle de la valeur d'attribut (s'applique généralement au type de données float)
IS_NULLABLE NUMBER Identifie si des valeurs NULL peuvent être affectées à cet attribut
URI VARCHAR2(4000) URI vers l'instance d'attribut dans l'API Data Catalog
LIFECYCLE_STATE VARCHAR2(4000) Etat actuel de l'attribut. Pour plus d'informations sur les états de cycle de vie possibles, reportez-vous à la référence d'attribut Data Catalog pour obtenir la liste des états possibles pour lifecycleState.
TIME_CREATED TIMESTAMP(6) WITH TIME ZONE Date et heure de création de l'attribut
EXTERNAL_DATA_TYPE VARCHAR2(4000) Type de données de l'attribut tel que défini dans le système externe
MIN_COLLECTION_COUNT NUMBER Nombre minimal d'éléments, si le type de l'attribut est un type de collection
MAX_COLLECTION_COUNT NUMBER Nombre maximum d'éléments, si le type de l'attribut est un type de collection
DATATYPE_ENTITY_KEY VARCHAR2(4000) Clé d'entité qui représente le type de données de cet attribut, applicable si cet attribut est un type complexe
EXTERNAL_DATATYPE_ENTITY_KEY VARCHAR2(4000) Clé d'entité externe qui représente le type de données de cet attribut, applicable si cet attribut est un type complexe
PARENT_ATTRIBUTE_KEY VARCHAR2(4000) Clé d'attribut qui représente l'attribut parent de cet attribut, applicable si l'attribut parent est de type de données complexe
EXTERNAL_PARENT_ATTRIBUTE_KEY VARCHAR2(4000) Clé d'attribut externe qui représente l'attribut parent de cet attribut, applicable si l'attribut parent est de type complexe
PATH VARCHAR2(4000) Chemin complet de l'attribut

ALL_DCAT_CONNECTIONS Vue

Vue qui contient des informations sur les catalogues de données connectés à cette instance.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2(4000) Identificateur de connexion unique au sein de l'instance
COMPARTMENT_ID VARCHAR2(4000) OCID du compartiment dans lequel réside l'instance Data Catalog
INSTANCE_ID VARCHAR2(4000)

OCID de l'instance Data Catalog

REGION

VARCHAR2(4000)

Région de l'instance Data Catalog

ENDPOINT VARCHAR2(4000) Adresse de l'instance Data Catalog
CREATED TIMESTAMP Lors de la création de l'instance Data Catalog
NAME VARCHAR2(4000) nom de l'instance Data Catalog ;
LAST_UPDATED TIMESTAMP Horodatage de la dernière mise à jour de la connexion à l'instance Data Catalog
LATEST_OPERATION_ID NUMBER ID de la dernière opération de synchronisation
DATA_CATALOG_CREDENTIAL VARCHAR2(128) Informations d'identification utilisées pour accéder au catalogue de données
OBJECT_STORE_CREDENTIAL VARCHAR2(128) Informations d'identification utilisées par le pilote de table externe pour accéder à la banque d'objets

ALL_DCAT_ENTITIES Vue

Entités logiques Data Catalog auxquelles cette base de données est autorisée à accéder.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2(4000) Identificateur de connexion unique au sein de l'instance
CATALOG_ID VARCHAR2(4000) OCID du catalogue de données contenant la ressource

KEY

VARCHAR2(4000)

Clé d'entité

DISPLAY_NAME VARCHAR2(4000)

Nom d'affichage de l'entité

BUSINESS_NAME VARCHAR2(4000)

Nom fonctionnel de l'entité

DESCRIPTION VARCHAR2(4000)

Description de l'entité logique

DATA_ASSET_KEY

VARCHAR2(4000)

Clé Immobilisation

FOLDER_KEY

VARCHAR2(4000)

Clé unique de dossier

FOLDER_NAME VARCHAR2(4000) Nom de dossier (bucket)
EXTERNAL_KEY VARCHAR2(4000) Clé externe pour l'entité logique
PATTERN_KEY VARCHAR2(4000) Clé du modèle associé pour l'entité logique
REALIZED_EXPRESSION VARCHAR2(4000) Expression régulière utilisée pour obtenir les fichiers de cette entité logique
PATH VARCHAR2(4000) Chemin complet de l'entité logique
TIME_CREATED TIMESTAMP(6) WITH TIME ZONE Date et heure de création de l'entité
TIME_UPDATED TIMESTAMP(6) WITH TIME ZONE Dernière modification de l'entité de données
UPDATED_BY_ID VARCHAR2(4000) OCID de l'utilisateur ayant mis à jour cet objet dans le catalogue de données
URI VARCHAR2(4000) URI de l'instance d'entité dans l'API
LIFECYCLE_STATE VARCHAR2(4000) Etat en cours de l'entité. Pour plus d'informations sur les états de cycle de vie possibles, reportez-vous à la référence d'entité de Data Catalog pour obtenir la liste des états possibles pour lifecycleState.

ALL_DCAT_FOLDERS Vue

Métadonnées des buckets Object Storage contenant les fichiers de données des entités logiques.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2(4000) Identificateur de connexion unique au sein de l'instance
CATALOG_ID VARCHAR2(4000) OCID du catalogue de données contenant la ressource

KEY

VARCHAR2(4000)

Clé de dossier

DISPLAY_NAME

VARCHAR2(4000)

Nom d'affichage du dossier

BUSINESS_NAME VARCHAR2(4000) Nom fonctionnel du dossier
DESCRIPTION VARCHAR2(4000) Description de dossier
DATA_ASSET_KEY VARCHAR2(4000) Clé de la ressource de données contenant le dossier
PARENT_FOLDER_KEY VARCHAR2(4000) Clé du dossier parent (actuellement, il s'agit de la clé de ressource de données)
PATH VARCHAR2(4000) Chemin complet du dossier
EXTERNAL_KEY VARCHAR2(4000) URI Object Storage pour le bucket
TIME_EXTERNAL TIMESTAMP(6) WITH TIMEZONE Dernier horodatage modifié de ce dossier
TIME_CREATED TIMESTAMP(6) WITH TIMEZONE Date/heure de création du dossier
URI VARCHAR2(4000) URI vers l'instance de dossier dans l'API Data Catalog.
LIFECYCLE_STATE VARCHAR2(4000) Etat actuel du dossier. Pour plus d'informations sur les états de cycle de vie possibles, reportez-vous à la référence de dossier Data Catalog pour obtenir la liste des états possibles pour lifecycleState.

ALL_DCAT_GLOBAL_ACCESSIBLE_CATALOGS Vue

Cette vue répertorie tous les catalogues accessibles dans toutes les régions, ainsi que le niveau de privilèges d'accès pour chaque catalogue.

Colonne Type de données Description

CATALOG_ID

VARCHAR2(4000)

OCID de catalogue

CATALOG_NAME VARCHAR2(4000) Nom du catalogue
CATALOG_REGION VARCHAR2(4000) Nom de la région de catalogue
CATALOG_SCORE NUMBER Le score du catalogue est une valeur numérique calculée à partir des privilèges configurés pour les informations d'identification d'accès au catalogue de données. Un score de catalogue plus élevé signifie des privilèges plus élevés, ce qui peut entraîner une probabilité plus élevée que ce catalogue soit destiné à être utilisé avec cette instance Autonomous Database.

ALL_DCAT_LOCAL_ACCESSIBLE_CATALOGS Vue

Cette vue répertorie tous les catalogues accessibles dans la région en cours, ainsi que le niveau des privilèges d'accès pour chaque catalogue.

Colonne Type de données Description

CATALOG_ID

VARCHAR2(4000)

OCID de catalogue

CATALOG_NAME VARCHAR2(4000) Nom du catalogue
CATALOG_SCORE NUMBER Le score du catalogue est une valeur numérique calculée à partir des privilèges configurés pour les informations d'identification d'accès au catalogue de données. Un score de catalogue plus élevé signifie des privilèges plus élevés, ce qui peut entraîner une probabilité plus élevée que ce catalogue soit destiné à être utilisé avec cette instance Autonomous Database.

ALL_GLUE_DATABASES Vue

Bases de données AWS Glue Data Catalog auxquelles les informations d'identification du catalogue de données sont autorisées à accéder.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2(4000) Identifiant unique de l'ID de connexion du catalogue de données.
CATALOG_ID VARCHAR2(255) Identificateur unique du catalogue de données.
NAME VARCHAR2(255) Nom de la base de données.
DESCRIPTION VARCHAR2(2048) Description de la base de données.
LOCATION_URI VARCHAR2(1024) Emplacement de la base de données.
CREATE_TIME TIMESTAMP Heure de création de la base de données dans le catalogue de données.
PARAMETERS CLOB Document JSON avec paires clé-valeur qui définissent les paramètres et les propriétés de la base de données.
TARGET_DATABASE VARCHAR2(4000) Document JSON décrivant une base de données cible pour la liaison de ressources dans AWS.

ALL_GLUE_TABLES Vue

Cette vue affiche toutes les tables AWS Glue Data Catalog auxquelles les informations d'identification du catalogue de données sont autorisées à accéder.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2(4000) Identifiant unique de l'ID de connexion du catalogue de données.
CATALOG_ID VARCHAR2(255) Identifiant du catalogue
DATABASE_NAME VARCHAR2(255) Nom de la base de données
NAME VARCHAR2(255) Nom de la table
TABLE_TYPE VARCHAR2(255) Type de table
CLASSIFICATION VARCHAR2(255)  
DESCRIPTION VARCHAR2(2048) Description de la table
OWNER VARCHAR2(255) Propriétaire de la table
CREATED_BY VARCHAR2(255) Créateur de table
CREATE_TIME TIMESTAMP Heure de création de la table dans le catalogue de données.
LAST_ANALYZED_TIME TIMESTAMP Les dernières statistiques de colonne d'heure ont été calculées pour cette table.
LAST_ACCESS_TIME TIMESTAMP Dernière consultation de la table.
UPDATE_TIME TIMESTAMP Dernière mise à jour de la table.
IS_REGISTERED_WITH_LAKE_FORMATION NUMBER Indique si la table est enregistrée avec la formation de lac AWS.
PARAMETERS CLOB Document JSON avec des paires clé-valeur qui définissent les propriétés de la table.
PARTITION_KEYS CLOB Document JSON avec une liste de colonnes par lesquelles la table est partitionnée.
RETENTION NUMBER Durée de conservation de cette table.
STORAGE_DESCRIPTION CLOB Document JSON avec des informations sur le stockage physique d'une table.
TARGET_TABLE VARCHAR2(4000) Document JSON décrivant une table cible utilisée pour la liaison de ressources dans AWS.
VERSION_ID VARCHAR2(255) Identifiant de version de la table.
VIEW_EXPANDED_TEXT CLOB Introduit par AWS Glue pour la compatibilité avec Hive. Non utilisé par AWS Glue.
VIEW_ORIGINAL_TEXT CLOB Introduit par AWS Glue pour la compatibilité avec Hive. Non utilisé par AWS Glue.

DCAT_ATTRIBUTES Vue

Répertorie la mise en correspondance des attributs d'entité logique avec les colonnes de table externe.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2 (4000) Identificateur de connexion unique au sein de l'instance
ASSET_KEY VARCHAR2(4000) Clé de ressource de catalogue de données

ENTITY_KEY

VARCHAR2(4000)

Clé d'entité Data Catalog

ATTRIBUTE_KEY

VARCHAR2(4000)

Clé d'attribut de catalogue de données

ORACLE_COLUMN_NAME VARCHAR2(128) Nom de la colonne mappée

DCAT_ENTITIES Vue

Décrit la mise en correspondance d'entités logiques avec des tables externes.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2(4000) Identificateur de connexion unique au sein de l'instance
ASSET_KEY VARCHAR2(4000) Clé de ressource de catalogue de données

ENTITY_KEY

VARCHAR2(4000)

Clé d'entité Data Catalog

FOLDER_KEY

VARCHAR2(4000)

Clé de dossier Data Catalog

ORACLE_TABLE_NAME VARCHAR2(128) Nom de la table mise en correspondance
ORACLE_SCHEMA_NAME VARCHAR2(128) Nom du schéma mis en correspondance
ENTITY_ORACLE_DB_SCHEMA VARCHAR2(4000) Propriété personnalisée oracle-db-schema de l'entité utilisée pour dériver le schéma
ASSET_ORACLE_DB_SCHEMA VARCHAR2(4000) Propriété personnalisée oracle-db-schema de la ressource de données utilisée pour dériver le schéma
FOLDER_ORACLE_DB_SCHEMA VARCHAR2(4000) Propriété personnalisée oracle-db-schema du dossier utilisée pour dériver le schéma

DBMS_DCAT$SYNC_LOG Voir

La vue DBMS_DCAT$SYNC_LOG permet d'accéder facilement à la table de journalisation pour la dernière opération de synchronisation exécutée par l'utilisateur en cours.

Chaque appel de la procédure RUN_SYNC est consigné dans une nouvelle table de journalisation, pointée par le champ LOGFILE_TABLE de USER_LOAD_OPERATIONS. Les tables de journalisation sont automatiquement supprimées au bout de 2 jours. Les utilisateurs peuvent effacer tous les journaux de synchronisation à l'aide de la procédure DELETE_ALL_OPERATIONS, où le type est DCAT_SYNC.

La vue DBMS_DCAT$SYNC_LOG identifie automatiquement la dernière table de journalisation. Le schéma de la vue DBMS_DCAT$SYNC_LOG est décrit ci-dessous et les droits d'accès sont identiques à ceux des tables de journalisation individuelles. Par défaut, READ est accordé au rôle dbms_dcat et à l'utilisateur ADMIN.

Les tables de journalisation ont le format suivant :

Colonne Type de données Description

LOG_TIMESTAMP

TIMESTAMP

Horodatage de l'entrée de journal.

LOG_LEVEL

VARCHAR2(32)

Le niveau de journalisation d'entrée peut avoir l'une des valeurs suivantes : OFF, FATAL, ERROR, WARN, INFO, DEBUG, TRACE, ALL.

LOG_DETAILS VARCHAR2(32767) Message de journal.