Package DBMS_DCAT

Le package DBMS_DCAT fournit des fonctions et des procédures permettant aux utilisateurs Autonomous Database de tirer parti du repérage de données et du système de gestion centralisée des métadonnées d'OCI Data Catalog.

Data Catalog collecte les métadonnées des ressources de stockage d'objet d'un lac de données. Le processus de collecte crée des entités logiques, qui peuvent être considérées comme des tables avec des colonnes et des types de données associés. Les procédures et les fonctions DBMS_DCAT connectent Autonomous Database à Data Catalog, puis synchronisent les ressources avec la base de données, ce qui crée des schémas protégés et des tables externes. Vous pouvez ensuite interroger la banque d'objets à l'aide de ces tables externes, en rejoignant facilement les données externes aux données stockées dans Autonomous Database. Le processus de gestion est ainsi considérablement plus simple : une seule banque de métadonnées gérée de manière centrale est partagée avec plusieurs services OCI (bases de données autonomes incluses). Les vues de dictionnaire Autonomous Database permettent également d'inspecter le contenu de Data Catalog à l'aide de SQL et de vous montrer comment ces entités Data Catalog sont mises en correspondance avec vos tables et schémas Autonomous Database.

Utilisateurs et rôles de catalogue de données

Le package DBMS_DCAT prend en charge les utilisateurs/schémas synchronisés, les utilisateurs dcat_admin et les utilisateurs locaux. Les utilisateurs doivent disposer du rôle dcat_sync pour pouvoir utiliser ce package.

Utilisateurs de catalogue de données

  • Schémas/utilisateurs synchronisés

    Les tables externes synchronisées sont organisées en schémas de base de données correspondant aux combinaisons ressource de données/bucket, ou en fonction des propriétés personnalisées définies par l'utilisateur. Les schémas synchronisés sont créés ou supprimés automatiquement lors de la synchronisation du catalogue de données. Ils sont créés en tant qu'utilisateurs sans authentification et sans le privilège CREATE SESSION. Les schémas synchronisés sont également créés à l'aide de la clause de protection, de sorte qu'ils ne peuvent pas être modifiés par les utilisateurs locaux (pas même par l'administrateur de la base de données pluggable) et ne peuvent être modifiés que via la synchronisation.

  • Utilisateur dcat_admin

    L'utilisateur dcat_admin est un utilisateur de base de données local qui peut exécuter une synchronisation et accorder le privilège READ sur les tables synchronisées à d'autres utilisateurs ou rôles. L'utilisateur est créé en tant qu'utilisateur sans authentification et sans le privilège CREATE SESSION.

  • Utilisateurs locaux

    Les utilisateurs de base de données qui interrogent les tables externes doivent disposer explicitement de privilèges READ sur les tables externes synchronisées accordés par les utilisateurs dcat_admin ou ADMIN. Par défaut, une fois la synchronisation terminée, seuls les utilisateurs dcat_admin et ADMIN ont accès aux tables externes synchronisées.

Rôles de catalogue de données

  • dcat_sync

    Le rôle dcat_sync dispose de tous les privilèges requis pour utiliser le package DBMS_DCAT. Les utilisateurs doivent disposer de ce rôle pour pouvoir utiliser l'API permettant de naviguer dans le catalogue de données et d'exécuter la synchronisation.

Informations d'identification et stratégies IAM requises

Cette rubrique décrit les stratégies et les informations d'identification utilisateur Oracle Cloud Infrastructure Identity and Access Management (IAM) requises pour accorder aux utilisateurs Autonomous Database les droits de gestion d'un catalogue de données et de lecture à partir du stockage d'objet.

Informations d'identification OCI Data Catalog et exigences de stratégie :

Conditions d'identification et de stratégie AWS Glue Data Catalog

Les informations d'identification utilisateur et les stratégies suivantes sont requises pour accorder aux utilisateurs Autonomous Database le droit d'accéder aux catalogues de données de colle Amazon Web Services (AWS) et de lire à partir du stockage d'objet S3 :
  • Un objet d'informations d'identification avec l'autorisation d'accéder à un catalogue de données AWS Glue est requis. Pour plus d'informations sur la gestion des informations d'identification, reportez-vous à DBMS_CLOUD pour la gestion d'accès.

    Pour accéder à un catalogue de données AWS Glue, les privilèges suivants sont requis : glue:GetDatabases, glue:GetTables et glue:GetTable.

    En outre, le privilège s3 :GetBucketLocation est nécessaire lors de la synchronisation pour générer des URL HTTPS résolvables pointant vers les objets S3 sous-jacents.
  • Un objet d'informations d'identification disposant des droits d'accès aux fichiers stockés dans S3 est requis afin qu'Autonomous Database puisse interroger les fichiers de données.
  • Les informations d'identification AWS sont prises en charge. Les informations d'identification de noms de ressource Amazon AWS ne sont pas prises en charge.

Exemple : création d'un objet d'informations d'identification d'authentification native OCI

Dans cet exemple, vous créez des informations d'identification d'authentification native OCI qui peuvent être utilisées lors de la création d'un catalogue de données ou d'un objet d'informations d'identification de banque d'objets. Pour plus d'informations, reportez-vous à Procédure DBMS_DCAT SET_DATA_CATALOG_CREDENTIAL et à Procédure DBMS_DCAT SET_OBJECT_STORE_CREDENTIAL respectivement.

Dans l'authentification native OCI, la procédure DBMS_CLOUD.CREATE_CREDENTIAL inclut les paramètres suivants : credential_name, user_ocid, tenancy_ocid, private_key et fingerprint. Reportez-vous à Procédure DBMS_CLOUD CREATE_CREDENTIAL pour obtenir une description complète de cette procédure.

credential_name est le nom de l'objet d'informations d'identification. Les paramètres user_ocid et tenancy_ocid correspondent respectivement aux OCID de l'utilisateur et de la location.

Le paramètre private_key indique la clé privée générée au format PEM. Les clés privées créées avec une phrase de passe ne sont pas prises en charge. Par conséquent, vous devez veiller à générer une clé sans phrase de passe. Pour plus d'informations sur la création d'une clé privée sans phrase de passe, reportez-vous à Procédure de génération d'une clé de signature d'API. De plus, la clé privée fournie pour ce paramètre doit uniquement contenir la clé elle-même sans en-tête ou pied de page (par exemple, '-----BEGIN RSA PRIVATE KEY-----', '----------END RSA PRIVATE KEY-----').

Le paramètre fingerprint indique l'empreinte obtenue après le téléchargement de la clé publique vers la console ou à l'aide des commandes OpenSSL. Pour plus d'informations sur l'obtention de l'empreinte, reportez-vous à Procédure de téléchargement de la clé publique et à Comment obtenir l'empreinte de la clé.

Une fois que toutes les informations nécessaires ont été collectées et que la clé privée est générée, vous pouvez exécuter la procédure CREATE_CREDENTIAL suivante :

BEGIN
  DBMS_CLOUD.CREATE_CREDENTIAL (
    credential_name => 'OCI_NATIVE_CRED',
    user_ocid              => 'ocid1.user.oc1..aaaaaaaatfn77fe3fxux3o5lego7glqjejrzjsqsrs64f4jsjrhbsk5qzndq',
    tenancy_ocid           => 'ocid1.tenancy.oc1..aaaaaaaapwkfqz3upqklvmelbm3j77nn3y7uqmlsod75rea5zmtmbl574ve6a',
    private_key            => 'MIIEogIBAAKCAQEA...t9SH7Zx7a5iV7QZJS5WeFLMUEv+YbYAjnXK+dOnPQtkhOblQwCEY3Hsblj7Xz7o=',
    fingerprint            => '4f:0c:d6:b7:f2:43:3c:08:df:62:e3:b2:27:2e:3c:7a');
END;
/
Une fois l'objet d'informations d'identification créé, il apparaît dans la table dba_credentials :
SELECT owner, credential_name
FROM dba_credentials 
WHERE credential_name LIKE '%NATIVE%';

OWNER CREDENTIAL_NAME
----- ---------------
ADMIN OCI_NATIVE_CRED

Exemple : utilisation du principal de ressource Autonomous Database

Dans l'exemple de la diapositive ci-dessus, un groupe dynamique incluant les membres de ressource appropriés est créé. Ce groupe est doté des droits de gestion de Data Catalog, puis de lecture à partir du stockage d'objet.

  1. Créez un groupe dynamique nommé adb-grp-1. Ajoutez une règle de correspondance à adb-grp-1 qui inclut l'instance Autonomous Database avec l'OCID ocid1.autonomousdatabase.oc1.iad.abuwcljr...fjkfe en tant que membre de ressource.

    Règle de mise en correspondance de groupe dynamique :

    resource.id = 'ocid1.autonomousdatabase.oc1.iad.abuwcljr...fjkfe'
  2. Définissez une stratégie accordant au groupe dynamique adb-grp-1 un accès complet aux instances Data Catalog, dans le compartiment mycompartment.

    allow dynamic-group adb-grp-1 to manage data-catalog-family in compartment mycompartment
  3. Définissez une stratégie qui autorise le groupe dynamique adb-grp-1 à lire n'importe quel bucket dans le compartiment nommé mycompartment.
    allow dynamic-group adb-grp-1 to read objects in compartment mycompartment

Exemple : utilisation des principaux d'utilisateur

Dans cet exemple, user1 est membre du groupe adb-admins. Tous les membres de ce groupe sont autorisés à gérer tous les catalogues de données dans mycompartment et à lire à partir de la banque d'objets dans mycompartment.

  1. Autorisez les utilisateurs membres de adb-admins à gérer tous les catalogues de données dans mycompartment.
    allow group adb-admins to manage data-catalog-family in compartment mycompartment
  2. Autorisez les utilisateurs membres de adb-admins à lire les objets de n'importe quel bucket dans mycompartment.
    allow group adb-admins to read objects in compartment mycompartment

Récapitulatif des sous-programmes de gestion des connexions

Ce tableau répertorie les procédures de package DBMS_DCAT utilisées pour créer, interroger et supprimer des connexions Data Catalog.

Sous-programme Description
SET_DATA_CATALOG_CONN Procédure Créer une connexion au catalogue de données indiqué
SET_DATA_CATALOG_CREDENTIAL Procédure Définir les informations d'identification d'accès au catalogue de données utilisées par une connexion spécifique au catalogue de données
SET_OBJECT_STORE_CREDENTIAL Procédure Définir les informations d'identification utilisées par l'identificateur de connexion unique donné pour accéder à la banque d'objets
UNSET_DATA_CATALOG_CONN Procédure Enlever une connexion Data Catalog existante

SET_DATA_CATALOG_CREDENTIAL Procédure

Cette procédure définit les informations d'identification d'accès du catalogue de données utilisées par une connexion spécifique au catalogue de données.

Syntaxe

PROCEDURE DBMS_DCAT.SET_DATA_CATALOG_CREDENTIAL(
    credential_name VARCHAR2(128) DEFAULT NULL,
    dcat_con_id     VARCHAR2 DEFAULT NULL
  );

Paramètres

Paramètre Description

credential_name

(Facultatif) Informations d'identification utilisées pour accéder au catalogue de données.

dcat_con_id Identificateur de connexion Data Catalog unique. Ces informations d'identification sont utilisées pour la connexion identifiée par dcat_con_id. Valeur par défaut : NULL.

Syntaxe

Ces informations d'identification doivent disposer des droits de gestion de catalogue de données. Reportez-vous à Stratégies Data Catalog. La valeur par défaut est le principal de ressource. Reportez-vous à Accès aux ressources cloud en configurant des stratégies et des rôles.

SET_OBJECT_STORE_CREDENTIAL Procédure

Cette procédure définit les informations d'identification utilisées par l'identificateur de connexion unique donné pour accéder à la banque d'objets. La modification des informations d'identification d'accès à la banque d'objets modifie toutes les tables synchronisées existantes afin d'utiliser les nouvelles informations d'identification.

Syntaxe

PROCEDURE DBMS_DCAT.SET_OBJECT_STORE_CREDENTIAL(
    credential_name  VARCHAR2(128),
    dcat_con_id      IN VARCHAR2 DEFAULT NULL
  );

Paramètres

Paramètre Description

credential_name

Informations d'identification utilisées par les tables externes pour accéder à la banque d'objets.

dcat_con_id Identificateur de connexion Data Catalog unique. Valeur par défaut : NULL.

SET_DATA_CATALOG_CONN Procédure

Cette procédure crée une connexion à l'instance Data Catalog indiquée. La connexion est requise pour synchroniser les métadonnées avec Data Catalog. Une instance Autonomous Database peut se connecter à plusieurs instances Data Catalog et prend en charge la connexion à OCI Data Catalogs et AWS Glue Data Catalogs.

Syntaxe

PROCEDURE DBMS_DCAT.SET_DATA_CATALOG_CONN (
   region       VARCHAR2 DEFAULT NULL,
   endpoint     VARCHAR2 DEFAULT NULL,
   catalog_id   VARCHAR2 DEFAULT NULL,
   dcat_con_id  VARCHAR2 DEFAULT NULL,
   catalog_type VARCHAR2 DEFAULT NULL
 );

Paramètres

Paramètre Description

region

Région Data Catalog. Si endpoint est spécifié, region est facultatif. Si endpoint et region sont indiqués, endpoint est prioritaire. La valeur par défaut est NULL.

endpoint

Adresse Data Catalog. Si region est spécifié, endpoint est facultatif. Si endpoint et region sont indiqués, endpoint est prioritaire. La valeur par défaut est NULL.

catalog_id

Identificateur Oracle Cloud (OCID) unique de l'instance Data Catalog. Lors de la connexion à AWS Glue Data Catalogs, catalog_id est facultatif.

dcat_con_id Identificateur de connexion Data Catalog unique. Cet identificateur est requis lors de la connexion à plusieurs catalogues de données et est facultatif lors de la connexion à un seul catalogue. Il est utilisé pour faire référence à la connexion Data Catalog dans les appels suivants ou lors de l'interrogation de vues. Si aucun identificateur n'est spécifié, cette procédure génère un identificateur de connexion NULL. Les restrictions suivantes s'appliquent à dcat_con_id :
  • Il doit être unique au sein de l'instance Autonomous Database.
  • Il doit commencer par une lettre.
  • Il peut contenir des caractères alphanumériques, des traits de soulignement (_), des signes dollar ($) et des signes dièse (#).
  • Elle doit comporter au moins 16 caractères.
catalog_type Type de catalogue de données à connecter. Valeurs autorisées :
  • OCI_DCAT : catalogue de données OCI
  • AWS_GLUE - AWS Glue Data Catalog
  • NULL : le type de catalogue est automatiquement détecté à partir de la région ou de l'adresse fournie.

Syntaxe

Vous n' devez appeler cette procédure qu'une seule fois pour définir la connexion. Dans le cadre du processus de connexion, l'instance Autonomous Database ajoute des propriétés personnalisées au catalogue de données. Ces propriétés personnalisées sont accessibles aux utilisateurs Data Catalog et vous permettent de remplacer les noms par défaut (pour les schémas, les tables et les colonnes) et les types de données de colonne.

Avant de créer une connexion, vous devez créer et définir des informations d'identification. Pour obtenir une description du processus de connexion, reportez-vous à Workflow standard avec Data Catalog pour OCI Data Catalogs et à Workflow utilisateur pour l'interrogation avec AWS Glue Data Catalog pour AWS Glue Data Catalogs.

Exemple : connexion avec un OCID connu

Dans cet exemple, Autonomous Database se connecte à Data Catalog dans la région uk-london-1. Le paramètre catalog_id utilise l'identificateur Oracle Cloud (ocid) de l'instance Data Catalog. Le type de catalogue de données est déterminé automatiquement : AWS Glue Data Catalog ou OCI Data Catalog.

BEGIN
  DBMS_DCAT.SET_DATA_CATALOG_CONN(
    region=>'uk-london-1',
    catalog_id=>'ocid1.datacatalog.oc1.uk-london-1...');
END;
/

Exemple : connexion à un catalogue de données AWS Glue

Une connexion est l'association entre une instance Autonomous Database et un catalogue de données AWS Glue. Une fois la connexion établie, l'instance Autonomous Database peut se synchroniser avec AWS Glue. Chaque compte AWS dispose d'un catalogue de données AWS Glue par région et chaque catalogue est accessible à l'aide de l'adresse de service correspondante pour chaque région. Une instance Autonomous Database peut être associée à un catalogue de données AWS Glue en appelant l'API DBMS_DCAT.SET_DATA_CATALOG_CONN et en indiquant l'adresse de la région dans laquelle réside le catalogue.

Reportez-vous à Adresses et quotas AWS Glue.

Dans cet exemple, Autonomous Database se connecte à AWS Glue Data Catalog dans la région uk-london-1. Etant donné qu'il s'agit d'une connexion AWS Glue Data Catalog, le paramètre catalog_id n'est pas nécessaire.

BEGIN
  DBMS_DCAT.SET_DATA_CATALOG_CONN(
    region=>'uk-london-1',
    catalog_type=>'AWS_GLUE'
END;
/

UNSET_DATA_CATALOG_CONN Procédure

Cette procédure enlève une connexion à Data Catalog existante.

Syntaxe

Remarque

L'appel de cette procédure supprime tous les schémas protégés et toutes les tables externes protégées qui ont été créés dans le cadre de synchronisations précédentes. Cela n'a aucune incidence sur les métadonnées dans Data Catalog.
PROCEDURE DBMS_DCAT.UNSET_DATA_CATALOG_CONN (
    dcat_con_id IN VARCHAR2 DEFAULT NULL
);

Paramètres

Paramètre Description
dcat_con_id Identificateur de connexion Data Catalog unique. La valeur par défaut est NULL.

Récapitulatif des sous-programmes de synchronisation

Les procédures répertoriées dans ce tableau permettent d'exécuter une synchronisation, de créer et de supprimer un travail de synchronisation, et de supprimer des schémas synchronisés.

Remarque

Le 4 avril 2022, les paramètres sync_option et grant_read ont été ajoutés à la procédure DBMS_DCAT.RUN_SYNC. Pour garantir des performances correctes des travaux de synchronisation programmés créés avant cette date, vous devez les supprimer et les créer à nouveau. Reportez-vous à Procédure DBMS_DCAT.DROP_SYNC_JOB et à Procédure DBMS_DCAT.CREATE_SYNC_JOB.
Sous-programme Description
CREATE_SYNC_JOB Procédure Créez un travail de planificateur pour appeler RUN_SYNC périodiquement
DROP_SYNC_JOB Procédure Supprimer un travail de synchronisation existant pour l'identificateur de connexion unique donné
DROP_SYNCED_SCHEMAS Procédure Supprimer tous les schémas précédemment synchronisés pour l'identificateur de connexion unique donné
RUN_SYNC Procédure Exécuter une opération de synchronisation

RUN_SYNC Procédure

Cette procédure exécute une opération de synchronisation et constitue le point d'entrée de la synchronisation. En tant qu'entrée, elle prend les listes des ressources, dossiers et entités de catalogue de données sélectionnés et les matérialise en créant, supprimant et modifiant les tables externes.

Le paramètre sync_option indique l'opération que la procédure RUN_SYNC effectue : SYNC, DELETE ou REPLACE. L'opération est effectuée sur les entités dans la portée du paramètre synced_objects.

Chaque appel de la procédure RUN_SYNC renvoie un élément operation_id unique qui peut être utilisé pour interroger la vue USER_LOAD_OPERATIONS afin d'obtenir des informations sur le statut de la synchronisation et l'élément log_table correspondant. Vous pouvez interroger la vue DBMS_DCAT$SYNC_LOG pour accéder facilement à l'élément log_table de la dernière opération de synchronisation exécutée par l'utilisateur en cours. Pour plus d'informations, reportez-vous à Vue DBMS_DCAT$SYNC_LOG et à Surveillance et dépannage des chargements.

Remarque

Le 4 avril 2022, les paramètres sync_option et grant_read ont été ajoutés à la procédure RUN_SYNC. Pour garantir des performances correctes des travaux de synchronisation programmés créés avant cette date, vous devez les supprimer et les créer à nouveau. Reportez-vous à Procédure DBMS_DCAT.DROP_SYNC_JOB et à Procédure DBMS_DCAT.CREATE_SYNC_JOB.

Synchronisation d'entités logiques ou de tables de colle partitionnées

La procédure RUN_SYNC crée une table externe partitionnée pour chaque entité logique ou table Glue lorsque les trois conditions suivantes sont remplies :

  1. L'entité logique de catalogue de données OCI ou la table Glue comporte des attributs partitionnés.
  2. Pour les catalogues de données OCI, l'entité logique est dérivée d'un modèle de nom de fichier basé sur un préfixe. Les entités logiques partitionnées dérivées de modèles basés sur une regex ne sont pas prises en charge.
  3. Pour les catalogues de données OCI, l'entité logique est basée sur des données partitionnées qui suivent le format de dossier de type ruche ou autre. Les entités logiques basées sur des données partitionnées qui suivent le format de style non Beehive à l'aide de noms d'objet ne sont pas prises en charge.
    • Exemple 1. Entités logiques basées sur des objets collectés qui suivent le format de partitionnement de type Hive avec des modèles de nom de fichier basés sur un préfixe.

      Tenez compte des objets suivants :
      Bucket: MYBUCKET
      cluster1/db1.db/sales/country=USA/year=2020/month=01/sales1.csv
      cluster1/db1.db/sales/country=USA/year=2020/month=01/sales2.csv
      cluster1/db1.db/sales/country=USA/year=2020/month=02/sales1.csv

      La collecte du bucket à l'aide d'un modèle de fichier avec le préfixe de dossier de départ cluster1/db1.db génère une entité logique nommée SALES avec trois attributs de partition : country, year et month. Le type des attributs partitionnés est Partition tandis que le type des attributs non partitionnés est Primitive.

    • Exemple 2 Entités logiques basées sur des objets collectés qui suivent le format de partitionnement autre que de type Hive avec des modèles de nom de fichier basés sur un préfixe.
      Tenez compte des objets suivants :
      Bucket: MYBUCKET
      cluster2/db2.db/sales/USA/2020/01/sales1.csv
      cluster2/db2.db/sales/USA/2020/01/sales2.csv
      cluster2/db2.db/sales/USA/2020/02/sales1.csv

      La collecte du bucket à l'aide d'un modèle de nom de fichier avec le préfixe de dossier de départ cluster2/db2.db génère une entité logique nommée SALES avec trois attributs de partition : name0, name1 et name2. La seule différence entre l'entité logique générée et l'exemple 1 réside dans le fait que les noms des attributs partitionnés sont générés automatiquement, tandis que dans l'exemple 1, ils sont extraits de l'URL (country, year et month respectivement).

Pour obtenir un exemple complet de bout en bout de synchronisation d'entités logiques partitionnées, reportez-vous à Exemple : scénario de données partitionnées.

Synchronisation par incréments d'entités logiques/de tables de glue partitionnées

Chaque appel de la procédure RUN_SYNC indique un ensemble d'entités logiques de catalogue de données OCI ou de tables AWS Glue à synchroniser avec la base de données. Lorsqu'une entité logique ou une table Glue se trouve dans deux appels RUN_SYNC, le deuxième appel conserve les tables externes existantes et peut les modifier. Le tableau suivant indique les modifications d'entité logique ou de table de colle prises en charge lorsque l'entité logique ou la table de colle est partitionnée :

Modification d'entité logique ou de table de colle Action

Ajout, suppression ou mise à jour d'une partition

Toutes les partitions de la table partitionnée externe sont mises à jour, qu'une modification ait été détectée ou non par le catalogue de données.

Ajout d'un attribut partitionné

L'ajout d'une colonne partitionnée à une table partitionnée externe n'est pas pris en charge. Une exception est générée.

Suppression d'un attribut de partition

La suppression d'une colonne partitionnée dans une table partitionnée externe n'est pas prise en charge. Une exception est générée.

Changement de nom d'un attribut partitionné

Le changement de nom d'une colonne partitionnée dans une table partitionnée externe n'est pas pris en charge. Une exception est générée.

Syntaxe

PROCEDURE DBMS_DCAT.RUN_SYNC (
    synced_objects   IN  CLOB,
    sync_option      IN VARCHAR2 DEFAULT 'SYNC',
    error_semantics  IN VARCHAR2 DEFAULT 'SKIP_ERRORS',
    log_level        IN VARCHAR2 DEFAULT 'INFO',
    grant_read       IN VARCHAR2 DEFAULT NULL,
    dcat_con_id      IN VARCHAR2 DEFAULT NULL
 );
PROCEDURE DBMS_DCAT.RUN_SYNC (
    synced_objects   IN  CLOB,
    sync_option      IN VARCHAR2 DEFAULT 'SYNC',
    error_semantics  IN VARCHAR2 DEFAULT 'SKIP_ERRORS',
    log_level        IN VARCHAR2 DEFAULT 'INFO',
    grant_read       IN VARCHAR2 DEFAULT NULL,
    operation_id     OUT NOCOPY NUMBER,
    dcat_con_id      IN VARCHAR2 DEFAULT NULL
 );

Paramètres

Paramètre Description

synced_objects

Ce paramètre est un document JSON qui spécifie les objets de catalogue de données à synchroniser.

Pour les catalogues de données OCI, le document JSON indique un ensemble d'entités à plusieurs granularités : ressources de données, dossiers ( buckets de banque d'objets) ou entités logiques. Il contient un élément asset_list qui est un tableau d'objets de ressource ou un tableau contenant une chaîne unique "*" qui signifie "synchroniser toutes les ressources de données (banque d'objets) du catalogue".

Pour AWS Glue Data Catalogs, le document JSON spécifie une liste de tables de plusieurs niveaux de granularité : bases de données, tables. Le document indique une liste de bases de données. Les utilisateurs peuvent restreindre l'ensemble de tables à synchroniser en indiquant des tables individuelles dans une base de données.

sync_option (Facultatif) Vous pouvez :
  • SYNC (valeur par défaut) : cette option garantit que le contenu du catalogue de données, au-delà de la portée de synced_objects, est représenté dans l'instance Autonomous Database. Si une entité logique ou une table de colle a été supprimée du catalogue de données depuis la dernière opération de synchronisation, elle est supprimée dans l'instance Autonomous Database. Les opérations suivantes sont effectuées au-delà de la portée de synced_objects :
    • Ajout de tables pour les nouvelles entités de catalogue de données
    • Suppression de tables pour les entités de catalogue de données supprimées
    • Mise à jour des propriétés (telles que le nom, les colonnes et les types de données) pour les tables existantes
  • DELETE : supprime les tables dans la portée de synced_objects.
  • REPLACE : remplace tous les objets actuellement synchronisés par les objets dans la portée de synced_objects.

error_semantics

(Facultatif) Ce paramètre indique le comportement d'erreur. Si la valeur est SKIP_ERRORS, la synchronisation tente de continuer malgré les erreurs survenues pour les entités individuelles. Si la valeur est STOP_ON_ERROR, la procédure échoue à la première erreur survenue. La défaut est SKIP_ERRORS.

log_level

(Facultatif) Ce paramètre indique les valeurs suivantes par ordre croissant de détails de journalisation : OFF, FATAL, ERROR, WARN, INFO, DEBUG, TRACE, ALL. La valeur par défaut est INFO.
grant_read (Facultatif) Ce paramètre est une liste d'utilisateurs/de rôles disposant automatiquement de privilèges READ sur toutes les tables externes traitées par cet appel de RUN_SYNC. Tous les utilisateurs/rôles de la liste grant_read disposent de privilèges READ sur toutes les tables externes nouvelles ou existantes qui correspondent aux entités indiquées par le paramètre synced_objects. La procédure RUN_SYNC conserve les privilèges déjà accordés sur les tables externes synchronisées.

operation_id

(Facultatif) Ce paramètre permet de rechercher l'entrée correspondante de la synchronisation dans USER_LOAD_OPERATIONS et de déterminer le nom de la table des journaux.

Remarque : une version de RUN_SYNC qui ne renvoie pas de valeur operation_id est disponible afin que les utilisateurs puissent interroger USER_LOAD_OPERATIONS pour obtenir la dernière synchronisation.

dcat_con_id Ce paramètre est l'identificateur unique de connexion au catalogue de données qui a été indiqué lors de la création de la connexion au catalogue de données. Reportez-vous à Procédure DBMS_DCAT SET_DATA_CATALOG_CONN. Ce paramètre identifie la connexion utilisée pour la synchronisation et devient une partie du nom de schéma dérivé. Reportez-vous à Mise en correspondance de synchronisation pour obtenir une description de la façon dont le nom de schéma est dérivé. La valeur par défaut du paramètre est NULL.

Exemple : synchronisation de toutes les entités OCI Data Catalog

Dans l'exemple suivant, toutes les entités Data Catalog sont synchronisées.

EXEC DBMS_DCAT.RUN_SYNC(synced_objects=>'{"asset_list":["*"]}');

Exemple : paramètre synced_objects pour la synchronisation de toutes les ressources de données OCI Data Catalog

Voici un exemple de paramètre synced_objects pour la synchronisation de toutes les ressources de données (stockage d'objet) dans Data Catalog.

{"asset_list" : ["*"]}

Exemple : paramètre synced_objects pour la synchronisation de ressources de données OCI Data Catalog spécifiques

Voici un exemple de paramètre synced_objects pour la synchronisation de deux ressources de données.

{"asset_list": [
        {
            "asset_id":"0b320de9-8411-4448-91fb-9e2e7f78fd5f"
        },
        {
            "asset_id":"0b320de9-8411-4448-91fb-9e2e7f74523"
        }
    ]}

Exemple : paramètre synced_objects pour la synchronisation d'entités OCI Data Catalog spécifiques dans une ressource de données

Voici un exemple de paramètre synced_objects pour la synchronisation de deux entités dans la ressource de données.

{"asset_list": [
        {
            "asset_id":"0b320de9-8411-4448-91fb-9e2e7f78fd5f",
            "folder_list":[
                "f1",         
                "f2" 
           ]
        }   
    ]}

Exemple : paramètre synced_objects pour la synchronisation d'entités et de dossiers OCI Data Catalog spécifiques dans une ressource de données

Voici un exemple de paramètre synced_objects pour la synchronisation de deux dossiers et de deux entités dans la ressource de données.

{"asset_list":[
        {
            "asset_id":"0b320de9-8411-4448-91fb-9e2e7f78fd5f",
            "entity_list": [
                "entity1",     
                "entity2"
            ],
             "folder_list": [
                "f1",         
                "f2"
            ]
        }   
    ]}

Exemple : paramètre synced_objects pour la synchronisation de toutes les bases de données AWS Glue Data Catalog

L'exemple suivant présente un paramètre synced_objects pour la synchronisation de toutes les bases de données dans AWS Glue Data Catalog.

{"database_list":["*"]}

Exemple : paramètre synced_objects pour la synchronisation de deux bases de données AWS Glue Data Catalog

L'exemple suivant présente un paramètre synced_objects pour la synchronisation de deux bases de données AWS Glue Data Catalog.

{"database_list":[
    {"database":"tpcdscsv"},
    {"database":"tpcdsparquet"} ]}

Exemple : paramètre synced_objects pour la synchronisation de trois bases de données AWS Glue Data Catalog

L'exemple suivant présente un paramètre synced_objects pour la synchronisation de trois tables à partir d'une base de données AWS Glue Data Catalog.

{"database_list":[
 {"database":"tpcdsparquet",
     "table_list": [ "tpcdsparquet_customer",
                     "tpcdsparquet_item",
                     "tpcdsparquet_web_sales" ] } ]}

CREATE_SYNC_JOB Procédure

Cette procédure crée un travail de fonction de programmation pour appeler RUN_SYNC régulièrement.

Il prend en entrée l'ensemble d'objets à synchroniser, la sémantique d'erreur, le niveau de journalisation et un intervalle de répétition. Pour plus d'informations sur le fonctionnement de la synchronisation, reportez-vous à Procédure DBMS_DCAT RUN_SYNC.

Il ne peut y avoir qu'un seul travail de synchronisation. La procédure CREATE_SYNC_JOB échoue si un autre travail est déjà indiqué, sauf si le paramètre force est défini sur TRUE. Si l'option Forcer est définie sur TRUE, le travail précédent est supprimé.

Si un travail de fonction de programmation tente de s'exécuter alors qu'une autre synchronisation est en cours, il échoue.

Remarque

Le 4 avril 2022, les paramètres sync_option et grant_read ont été ajoutés à la procédure RUN_SYNC. Pour garantir des performances correctes des travaux de synchronisation programmés créés avant cette date, vous devez les supprimer et les créer à nouveau. Reportez-vous à Procédure DBMS_DCAT.DROP_SYNC_JOB et à Procédure DBMS_DCAT.CREATE_SYNC_JOB.

Syntaxe

PROCEDURE DBMS_DCAT.CREATE_SYNC_JOB (
    synced_objects   IN CLOB,
    error_semantics  IN VARCHAR2 DEFAULT 'SKIP_ERRORS',
    log_level        IN VARCHAR2 DEFAULT 'INFO',
    repeat_interval  IN VARCHAR2,
    force            IN VARCHAR2 DEFAULT 'FALSE',
    grant_read       IN VARCHAR2 DEFAULT NULL,
    sync_option      IN VARCHAR2 DEFAULT 'SYNC',
    dcat_con_id      IN VARCHAR2 DEFAULT NULL
);

Paramètres

Paramètre Description

synced_objects

Objet JSON indiquant les objets à synchroniser, comme décrit dans la procédure RUN_SYNC.

error_semantics

(Facultatif) Comportement d'erreur, comme indiqué pour RUN_SYNC. La valeur par défaut est SKIP_ERRORS.

log_level

(Facultatif) Niveau de journalisation, comme indiqué pour RUN_SYNC. La valeur par défaut est INFO.

repeat_interval

Intervalle de répétition du travail, avec la même sémantique que le paramètre d'intervalle de répétition de la procédure DBMS_SCHEDULER.CREATE_JOB. Pour plus d'informations sur le paramètre repeat_interval, reportez-vous à Présentation de la création de travaux.

force

(Facultatif) Si la valeur est TRUE, les travaux de synchronisation existants sont supprimés en premier. Si la valeur est FALSE, la procédure CREATE_SYNC_JOB échoue si un travail de synchronisation existe déjà. La valeur par défaut est FALSE.

grant_read (Facultatif) Liste des utilisateurs/rôles auxquels accorder des privilèges READ sur les tables externes synchronisées, comme décrit pour la procédure RUN_SYNC. Reportez-vous à Procédure DBMS_DCAT.RUN_SYNC.
sync_option (Facultatif) Comportement par rapport aux entités qui ont déjà été synchronisées via une opération RUN_SYNC précédente, comme décrit pour la procédure RUN_SYNC. Reportez-vous à Procédure DBMS_DCAT.RUN_SYNC.
dcat_con_id Ce paramètre est l'identificateur de connexion Data Catalog unique indiqué lors de la création de la connexion à Data Catalog. Reportez-vous à Procédure DBMS_DCAT SET_DATA_CATALOG_CONN. Ce paramètre identifie la connexion utilisée pour la synchronisation et devient une partie du nom de schéma dérivé. Reportez-vous à Mise en correspondance de synchronisation pour obtenir une description de la façon dont le nom de schéma est dérivé. La valeur par défaut du paramètre est NULL.

DROP_SYNC_JOB Procédure

Cette procédure supprime un travail de synchronisation existant pour l'identificateur de connexion unique donné.

Syntaxe

PROCEDURE DBMS_DCAT.DROP_SYNC_JOB (
    dcat_con_id IN VARCHAR2 DEFAULT NULL
  );

Paramètres

Paramètre Description
dcat_con_id Identificateur de connexion Data Catalog unique. Valeur par défaut : NULL.

DROP_SYNCED_SCHEMAS Procédure

Cette procédure supprime tous les schémas précédemment synchronisés pour l'identificateur de connexion unique donné.

Syntaxe

PROCEDURE DBMS_DCAT.DROP_SYNCED_SCHEMAS (
    dcat_con_id IN VARCHAR2 DEFAULT NULL
  );

Paramètres

Paramètre Description
dcat_con_id Identificateur de connexion Data Catalog unique. Valeur par défaut : NULL.

Récapitulatif des vues de catalogue de données

L'intégration de Data Catalog à Autonomous Database fournit de nombreuses tables et vues.

Ces tables et vues vous aident à comprendre les éléments suivants :

  • Ressources Data Catalog disponibles. Obtenez des informations sur les types de ressource Data Catalog, y compris les bases de données, les banques d'objets, etc.
  • Informations sur les ressources et entités de stockage d'objet de catalogue de données qui ont été synchronisées avec Autonomous Database. Cela inclut les détails sur la mise en correspondance des éléments Data Catalog (ressources, dossiers et entités) avec les objets Autonomous Database (par exemple, schémas et tables externes).
  • Exécutions de synchronisation des métadonnées. Consultez les détails sur les travaux de synchronisation, y compris les problèmes qui ont pu survenir lors de la synchronisation.

Ce tableau répertorie les tables et les vues fournies par le package DBMS_DCAT.

Visualiser Description
Vue ALL_CLOUD_CATALOG_DATABASES Afficher des informations sur les ressources de données OCI Data Catalog et les bases de données AWS Glue Data Catalog
Vue ALL_CLOUD_CATALOG_TABLES Permet d'afficher des informations sur les entités de données pour OCI Data Catalogs et les tables pour AWS Glue Data Catalogs
ALL_DCAT_ASSETS Vue Répertorier les ressources de catalogue de données auxquelles cette base de données est autorisée à accéder
ALL_DCAT_ATTRIBUTES Vue Répertorier les attributs de catalogue de données auxquels cette base de données est autorisée à accéder
ALL_DCAT_CONNECTIONS Vue Vue contenant des informations sur les catalogues de données connectés à cette instance
ALL_DCAT_ENTITIES Vue

Répertorie les entités logiques auxquelles cette base de données est autorisée à accéder

ALL_DCAT_FOLDERS Vue Enumération des métadonnées des buckets Object Storage contenant les fichiers de données des entités logiques
Vue ALL_DCAT_GLOBAL_ACCESSIBLE_CATALOGS Répertorier tous les catalogues accessibles dans toutes les régions, ainsi que le niveau des privilèges d'accès pour chaque catalogue
Vue ALL_DCAT_LOCAL_ACCESSIBLE_CATALOGS Répertorier tous les catalogues accessibles dans la région en cours, ainsi que le niveau des privilèges d'accès pour chaque catalogue
Vue ALL_GLUE_DATABASES Répertorie les bases de données AWS Glue Data Catalog auxquelles les informations d'identification du catalogue de données sont autorisées à accéder
Vue ALL_GLUE_TABLES Affiche toutes les tables AWS Glue Data Catalog auxquelles les informations d'identification du catalogue de données sont autorisées à accéder
Vue DCAT_ATTRIBUTES Enumérer la mise en correspondance des attributs d'entité logique avec des colonnes de table externe
Vue DCAT_ENTITIES décrit la mise en correspondance des entités logiques avec des tables externes.
Vue DBMS_DCAT$SYNC_LOG Permet d'accéder facilement à la table des journaux de la dernière opération de synchronisation exécutée par l'utilisateur en cours

Vue ALL_CLOUD_CATALOG_DATABASES

Utilisez la vue ALL_CLOUD_CATALOG_DATABASES pour afficher des informations sur les ressources de données OCI Data Catalog et les bases de données AWS Glue Data Catalog.

Colonne Description
DCAT_CON_ID CON1
CATALOG_ID Identifiant unique du catalogue de données.

Exemple OCI Data Catalog :

ocid1.datacatalog.oc1.ap-mumbai-1.….y35a

Exemple d'AWS Glue Data Catalog :

NULL

579294766787

NAME Nom de la ressource de données (OCI)/de la base de données (AWS Glue).

Exemple OCI Data Catalog :

OBJECT_STORE_AT_ASHBURN

Exemple d'AWS Glue Data Catalog :

OBJECT_STORE_AT_N_CALIFORNIA

DESCRIPTION Description de la ressource de données (OCI)/base de données (AWS Glue).

Exemple OCI Data Catalog :

Data stored in S3 (N. California)

Exemple d'AWS Glue Data Catalog :

Data stored in S3 (N. California)
TIME_CREATED Date et heure de création de la ressource de données (OCI)/des bases de données (AWS Glue) dans le catalogue de données.

Exemple OCI Data Catalog :

26-SEP-22 10.56.01.395000 PM +00:00

Exemple d'AWS Glue Data Catalog :

2022-06-15T09:45:35+01:00

DETAILS Document JSON avec des métadonnées sur chaque entité de données (OCI) / base de données (AWS Glue).

Exemple OCI Data Catalog :

{
  "catalog-id": "ocid1.datacatalog.oc1.ap-mumbai-1.amaaa...",
  "description": null,
  "display-name": "OBJECT_STORE_AT_ASHBURN",
  "external-key": "https://swiftobjectstorage.us-ashburn-1....",
  "key": "bc95181c-3ac3-4959-9e5f-4e460d3fb82a",
  "lifecycle-state": "ACTIVE",
  "time-created": "2022-09-26T22:56:01.395000+00:00",
  "type-key": "3ea65bc5-f60d-477a-a591-f063665339f9",
  "uri": "/dcat/20190325/dataAssets/bc95181c-3ac3-4959-9e5f-4e460d3fb82a"
}

Exemple d'AWS Glue Data Catalog :

{
    "Name": "dbmsdcatpoc",
    "Parameters": {
        "somekey": "somevalue"
    },
    "CreateTime": "2022-06-15T09:45:35+01:00",
    "CreateTableDefaultPermissions": [
        {
            "Principal": {
                "DataLakePrincipalIdentifier": "IAM_ALLOWED_PRINCIPALS"
            },
            "Permissions": [
                "ALL"
            ]
        }
    ],
    "CatalogId": "579294766787"
}

Vue ALL_CLOUD_CATALOG_TABLES

La vue ALL_CLOUD_CATALOG_TABLES permet d'afficher des informations sur les entités de données pour les catalogues de données OCI et les tables pour les catalogues de données AWS Glue.

Colonne Description
DCAT_CON_ID Identifiant unique du catalogue de données. ID de connexion.

Exemple OCI Data Catalog : CON1

Exemple d'AWS Glue Data Catalog : CON1

CATALOG_ID Identifiant unique du catalogue de données.

Exemple OCI Data Catalog : ocid1.datacatalog.oc1.ap-mumbai-1.….y35a

Exemple d'AWS Glue Data Catalog : NULL

579294766787

DATABASE_NAME Nom de la ressource de données (OCI)/de la base de données (AWS Glue).

Exemple OCI Data Catalog : OBJECT_STORE_AT_ASHBURN

Exemple d'AWS Glue Data Catalog : OBJECT_STORE_AT_N_CALIFORNIA

NAME Nom de l'entité de données (OCI) / de la table (AWS Glue).

Exemple OCI Data Catalog : BIKES_TRIPS

Exemple d'AWS Glue Data Catalog : BIKES_TRIPS

DESCRIPTION Description de l'entité de données (OCI) / de la table (AWS Glue).

Exemple OCI Data Catalog : Table storing bike trips

Exemple d'AWS Glue Data Catalog : Table storing bike trips

TIME_CREATED Date et heure de création de l'entité de données (OCI)/de la table (AWS Glue) dans le catalogue de données.

Exemple OCI Data Catalog : 26-SEP-22 10.56.01.395000 PM +00:00

Exemple d'AWS Glue Data Catalog : 2022-06-15T09:45:35+01:00

TIME_UPDATED Heure de la dernière modification apportée à l'entité de données (OCI)/la table (AWS Glue).

Exemple OCI Data Catalog : 26-SEP-22 10.56.01.395000 PM +00:00

Exemple d'AWS Glue Data Catalog : 2022-06-15T09:45:35+01:00

DETAILS Document JSON avec des métadonnées sur chaque entité de données (OCI) / table (AWS Glue)

Exemple OCI Data Catalog :

{  
  "business-name": null,
  "data-asset-key": "bc95181c-3ac3-4959-9e5f-...",
  "description": null,
  "display-name": "bikes_trips",
  "external-key": "LE: https://swiftobjectstorage.us-ashburn-1.oraclecloud.com/v1/..._trips",
  "folder-key": "9c4b542d-d6eb-4b83-bf59-...",
  "folder-name": "hive",
  "is-logical": true,
  "is-partition": false,
  "key": "fde30a69-a07c-478a-ab62-...",
  "lifecycle-state": "ACTIVE",
  "object-storage-url": "https://objectstorage.us-ashburn-1.oraclecloud.com/n/...",
  "path": "OBJECT_STORE_AT_ASHBURN/hive/hive",
  "pattern-key": "db21b3f1-1508-4045-aa80-...",
  "properties": {
    "default": {
      "CONTENT-LENGTH": "4310321",
      "LAST-MODIFIED": "Fri, 9 Oct 2020 20:16:52 UTC",
      "archivedPECount": "0",
      "dataEntityExpression": "{logicalEntity:[^/]+}.db/{logicalEntity:[^/]+}/.*",
      "harvestedFile": "bikes.db/trips/p_start_month=2019-09/000000_0",
      "patternName": "bikes_trips"
    },
    "harvestProps": {
      "characterset": "UTF8",
      "compression": "none",
      "type": "PARQUET"
    }
  },
  "realized-expression": "bikes.db/trips/.*",
  "time-created": "2022-09-26T22:56:35.063000+00:00",
  "time-updated": "2022-09-26T22:56:35.063000+00:00",
  "type-key": "6753c3af-7f88-44b9-be52-1d57bef462fb",
  "updated-by-id": "ocid1.user.oc1..r5l3tov7a",
  "uri": "/dcat/20190325/dataAssets/bc95181c-3ac3-4959-9e5f-..."
}

Exemple d'AWS Glue Data Catalog :

{
    "Name": "bikes_trips",
    "DatabaseName": "dbmsdcatpoc",
    "Owner": "owner",
    "CreateTime": "2022-06-23T13:24:20+01:00",
    "UpdateTime": "2022-06-23T13:24:20+01:00",
    "LastAccessTime": "2022-06-23T13:24:20+01:00",
    "Retention": 0,
    "StorageDescriptor": {
        "Columns": [
            {
                "Name": "trip_duration",
                "Type": "int"
            },
            {
                "Name": "start_month",
                "Type": "string"
            }, ...
        ],
        "Location": "s3://dbmsdcatpoc/hive/bikes.db/trips/",
        "InputFormat": "org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat",
        "OutputFormat": "org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat",
        "Compressed": false,
        "NumberOfBuckets": -1,
        "SerdeInfo":
 {            "SerializationLibrary": "org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe",
            "Parameters": {
                "serialization.format": "1"
            }
        },
        "BucketColumns": [],
        "SortColumns": [],
        "Parameters": {
            "CrawlerSchemaDeserializerVersion": "1.0",
            "CrawlerSchemaSerializerVersion": "1.0",
            "UPDATED_BY_CRAWLER": "crawler-bikes",
            "averageRecordSize": "86",
            "classification": "parquet",
            "compressionType": "none",
            "objectCount": "12",
            "recordCount": "404947",
            "sizeKey": "35312159",
            "typeOfData": "file"
        },
        "StoredAsSubDirectories": false
    },
    "PartitionKeys": [
        {
            "Name": "p_start_month",
            "Type": "string"
        }
    ],
    "TableType": "EXTERNAL_TABLE",
    "Parameters": {
        "CrawlerSchemaDeserializerVersion": "1.0",
        "CrawlerSchemaSerializerVersion": "1.0",
        "UPDATED_BY_CRAWLER": "crawler-bikes",
        "averageRecordSize": "86",
        "classification": "parquet",
        "compressionType": "none",
        "objectCount": "12",
        "recordCount": "404947",
        "sizeKey": "35312159",
        "typeOfData": "file"
    },
    "CreatedBy": "arn:aws:sts::579294766787:assumed-role/AWSGlueServiceRole-dbmsdcat/AWS-Crawler",
    "IsRegisteredWithLakeFormation": false,
    "CatalogId": "579294766787",
    "VersionId": "0"
}

Exemple

ALL_DCAT_ASSETS Vue

Ressources Data Catalog auxquelles cette base de données est autorisée à accéder.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2 (4000) Identificateur de connexion unique au sein de l'instance

KEY

VARCHAR2(4000)

Clé Immobilisation

DISPLAY_NAME VARCHAR2(4000) Nom d'affichage de la ressource.
DESCRIPTION VARCHAR2(4000) Description de la ressource
CATALOG_ID VARCHAR2(4000) OCID du catalogue de données contenant la ressource.
EXTERNAL_KEY VARCHAR2(4000) URI Object Storage de base de la ressource.
URI VARCHAR2(4000) URI de ressource pour l'API Data Catalog.
TIME_CREATED TIMESTAMP(6) WITH TIMEZONE Date et heure de création de la ressource de données.
TYPE_KEY VARCHAR2(4000) Clé du type de ressource de données (actuellement, seules les ressources de données Object Storage sont prises en charge). Les clés de type sont disponibles via l'adresse Data Catalog "/types".
LIFECYCLE_STATE VARCHAR2(4000) Etat en cours de la ressource de données. Pour plus d'informations sur les états de cycle de vie possibles, reportez-vous à Référence DataAsset de Data Catalog afin d'obtenir la liste des états possibles pour lifecycleState.

ALL_DCAT_ATTRIBUTES Vue

Attributs Data Catalog auxquels cette base de données est autorisée à accéder.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2 (4000) Identificateur de connexion unique au sein de l'instance
KEY NUMBER Clé d'attribut

DISPLAY_NAME

VARCHAR2(4000)

Nom d'affichage de l'attribut

BUSINESS_NAME VARCHAR2(4000) Nom métier de l'attribut.
DESCRIPTION VARCHAR2(4000) Description de l'attribut
DATA_ASSET_KEY VARCHAR2(4000) Clé de ressource de données
FOLDER_KEY VARCHAR2(4000) Clé du dossier.
ENTITY_KEY VARCHAR2(4000) Clé d'entité
EXTERNAL_KEY VARCHAR2(4000) Clé externe unique de l'attribut.
LENGTH NUMBER Longueur maximale autorisée de la valeur d'attribut.
PRECISION NUMBER La précision de la valeur d'attribut (s'applique généralement au type de données Float).
SCALE NUMBER Echelle de la valeur d'attribut (s'applique généralement au type de données Float).
IS_NULLABLE NUMBER Indique si des valeurs NULL peuvent être affectées à cet attribut.
URI VARCHAR2(4000) URI vers l'instance d'attribut dans l'API Data Catalog.
LIFECYCLE_STATE VARCHAR2(4000) Etat en cours de l'attribut. Pour plus d'informations sur les états de cycle de vie possibles, reportez-vous à la référence d'attribut Data Catalog afin d'obtenir la liste des états possibles pour lifecycleState.
TIME_CREATED TIMESTAMP(6) WITH TIME ZONE Date et heure de création de l'attribut.
EXTERNAL_DATA_TYPE VARCHAR2(4000) Type de données de l'attribut tel que défini dans le système externe.
MIN_COLLECTION_COUNT NUMBER Nombre minimal d'éléments, si le type de l'attribut est un type de collection.
MAX_COLLECTION_COUNT NUMBER Nombre maximal d'éléments, si le type de l'attribut est un type de collection.
DATATYPE_ENTITY_KEY VARCHAR2(4000) Clé d'entité qui représente le type de données de cet attribut, applicable si cet attribut est de type complexe.
EXTERNAL_DATATYPE_ENTITY_KEY VARCHAR2(4000) Clé d'entité externe qui représente le type de données de cet attribut, applicable si cet attribut est de type complexe.
PARENT_ATTRIBUTE_KEY VARCHAR2(4000) Clé d'attribut qui représente l'attribut parent de cet attribut, applicable si l'attribut parent est d'un type de données complexe.
EXTERNAL_PARENT_ATTRIBUTE_KEY VARCHAR2(4000) Clé d'attribut externe qui représente l'attribut parent de cet attribut, applicable si l'attribut parent est d'un type de données complexe.
PATH VARCHAR2(4000) Chemin complet de l'attribut.

ALL_DCAT_CONNECTIONS Vue

Vue contenant des informations sur les catalogues de données connectés à cette instance.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2(4000) Identificateur de connexion unique au sein de l'instance
COMPARTMENT_ID VARCHAR2(4000) OCID du compartiment dans lequel réside l'instance Data Catalog.
INSTANCE_ID VARCHAR2(4000)

OCID de l'instance Data Catalog.

REGION

VARCHAR2(4000)

Région de l'instance Data Catalog.

ENDPOINT VARCHAR2(4000) Adresse de l'instance Data Catalog.
CREATED TIMESTAMP Date de création de l'instance Data Catalog.
NAME VARCHAR2(4000) Nom de l'instance Data Catalog.
LAST_UPDATED TIMESTAMP Horodatage de la dernière mise à jour de la connexion à l'instance Data Catalog.
LATEST_OPERATION_ID NUMBER ID de la dernière opération de synchronisation.
DATA_CATALOG_CREDENTIAL VARCHAR2(128) Informations d'identification utilisées pour accéder à Data Catalog.
OBJECT_STORE_CREDENTIAL VARCHAR2(128) Informations d'identification utilisées par le pilote de table externe pour accéder à la banque d'objets.

ALL_DCAT_ENTITIES Vue

Entités logiques Data Catalog auxquelles cette base de données est autorisée à accéder.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2(4000) Identificateur de connexion unique au sein de l'instance
CATALOG_ID VARCHAR2(4000) OCID du catalogue de données contenant la ressource.

KEY

VARCHAR2(4000)

Clé d'entité

DISPLAY_NAME VARCHAR2(4000)

Nom d'affichage de l'entité

BUSINESS_NAME VARCHAR2(4000)

Nom métier de l'entité.

DESCRIPTION VARCHAR2(4000)

Description de l'entité logique.

DATA_ASSET_KEY

VARCHAR2(4000)

Clé Immobilisation

FOLDER_KEY

VARCHAR2(4000)

Clé unique du dossier.

FOLDER_NAME VARCHAR2(4000) Nom du dossier (bucket).
EXTERNAL_KEY VARCHAR2(4000) Clé externe de l'entité logique.
PATTERN_KEY VARCHAR2(4000) Clé du modèle associé de l'entité logique.
REALIZED_EXPRESSION VARCHAR2(4000) Expression régulière utilisée pour obtenir les fichiers de cette entité logique.
PATH VARCHAR2(4000) Chemin complet de l'entité logique.
TIME_CREATED TIMESTAMP(6) WITH TIME ZONE Date et heure de création de l'entité.
TIME_UPDATED TIMESTAMP(6) WITH TIME ZONE Heure de la dernière modification apportée à l'entité de données.
UPDATED_BY_ID VARCHAR2(4000) OCID de l'utilisateur qui a mis à jour cet objet dans le catalogue de données.
URI VARCHAR2(4000) URI de l'instance d'entité dans l'API.
LIFECYCLE_STATE VARCHAR2(4000) Etat en cours de l'entité. Pour plus d'informations sur les états de cycle de vie possibles, reportez-vous à la référence d'entité de Data Catalog afin d'obtenir la liste des états possibles pour lifecycleState.

ALL_DCAT_FOLDERS Vue

Métadonnées des buckets Object Storage contenant les fichiers de données des entités logiques.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2(4000) Identificateur de connexion unique au sein de l'instance
CATALOG_ID VARCHAR2(4000) OCID du catalogue de données contenant la ressource.

KEY

VARCHAR2(4000)

Clé du dossier.

DISPLAY_NAME

VARCHAR2(4000)

Nom d'affichage du dossier.

BUSINESS_NAME VARCHAR2(4000) Nom métier du dossier.
DESCRIPTION VARCHAR2(4000) Description du dossier.
DATA_ASSET_KEY VARCHAR2(4000) Clé de la ressource de données contenant le dossier.
PARENT_FOLDER_KEY VARCHAR2(4000) Clé du dossier parent (actuellement, il s'agit de la clé de ressource de données).
PATH VARCHAR2(4000) Chemin complet du dossier.
EXTERNAL_KEY VARCHAR2(4000) URI Object Storage du bucket.
TIME_EXTERNAL TIMESTAMP(6) WITH TIMEZONE Horodatage de dernière modification de ce dossier.
TIME_CREATED TIMESTAMP(6) WITH TIMEZONE Date/heure de création du dossier.
URI VARCHAR2(4000) URI de l'instance de dossier dans l'API Data Catalog.
LIFECYCLE_STATE VARCHAR2(4000) Etat en cours du dossier. Pour plus d'informations sur les états de cycle de vie possibles, reportez-vous à la référence de dossier de Data Catalog afin d'obtenir la liste des états possibles pour lifecycleState.

Vue ALL_DCAT_GLOBAL_ACCESSIBLE_CATALOGS

Cette vue répertorie tous les catalogues accessibles dans toutes les régions, ainsi que le niveau des privilèges d'accès pour chaque catalogue.

Colonne Type de données Description

CATALOG_ID

VARCHAR2(4000)

ID du catalogue.

CATALOG_NAME VARCHAR2(4000) Nom du catalogue
CATALOG_REGION VARCHAR2(4000) Nom de la région du catalogue.
CATALOG_SCORE NUMBER Le score de catalogue est une valeur numérique calculée à partir des privilèges configurés pour les informations d'identification d'accès de Data Catalog. Un score de catalogue élevé représente des privilèges plus importants, ce qui peut signifier une probabilité plus élevée que ce catalogue soit destiné à être utilisé avec cette instance Autonomous Database.

Vue ALL_DCAT_LOCAL_ACCESSIBLE_CATALOGS

Cette vue répertorie tous les catalogues accessibles dans la région en cours, ainsi que le niveau des privilèges d'accès pour chaque catalogue.

Colonne Type de données Description

CATALOG_ID

VARCHAR2(4000)

ID du catalogue.

CATALOG_NAME VARCHAR2(4000) Nom du catalogue
CATALOG_SCORE NUMBER Le score de catalogue est une valeur numérique calculée à partir des privilèges configurés pour les informations d'identification d'accès de Data Catalog. Un score de catalogue élevé représente des privilèges plus importants, ce qui peut signifier une probabilité plus élevée que ce catalogue soit destiné à être utilisé avec cette instance Autonomous Database.

Vue ALL_GLUE_DATABASES

Bases de données AWS Glue Data Catalog auxquelles les informations d'identification du catalogue de données sont autorisées à accéder.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2(4000) Identifiant unique de l'ID de connexion au catalogue de données.
CATALOG_ID VARCHAR2(255) Identifiant unique du catalogue de données.
NAME VARCHAR2(255) Nom de la base de données.
DESCRIPTION VARCHAR2(2048) Description de la base de données.
LOCATION_URI VARCHAR2(1024) Emplacement de la base de données.
CREATE_TIME TIMESTAMP Heure de création de la base de données dans le catalogue de données.
PARAMETERS CLOB Document JSON avec des paires clé-valeur qui définissent les paramètres et les propriétés de la base de données.
TARGET_DATABASE VARCHAR2(4000) Document JSON décrivant une base de données cible pour la liaison de ressources dans AWS.

Vue ALL_GLUE_TABLES

Cette vue affiche toutes les tables AWS Glue Data Catalog auxquelles les informations d'identification du catalogue de données sont autorisées à accéder.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2(4000) Identifiant unique de l'ID de connexion au catalogue de données.
CATALOG_ID VARCHAR2(255) Identificateur de catalogue
DATABASE_NAME VARCHAR2(255) Nom de base de données
NAME VARCHAR2(255) Nom de table
TABLE_TYPE VARCHAR2(255) Type de table
CLASSIFICATION VARCHAR2(255)  
DESCRIPTION VARCHAR2(2048) Description de la table
OWNER VARCHAR2(255) Propriétaire de table
CREATED_BY VARCHAR2(255) Créateur de table
CREATE_TIME TIMESTAMP Heure de création de la table dans le catalogue de données.
LAST_ANALYZED_TIME TIMESTAMP Dernier calcul des statistiques de colonne pour cette table.
LAST_ACCESS_TIME TIMESTAMP Dernier accès à la table.
UPDATE_TIME TIMESTAMP Heure de dernière mise à jour de la table.
IS_REGISTERED_WITH_LAKE_FORMATION NUMBER Indique si la table est enregistrée auprès de la formation de lac AWS.
PARAMETERS CLOB Document JSON avec des paires clé-valeur qui définissent les propriétés de la table.
PARTITION_KEYS CLOB Document JSON avec une liste de colonnes par lesquelles la table est partitionnée.
RETENTION NUMBER Durée de conservation de cette table.
STORAGE_DESCRIPTION CLOB Document JSON avec des informations sur le stockage physique d'une table.
TARGET_TABLE VARCHAR2(4000) Document JSON décrivant une table cible utilisée pour la liaison de ressources dans AWS.
VERSION_ID VARCHAR2(255) Identifiant de la version de la table.
VIEW_EXPANDED_TEXT CLOB Introduit par AWS Glue pour la compatibilité avec Hive. Non utilisé par AWS Glue.
VIEW_ORIGINAL_TEXT CLOB Introduit par AWS Glue pour la compatibilité avec Hive. Non utilisé par AWS Glue.

Vue DCAT_ATTRIBUTES

Répertorie la mise en correspondance des attributs d'entité logique avec des colonnes de table externe.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2 (4000) Identificateur de connexion unique au sein de l'instance
ASSET_KEY VARCHAR2(4000) Clé de la ressource Data Catalog.

ENTITY_KEY

VARCHAR2(4000)

Clé de l'entité de catalogue de données.

ATTRIBUTE_KEY

VARCHAR2(4000)

Clé d'attribut Data Catalog.

ORACLE_COLUMN_NAME VARCHAR2(128) Nom de la colonne mise en correspondance

Vue DCAT_ENTITIES

Décrit la mise en correspondance des entités logiques des tables externes.

Colonne Type de données Description
DCAT_CON_ID VARCHAR2(4000) Identificateur de connexion unique au sein de l'instance
ASSET_KEY VARCHAR2(4000) Clé de la ressource Data Catalog.

ENTITY_KEY

VARCHAR2(4000)

Clé de l'entité de catalogue de données.

FOLDER_KEY

VARCHAR2(4000)

Clé de dossier Data Catalog.

ORACLE_TABLE_NAME VARCHAR2(128) Nom de la table mise en correspondance
ORACLE_SCHEMA_NAME VARCHAR2(128) Nom du schéma mis en correspondance.
ENTITY_ORACLE_DB_SCHEMA VARCHAR2(4000) Propriété personnalisée oracle-db-schema de l'entité utilisée pour dériver le schéma.
ASSET_ORACLE_DB_SCHEMA VARCHAR2(4000) Propriété personnalisée oracle-db-schema de la ressource de données utilisée pour dériver le schéma.
FOLDER_ORACLE_DB_SCHEMA VARCHAR2(4000) Propriété personnalisée oracle-db-schema utilisée pour dériver le schéma.

Vue DBMS_DCAT$SYNC_LOG

La vue DBMS_DCAT$SYNC_LOG permet d'accéder facilement à la table des journaux de la dernière opération de synchronisation exécutée par l'utilisateur en cours.

Chaque appel de la procédure RUN_SYNC est consigné dans une nouvelle table des journaux. Le champ LOGFILE_TABLE de USER_LOAD_OPERATIONS pointe vers celle-ci. Les tables des journaux sont automatiquement supprimées au bout de 2 jours et les utilisateurs peuvent effacer tous les journaux de synchronisation à l'aide de la procédure DELETE_ALL_OPERATIONS, où le type est DCAT_SYNC.

La vue DBMS_DCAT$SYNC_LOG identifie automatiquement la dernière table des journaux. Le schéma de la vue DBMS_DCAT$SYNC_LOG est décrit ci-dessous. Les droits d'accès sont identiques à ceux des tables des journaux individuelles. Par défaut, le privilège READ est accordé au rôle dbms_dcat et à l'utilisateur ADMIN.

Les tables des journaux sont au format suivant :

Colonne Type de données Description

LOG_TIMESTAMP

TIMESTAMP

Horodatage de l'entrée de journal.

LOG_LEVEL

VARCHAR2(32)

Le niveau de journalisation d'entrée peut avoir l'une des valeurs suivantes : OFF, FATAL, ERROR, WARN, INFO, DEBUG, TRACE, ALL.

LOG_DETAILS VARCHAR2(32767) Message du journal.