Gérer avec le catalogue principal

4 Gérer avec le catalogue maître

Ce chapitre vous aide à utiliser et à comprendre le catalogue maître, les catalogues standard et externes, le schéma, les tables et les volumes.

Rubriques :

Catalogue principal

Master Catalog dans AI Data Platform Workbench est l'entité de premier niveau qui vous permet de gérer vos données et métadonnées en fournissant une vue centralisée.

Le catalogue principal est un conteneur pour les catalogues standard et externes. Vous créez des catalogues avec leurs ressources de données dans Oracle Autonomous AI Lakehouse, OCI Object Storage et Kafka. Le catalogue maître vous permet d'appliquer des autorisations sur ses objets enfant.

Les catalogues standard et externes ont des fonctions et des cas d'utilisation différents :

Catalogue standard : un catalogue standard est un conteneur logique pour les schémas (bases de données), les utilisateurs peuvent créer des tables, des vues et des volumes dans un schéma. Le catalogue standard gère le cycle de vie des métadonnées de tous les objets enfant.
Catalogue externe : un catalogue externe est soutenu par des sources de données externes telles qu'Oracle Autonomous AI Lakehouse, Kafka, etc. Dans le cas d'un catalogue externe, les métadonnées sont synchronisées à partir de la source externe et les utilisateurs peuvent interroger les données d'une source externe à l'aide du nom en 3 parties, tel que catalog_name.schema_name.table_name. Dans le cas d'un catalogue externe, le cycle de vie des métadonnées est géré par la source externe et le catalogue maître conserve une copie des métadonnées.

Cas d'utilisation pour le catalogue principal

Les catalogues maîtres peuvent être utilisés pour faciliter la préparation et l'analyse des données, le stockage de données non structurées, etc.

Interroger et analyser des données à l'aide de la syntaxe SQL

Créez des tables gérées ou externes dans un catalogue standard pour interroger et analyser les données à l'aide d'une syntaxe de type SQL familière, ce qui facilite l'exploration et la compréhension des données stockées dans AI Data Platform.

Préparation des données

Tirez parti du format structuré des données stockées dans des tables gérées/externes pour préparer les données pour les modèles de machine learning, ce qui facilite le nettoyage, la transformation et l'ingénierie des fonctionnalités des données. Cela facilite l'accès aux données et leur traitement efficaces pour l'ingénierie des fonctionnalités et l'entraînement des modèles

Déplacement de temps

Les formats de table ouverts prennent en charge l'évolution des schémas. La structure des données peut changer au fil du temps sans réécrire l'ensemble de données. Ces tables peuvent être gérées par version et les utilisateurs peuvent exécuter des requêtes de déplacement temporel vous permettant d'interroger les versions historiques des données, ce qui facilite l'analyse rétrospective et la récupération des données.

Prise en charge des transactions ACID

Les formats de table ouverts prennent en charge les opérations complètes de création, de lecture, de mise à jour et de suppression (CRUD), ce qui garantit la cohérence des données et active les mises à jour de données. Les tables peuvent être utilisées pour stocker et gérer des données transactionnelles, ce qui permet aux applications de suivre les modifications apportées aux données.

Lecture et écriture efficaces des données

Les tables d'AI Data Platform Workbench peuvent être partitionnées, ce qui permet un accès et un traitement efficaces des données, en particulier pour les grands ensembles de données.

Stocker et traiter des données non structurées

Créez des volumes gérés ou externes pour stocker des données non structurées afin qu'elles puissent être traitées à l'aide d'Apache Spark.

Tables et volumes externes inter-location

Les volumes et les tables externes inter-locations vous permettent d'accéder aux données stockées dans des locations disparates et de les interroger en toute sécurité, sans avoir besoin de pipelines ETL complexes ni de déplacement manuel de données.

AI Data Platform Workbench permet aux utilisateurs de créer des tables et des volumes externes inter-locations, une fonctionnalité puissante conçue pour éliminer les silos de données et rationaliser la collaboration.

Les avantages de la colocation sont les suivants :

Duplication zéro des données : vous accédez aux données en direct là où elles résident, ce qui permet d'économiser sur les coûts de stockage et de garantir l'intégrité de la "source unique d'informations fiables".
Gouvernance simplifiée : vous gérez les droits d'accès au-delà des frontières à l'aide de stratégies IAM et de contrôles d'accès AI Data Platform Workbench.

Exigences en matière d'accès inter-location

La configuration de l'accès inter-location pour les tables et les volumes externes nécessite des stratégies IAM spécifiques configurées dans une location de fournisseur et une location de consommateur.

Dans la location de fournisseur, vous devez créer un groupe dynamique IAM dans la console Oracle Cloud Infrastructure (OCI) qui inclut votre ressource AI Data Platform Workbench en tant que membre. Pour plus d'informations, reportez-vous à Gestion des groupes dynamiques.

Une fois le groupe dynamique IAM créé, vous devez configurer des stratégies IAM dans la location de fournisseur :

Définir des ressources dans IAM pour la location de destinataire, le groupe d'utilisateurs et les groupes dynamiques
Ecrire une stratégie IAM admit pour les ressources de location de destinataire

define tenancy <consumer_tenancy_name1> as <consumer tenancy OCID>
define group <group_name1> as <consumer user group>
define dynamic-group <dynamic_group_name1> as <consumer dynamic group OCID>

admit dynamic-group <dynamic_group_name1> of tenancy <consumer_tenancy_name1> to manage object-family in tenancy
admit dynamic-group <dynamic_group_name1> of tenancy <consumer_tenancy_name1> to { OBJECTSTORAGE_NAMESPACE_READ } in tenancy
admit group <group_name1> of tenancy <consumer_tenancy_name1> to manage object-family in tenancy

Après avoir configuré les stratégies IAM de location de fournisseur, vous devez configurer les stratégies IAM de location de destinataire :

Définition de la ressource dans IAM pour la location de fournisseur
Ecrire une stratégie IAM endorse pour les ressources de location de consommateur local

define tenancy <provider_tenancy_name1> as <provider tenancy OCID>

endorse dynamic-group <dynamic_group_name> to manage object-family in tenancy <provider_tenancy_name1>
endorse dynamic-group <dynamic_group_name> to { OBJECTSTORAGE_NAMESPACE_READ } in tenancy <provider_tenancy_name1>
endorse group <group_name> to manage object-family in tenancy <provider_tenancy_name1>

Une fois les stratégies IAM de location de fournisseur et de consommateur configurées, vous pouvez créer des volumes et des tables externes inter-locations à l'aide de la grammaire SQL. Pour plus d'informations, reportez-vous à Grammaire SQL.

Exemple : création d'une table inter-locations avec SQL

CREATE EXTERNAL TABLE [IF NOT EXISTS] <catalog_name>.<schema-name>.<table-name>
[ ( <column1-name><column1-type> [comment <column1-comment>], ... ) ]
USING [HIVE|DELTA, CSV, TXT, ORC, JDBC, PARQUET, etc.]
LOCATION 'oci://my-bucket@mytenancynamespace/my-folder/'
[TBLPROPERTIES ( DESCRIPTION = 'some-description', '<property-name>'='<property-value>'[, ...]) ]

Limitation

AI Data Platform Workbench ne prend pas en charge la création de tables externes ou de volumes externes inter-locations à partir de l'interface utilisateur.