Gérer avec le catalogue principal

4 Gérer à l'aide du catalogue principal

Ce chapitre vous aide à utiliser et à comprendre le catalogue principal, les catalogues standard et externes, le schéma, les tables et les volumes.

Rubriques :

Catalogue principal

Le catalogue principal dans AI Data Platform Workbench est l'entité de niveau supérieur qui vous permet de gérer vos données et métadonnées en fournissant une vue centralisée.

Le catalogue principal est un conteneur pour les catalogues standard et externes. Vous créez des catalogues avec leurs ressources de données dans Oracle Autonomous AI Lakehouse, le stockage d'objets OCI et Kafka. Le catalogue principal vous permet d'appliquer des autorisations à ses objets enfants.

Les catalogues standard et externes ont des fonctions et des cas d'utilisation différents :

Catalogue standard : Un catalogue standard est un conteneur logique pour les schémas (bases de données). Les utilisateurs peuvent créer des tables, des vues et des volumes dans un schéma. Le catalogue standard gère le cycle de vie des métadonnées de tous les objets enfants.
Catalogue externe : Un catalogue externe est soutenu par des sources de données externes telles qu'Oracle Autonomous AI Lakehouse, Kafka, etc. Dans le cas d'un catalogue externe, les métadonnées sont synchronisées à partir de la source externe et les utilisateurs peuvent interroger les données d'une source externe à l'aide du nom en 3 parties, par exemple : catalog_name.schema_name.table_name. Dans le cas d'un catalogue externe, le cycle de vie des métadonnées est géré par la source externe et le catalogue principal conserve une copie des métadonnées.

Cas d'utilisation pour le catalogue principal

Les catalogues principaux peuvent être utilisés pour la préparation et l'analyse des données, le stockage des données non structurées, etc.

Interroger et analyser des données à l'aide de la syntaxe SQL

Créez des tables gérées ou externes dans un catalogue standard pour interroger et analyser les données à l'aide d'une syntaxe de type SQL familière, ce qui facilite l'exploration et la compréhension des données stockées dans AI Data Platform.

Préparation des données

Tirez parti du format structuré des données stockées dans des tables gérées/externes pour préparer les données des modèles d'apprentissage automatique, ce qui facilite le nettoyage, la transformation et les fonctions des données des ingénieurs. Cela facilite l'accès et le traitement efficaces des données pour l'ingénierie des fonctions et l'entraînement des modèles

Temps de déplacement

Les formats de table ouverts prennent en charge l'évolution des schémas. La structure des données peut changer au fil du temps sans réécrire l'ensemble du jeu de données. Ces tables peuvent faire l'objet d'un contrôle des versions et les utilisateurs peuvent exécuter des requêtes de déplacement dans le temps, ce qui vous permet d'interroger les versions historiques des données, ce qui facilite l'analyse rétrospective et la récupération des données.

Prise en charge des transactions ACID

Les formats de table ouverts prennent en charge toutes les opérations de création, de lecture, de mise à jour et de suppression (CRUD), ce qui assure la cohérence des données et permet les mises à jour des données. Les tables peuvent être utilisées pour stocker et gérer les données transactionnelles, ce qui permet aux applications de suivre les modifications apportées aux données.

Lecture et écriture efficaces des données

Les tables de AI Data Platform Workbench peuvent être partitionnées, ce qui permet un accès et un traitement efficaces des données, en particulier pour les jeux de données volumineux.

Stocker et traiter des données non structurées

Créez des volumes gérés ou externes pour stocker des données non structurées afin qu'elles puissent être traitées à l'aide d'Apache Spark.