Gestisci con catalogo principale

4 Gestisci con il catalogo principale

Questo capitolo consente di utilizzare e comprendere il catalogo principale, i cataloghi standard ed esterni, lo schema, le tabelle e i volumi.

Argomenti:

Catalogo principale

Master Catalog in AI Data Platform Workbench è l'entità di livello superiore che consente di gestire i dati e i metadati fornendo una vista centralizzata.

Il catalogo principale è un contenitore per cataloghi sia standard che esterni. Puoi creare cataloghi con i relativi asset di dati in Oracle Autonomous AI Lakehouse, OCI Object Storage e Kafka. Il catalogo principale consente di applicare le autorizzazioni per i relativi oggetti figlio.

I cataloghi standard ed esterni hanno funzioni e casi d'uso diversi:

Catalogo standard: un catalogo standard è un contenitore logico per gli schemi (database), gli utenti possono creare tabelle, viste e volumi in uno schema. Il catalogo standard gestisce il ciclo di vita dei metadati di tutti gli oggetti figlio.
Catalogo esterno: un catalogo esterno è supportato da origini dati esterne come Oracle Autonomous AI Lakehouse, Kafka e così via. In caso di catalogo esterno, i metadati vengono sincronizzati dall'origine esterna e gli utenti possono eseguire query sui dati in un'origine esterna utilizzando il nome a 3 parti come: catalog_name.schema_name.table_name. In caso di catalogo esterno, il ciclo di vita dei metadati viene gestito dall'origine esterna e il catalogo principale conserva una copia dei metadati.

Casi d'uso per catalogo principale

I cataloghi master possono essere utilizzati per facilitare la preparazione e l'analisi dei dati, la memorizzazione di dati non strutturati e altro ancora.

Esegui query e analizza dati mediante sintassi SQL

Crea tabelle gestite o esterne in un catalogo standard per eseguire query e analizzare i dati utilizzando una sintassi simile a SQL familiare, semplificando l'esplorazione e la comprensione dei dati memorizzati in AI Data Platform.

Preparazione dati

Sfrutta il formato strutturato dei dati memorizzati in tabelle gestite/esterne per preparare i dati per i modelli di machine learning, semplificando la pulizia, la trasformazione e i dati dei tecnici delle funzioni. Ciò facilita l'accesso e l'elaborazione efficienti dei dati per l'ingegneria delle funzionalità e l'addestramento dei modelli

Viaggio nel tempo

I formati di tabella aperta supportano l'evoluzione dello schema. La struttura dei dati può cambiare nel tempo senza riscrivere l'intero set di dati. Queste tabelle possono essere sottoposte a controllo delle versioni e gli utenti possono eseguire query di viaggio nel tempo che consentono di eseguire query sulle versioni cronologiche dei dati, facilitando l'analisi retrospettiva e il recupero dei dati.

Supporto transazioni ACID

I formati di tabella aperta supportano le operazioni complete di creazione, lettura, aggiornamento ed eliminazione (CRUD), garantendo la coerenza dei dati e abilitando gli aggiornamenti dei dati. Le tabelle possono essere utilizzate per memorizzare e gestire i dati transazionali, consentendo alle applicazioni di tenere traccia delle modifiche ai dati.

Lettura e scrittura dei dati in modo efficiente

Le tabelle in AI Data Platform Workbench possono essere partizionate, consentendo un accesso ed un'elaborazione efficienti dei dati, in particolare per set di dati di grandi dimensioni.

Memorizza ed elabora dati non strutturati

Crea volumi gestiti o esterni per memorizzare dati non strutturati in modo che possano essere elaborati utilizzando Apache Spark.

Tabelle e volumi esterni cross-tenancy

Le tabelle e i volumi esterni cross-tenancy ti consentono di accedere ed eseguire query sui dati memorizzati in tenancy eterogenee senza la necessità di pipeline ETL complesse o di spostamento manuale dei dati.

AI Data Platform Workbench consente agli utenti di creare tabelle e volumi esterni cross-tenancy, una potente funzionalità progettata per eliminare i silos di dati e semplificare la collaborazione.

I vantaggi della cross-tenancy sono:

Duplicazione zero dati: accedi ai dati in tempo reale dove risiedono, risparmiando sui costi di storage e garantendo l'integrità di "single source of truth".
Governance semplificata: gestisci le autorizzazioni oltre i limiti utilizzando i criteri IAM e i controlli di accesso AI Data Platform Workbench.

Requisiti di accesso tra tenancy

L'impostazione dell'accesso cross-tenancy per tabelle e volumi esterni richiede criteri IAM specifici configurati in una tenancy provider e in una tenancy consumer.

Nella tenancy del provider, è necessario creare un gruppo dinamico IAM nella console di Oracle Cloud Infrastructure (OCI) che include come membro la risorsa AI Data Platform Workbench specifica. Per ulteriori informazioni, vedere Gestione dei gruppi dinamici.

Dopo aver creato il gruppo dinamico IAM, è necessario configurare i criteri IAM nella tenancy del provider:

Definire le risorse in IAM per la tenancy consumer, il gruppo di utenti e i gruppi dinamici
Scrivere il criterio IAM di ammissione per le risorse della tenancy consumer

define tenancy <consumer_tenancy_name1> as <consumer tenancy OCID>
define group <group_name1> as <consumer user group>
define dynamic-group <dynamic_group_name1> as <consumer dynamic group OCID>

admit dynamic-group <dynamic_group_name1> of tenancy <consumer_tenancy_name1> to manage object-family in tenancy
admit dynamic-group <dynamic_group_name1> of tenancy <consumer_tenancy_name1> to { OBJECTSTORAGE_NAMESPACE_READ } in tenancy
admit group <group_name1> of tenancy <consumer_tenancy_name1> to manage object-family in tenancy

Dopo aver configurato i criteri IAM della tenancy del provider, è necessario configurare i criteri IAM della tenancy consumer:

Definire la risorsa in IAM per la tenancy del provider
Scrivere il criterio IAM endorse per le risorse della tenancy del consumatore locale

define tenancy <provider_tenancy_name1> as <provider tenancy OCID>

endorse dynamic-group <dynamic_group_name> to manage object-family in tenancy <provider_tenancy_name1>
endorse dynamic-group <dynamic_group_name> to { OBJECTSTORAGE_NAMESPACE_READ } in tenancy <provider_tenancy_name1>
endorse group <group_name> to manage object-family in tenancy <provider_tenancy_name1>

Una volta configurati i criteri IAM della tenancy provider e consumer, puoi creare tabelle e volumi esterni cross-tenancy utilizzando la grammatica SQL. Per ulteriori informazioni, vedere Grammatica SQL.

Esempio: creazione di una tabella cross-tenancy con SQL

CREATE EXTERNAL TABLE [IF NOT EXISTS] <catalog_name>.<schema-name>.<table-name>
[ ( <column1-name><column1-type> [comment <column1-comment>], ... ) ]
USING [HIVE|DELTA, CSV, TXT, ORC, JDBC, PARQUET, etc.]
LOCATION 'oci://my-bucket@mytenancynamespace/my-folder/'
[TBLPROPERTIES ( DESCRIPTION = 'some-description', '<property-name>'='<property-value>'[, ...]) ]

Limitazione

AI Data Platform Workbench non supporta la creazione di tabelle esterne o volumi esterni tra tenancy dall'interfaccia utente.