Mit Hauptkatalog verwalten

4 Mit Master Catalog verwalten

In diesem Kapitel können Sie den Masterkatalog, Standard- und externe Kataloge, das Schema, die Tabellen und die Volumes verwenden und verstehen.

Themen:

Hauptkatalog

Master Catalog in AI Data Platform Workbench ist die Entity der obersten Ebene, mit der Sie Ihre Daten und Metadaten verwalten können, indem Sie eine zentrale Ansicht bereitstellen.

Der Hauptkatalog ist ein Container für Standard- und externe Kataloge. Sie erstellen Kataloge mit ihren Datenassets in Oracle Autonomous AI Lakehouse, OCI Object Storage und Kafka. Mit Master Catalog können Sie Berechtigungen für untergeordnete Objekte erzwingen.

Standard- und externe Kataloge haben unterschiedliche Funktionen und Anwendungsfälle:

Standardkatalog: Ein Standardkatalog ist ein logischer Container für Schemas (Datenbanken). Benutzer können Tabellen, Ansichten und Volumes in einem Schema erstellen. Der Standardkatalog verwaltet den Lebenszyklus von Metadaten aller untergeordneten Objekte.
Externer Katalog: Ein externer Katalog wird von externen Datenquellen wie Oracle Autonomous AI Lakehouse, Kafka usw. unterstützt. Im Falle eines externen Katalogs werden die Metadaten aus der externen Quelle synchronisiert, und Benutzer können die Daten in einer externen Quelle mit dem 3-teiligen Namen wie catalog_name.schema_name.table_name abfragen. Im Falle eines externen Katalogs wird der Metadatenlebenszyklus von der externen Quelle verwaltet, und der Masterkatalog speichert eine Kopie der Metadaten.

Anwendungsfälle für den Hauptkatalog

Stammkataloge können genutzt werden, um die Datenvorbereitung und -analyse zu unterstützen, unstrukturierte Daten zu speichern und vieles mehr.

Daten mit SQL-Syntax abfragen und analysieren

Erstellen Sie verwaltete oder externe Tabellen in einem Standardkatalog, um Daten mit vertrauter SQL-ähnlicher Syntax abzufragen und zu analysieren. So können Sie die in AI Data Platform gespeicherten Daten leichter untersuchen und verstehen.

Datenvorbereitung

Nutzen Sie das strukturierte Format von Daten, die in verwalteten/externen Tabellen gespeichert sind, für die Vorbereitung von Daten für Modelle des maschinellen Lernens. So können Sie Daten einfacher bereinigen, transformieren und Feature Engineers erstellen. Dies erleichtert den effizienten Datenzugriff und die effiziente Verarbeitung für Feature Engineering und Modelltraining

Reisezeit

Offene Tabellenformate unterstützen die Schemaentwicklung. Die Struktur der Daten kann sich im Laufe der Zeit ändern, ohne das gesamte Dataset neu zu schreiben. Diese Tabellen können versioniert werden, und Benutzer können Zeitreiseabfragen ausführen, mit denen Sie historische Versionen von Daten abfragen können. Dies erleichtert die retrospektive Analyse und die Datenwiederherstellung.

ACID-Transaktionsunterstützung

Offene Tabellenformate unterstützen vollständige CRUD-Vorgänge (Create, Read, Update, and Delete), die Datenkonsistenz gewährleisten und Datenaktualisierungen ermöglichen. Mithilfe von Tabellen können Transaktionsdaten gespeichert und verwaltet werden, sodass Anwendungen Änderungen an Daten verfolgen können.

Daten effizient lesen und schreiben

Tabellen in AI Data Platform Workbench können partitioniert werden, um einen effizienten Datenzugriff und eine effiziente Datenverarbeitung zu ermöglichen, insbesondere für große Datasets.

Unstrukturierte Daten speichern und verarbeiten

Erstellen Sie verwaltete oder externe Volumes zum Speichern unstrukturierter Daten, damit sie mit Apache Spark verarbeitet werden können.

Mandantenübergreifende externe Tabellen und Volumes

Mit mandantenübergreifenden externen Tabellen und Volumes können Sie sicher auf Daten zugreifen und diese abfragen, die in unterschiedlichen Mandanten gespeichert sind, ohne dass komplexe ETL-Pipelines oder manuelle Datenverschiebungen erforderlich sind.

Mit AI Data Platform Workbench können Benutzer mandantenübergreifende externe Tabellen und Volumes erstellen. Dies ist eine leistungsstarke Funktion, mit der Datensilos eliminiert und die Zusammenarbeit optimiert werden können.

Die Vorteile von Cross-Tenancy sind:

Keine Datenduplizierung: Sie greifen dort auf Live-Daten zu, wo sie gespeichert sind, sparen Speicherkosten und stellen die Integrität einer "Single Source of Truth" sicher.
Vereinfachte Governance: Mit IAM-Policys und AI Data Platform Workbench-Zugriffskontrollen können Sie Berechtigungen grenzüberschreitend verwalten.

Mandantenübergreifender Zugriff - Anforderungen

Für das Einrichten des mandantenübergreifenden Zugriffs für externe Tabellen und Volumes sind bestimmte IAM-Policys erforderlich, die in einem Providermandanten und einem Consumer-Mandanten konfiguriert sind.

Im Providermandanten müssen Sie eine dynamische IAM-Gruppe in der Oracle Cloud Infrastructure-(OCI-)Konsole erstellen, die Ihre spezifische AI Data Platform Workbench-Ressource als Mitglied enthält. Weitere Informationen finden Sie unter Dynamische Gruppen verwalten.

Nachdem Sie die dynamische IAM-Gruppe erstellt haben, müssen Sie IAM-Policys im Providermandanten konfigurieren:

Ressourcen in IAM für Consumer-Mandanten, Benutzergruppen und dynamische Gruppen definieren
admit-IAM-Policy für die Consumer-Mandantenressourcen schreiben

define tenancy <consumer_tenancy_name1> as <consumer tenancy OCID>
define group <group_name1> as <consumer user group>
define dynamic-group <dynamic_group_name1> as <consumer dynamic group OCID>

admit dynamic-group <dynamic_group_name1> of tenancy <consumer_tenancy_name1> to manage object-family in tenancy
admit dynamic-group <dynamic_group_name1> of tenancy <consumer_tenancy_name1> to { OBJECTSTORAGE_NAMESPACE_READ } in tenancy
admit group <group_name1> of tenancy <consumer_tenancy_name1> to manage object-family in tenancy

Nachdem Sie die IAM-Policys des Providermandanten konfiguriert haben, müssen Sie die IAM-Policys des Consumer-Mandanten konfigurieren:

Ressource in IAM für Providermandanten definieren
endorse-IAM-Policy für die lokalen Consumer-Mandantenressourcen schreiben

define tenancy <provider_tenancy_name1> as <provider tenancy OCID>

endorse dynamic-group <dynamic_group_name> to manage object-family in tenancy <provider_tenancy_name1>
endorse dynamic-group <dynamic_group_name> to { OBJECTSTORAGE_NAMESPACE_READ } in tenancy <provider_tenancy_name1>
endorse group <group_name> to manage object-family in tenancy <provider_tenancy_name1>

Nachdem die IAM-Policys für Provider- und Verbrauchermandanten konfiguriert wurden, können Sie mandantenübergreifende externe Tabellen und Volumes mit der SQL-Grammatik erstellen. Weitere Informationen hierzu finden Sie unter SQL-Grammatik.

Beispiel: Mandantenübergreifende Tabelle mit SQL erstellen

CREATE EXTERNAL TABLE [IF NOT EXISTS] <catalog_name>.<schema-name>.<table-name>
[ ( <column1-name><column1-type> [comment <column1-comment>], ... ) ]
USING [HIVE|DELTA, CSV, TXT, ORC, JDBC, PARQUET, etc.]
LOCATION 'oci://my-bucket@mytenancynamespace/my-folder/'
[TBLPROPERTIES ( DESCRIPTION = 'some-description', '<property-name>'='<property-value>'[, ...]) ]

Beschränkung

AI Data Platform Workbench unterstützt das Erstellen mandantenübergreifender externer Tabellen oder externer Volumes über die UI nicht.