4 Mit Master Catalog verwalten

In diesem Kapitel können Sie den Masterkatalog, Standard- und externe Kataloge, das Schema, die Tabellen und die Volumes verwenden und verstehen.

Hauptkatalog

Master Catalog in AI Data Platform Workbench ist die Entity der obersten Ebene, mit der Sie Ihre Daten und Metadaten verwalten können, indem Sie eine zentrale Ansicht bereitstellen.

Der Hauptkatalog ist ein Container für Standard- und externe Kataloge. Sie erstellen Kataloge mit ihren Datenassets in Oracle Autonomous AI Lakehouse, OCI Object Storage und Kafka. Mit Master Catalog können Sie Berechtigungen für untergeordnete Objekte erzwingen.

Standard- und externe Kataloge haben unterschiedliche Funktionen und Anwendungsfälle:

  • Standardkatalog: Ein Standardkatalog ist ein logischer Container für Schemas (Datenbanken). Benutzer können Tabellen, Ansichten und Volumes in einem Schema erstellen. Der Standardkatalog verwaltet den Lebenszyklus von Metadaten aller untergeordneten Objekte.
  • Externer Katalog: Ein externer Katalog wird von externen Datenquellen wie Oracle Autonomous AI Lakehouse, Kafka usw. unterstützt. Im Falle eines externen Katalogs werden die Metadaten aus der externen Quelle synchronisiert, und Benutzer können die Daten in einer externen Quelle mit dem 3-teiligen Namen wie catalog_name.schema_name.table_name abfragen. Im Falle eines externen Katalogs wird der Metadatenlebenszyklus von der externen Quelle verwaltet, und der Masterkatalog speichert eine Kopie der Metadaten.

Anwendungsfälle für den Hauptkatalog

Stammkataloge können genutzt werden, um die Datenvorbereitung und -analyse zu unterstützen, unstrukturierte Daten zu speichern und vieles mehr.

Daten mit SQL-Syntax abfragen und analysieren

Erstellen Sie verwaltete oder externe Tabellen in einem Standardkatalog, um Daten mit vertrauter SQL-ähnlicher Syntax abzufragen und zu analysieren. So können Sie die in AI Data Platform gespeicherten Daten leichter untersuchen und verstehen.

Datenvorbereitung

Nutzen Sie das strukturierte Format von Daten, die in verwalteten/externen Tabellen gespeichert sind, für die Vorbereitung von Daten für Modelle des maschinellen Lernens. So können Sie Daten einfacher bereinigen, transformieren und Feature Engineers erstellen. Dies erleichtert den effizienten Datenzugriff und die effiziente Verarbeitung für Feature Engineering und Modelltraining

Reisezeit

Offene Tabellenformate unterstützen die Schemaentwicklung. Die Struktur der Daten kann sich im Laufe der Zeit ändern, ohne das gesamte Dataset neu zu schreiben. Diese Tabellen können versioniert werden, und Benutzer können Zeitreiseabfragen ausführen, mit denen Sie historische Versionen von Daten abfragen können. Dies erleichtert die retrospektive Analyse und die Datenwiederherstellung.

ACID-Transaktionsunterstützung

Offene Tabellenformate unterstützen vollständige CRUD-Vorgänge (Create, Read, Update, and Delete), die Datenkonsistenz gewährleisten und Datenaktualisierungen ermöglichen. Mithilfe von Tabellen können Transaktionsdaten gespeichert und verwaltet werden, sodass Anwendungen Änderungen an Daten verfolgen können.

Daten effizient lesen und schreiben

Tabellen in AI Data Platform Workbench können partitioniert werden, um einen effizienten Datenzugriff und eine effiziente Datenverarbeitung zu ermöglichen, insbesondere für große Datasets.

Unstrukturierte Daten speichern und verarbeiten

Erstellen Sie verwaltete oder externe Volumes zum Speichern unstrukturierter Daten, damit sie mit Apache Spark verarbeitet werden können.