Überblick über Data Catalog

Data Catalog ist ein Metadatenverwaltungsservice, mit dem Datenverbraucher Daten erkennen und die Governance im Oracle-Ökosystem verbessern können.

Mit OCI Data Catalog verfügen Datenanalysten, Data Scientists, Data Engineers und Data Stewards über eine einzige Selfserviceumgebung, um die in den Cloud-Quellen verfügbaren Daten zu ermitteln. Data Catalog unterstützt Datenanbieter bei der Erstellung eines Data Dictionarys, das aus technischen und geschäftlichen Metadaten besteht. Datenverbraucher können die Eignung von Daten für Analyse- und Data Science-Projekte einfach bewerten.

Data Catalog - Wichtige Funktionen

  • Führen Sie ein Harvesting für technische Metadaten aus zahlreichen unterstützten Datenquellen aus, die über öffentliche oder private IP-Adressen zugänglich sind.
  • Erstellen und verwalten Sie mit einem Geschäftsglossar ein gemeinsames Unternehmensvokabular. Erstellen Sie eine Hierarchie von Kategorien, Unterkategorien und Begriffen mit detaillierten Rich-Text-Beschreibungen.
  • Reichern Sie die durchgefassten technischen Metadaten mit Anmerkungen an, indem Sie Datenentitys und Attribute mit den Geschäftsbegriffen, benutzerdefinierten Eigenschaften oder benutzerdefinierten Tags verknüpfen.
  • Suchen Sie die erforderlichen Informationen, indem Sie die Datenassets explorieren, den Datenkatalog durchsuchen oder die Schnellsuche verwenden.
  • Automatisieren und verwalten Sie Harvesting-Jobs mit Ausführungsplänen.
  • Integrieren Sie die unternehmensgerechten Funktionen Ihres Datenkatalogs mithilfe von REST-APIs und SDKs mit anderen Anwendungen.
Tipp

Sehen Sie sich ein Einführungsvideo zum Service an.

Data Catalog-Konzepte

Die folgenden Konzepte sind für die Verwendung von Data Catalog von wesentlicher Bedeutung.

Datenasset
Hierbei handelt es sich um eine Datenquelle, beispielsweise eine Datenbank, ein Objektspeicher, ein Datei- oder Dokumentspeicher, eine Nachrichtenqueue oder eine Anwendung.
Verbindung
Enthält erforderliche Details zum Herstellen einer Verbindung mit einer Datenquelle. Eine Verbindung ist immer mit einem Datenasset verknüpft. Ein Datenasset kann mehrere Verbindungen aufweisen.
Verbindungstyp
Definiert die verschiedenen Eigenschaften, die in einer Verbindung verfügbar sind, um eine Verbindung zu einem Datenasset herzustellen.
Harvesting
Prozess, der technische Metadaten aus den verbundenen Datenquellen in das Data Catalog-Repository extrahiert.
Objekt
Ein Objekt in Data Catalog bezieht sich auf alle Objekte, die in Ihrem Datenkatalog verwaltet werden, wie Datenassets, Datenentitys, Attribute, Glossare und Begriffe.
Datenobjekt
Ein Datenobjekt in Data Catalog bezieht sich auf Datenassets und Datenentitys.
Datenentity
Eine Datenentity ist eine Sammlung von Daten, wie eine Datenbanktabelle oder -View oder eine einzelne logische Datei. In der Regel verfügt eine Datenentity über viele Attribute, die ihre Daten beschreiben.
Dateinamensmuster
Ein Dateinamensmuster ist ein regulärer Ausdruck, der erstellt wird, um mehrere Object Storage-Dateien in einer logischen Datenentity zu gruppieren.
Logische Datenentity
Eine logische Datenentity ist eine Gruppe von Objektspeicherdateien, die durch Erstellen und Zuweisen von Dateinamensmustern zu einem Datenasset abgeleitet werden.
Attribut
Ein Attribut beschreibt ein Datenelement mit einem Namen und Datentyp. Beispiel: Eine Spalte in einer Tabelle oder ein Feld in einer Datei.
Benutzerdefinierte Eigenschaft
Benutzerdefinierte Eigenschaften werden zum Anreichern von Datenkatalogobjekten mit Geschäftskontext erstellt.
Glossar
Bei einem Glossar handelt es sich um eine Sammlung von Geschäftskonzepten in Ihrem Unternehmen. Ein Glossar besteht aus Kategorien und Geschäftsbegriffen.
Kategorie
Eine Kategorie wird in einem Glossar erstellt, um logisch zusammengehörige Geschäftsbegriffe zu gruppieren. Sie können eine Kategorie innerhalb einer Kategorie erstellen, um Ihre Begriffe zu gruppieren.
Begriff
Begriffe sind die tatsächlichen Definitionen von Geschäftskonzepten, wie sie von verschiedenen geschäftlichen Stakeholdern in einem Unternehmen vereinbart wurden. Mit Begriffen können Sie Datenentitys und Attribute organisieren.
Data Catalog-Tag
Tags sind Freiformlabels oder Schlüsselwörter, die Sie zur logischen Identifizierung von Datenobjekten erstellen. Tags helfen bei der Metadatenklassifizierung und bei der Discovery. Sie erstellen Tags für Datenassets, Datenentitys und Attribute. Mit Tags können Sie nach allen Datenobjekten suchen, die mit einem bestimmten Tagnamen gekennzeichnet sind.
Job
Eine Aufgabe, die den Harvesting-Prozess ausführt. Ein Job kann sofort erstellt und ausgeführt, zur Ausführung mit einer bestimmten Häufigkeit geplant oder bei Bedarf erstellt und ausgeführt werden.
Ausführungsplan
Ein automatisierter Job, der stündlich, täglich, wöchentlich oder monatlich ausgeführt werden kann.

Möglichkeiten für den Zugriff auf Data Catalog

Greifen Sie über die Konsole, die REST-API, über SDKs oder die CLI auf Data Catalog zu.

Verwenden Sie je nach Präferenz und je nach der auszuführenden Aufgabe eine der folgenden Optionen:

  • Die Konsole ist eine benutzerfreundliche, browserbasierte Schnittstelle. Eine Liste der unterstützten Browser finden Sie unter Unterstützte Browser.

    Rufen Sie die Anmeldeseite über den Link Konsole oben auf dieser Seite auf. Sie werden aufgefordert, Ihren Cloud-Mandanten, Ihren Benutzernamen und Ihr Kennwort einzugeben.

    .
  • Die REST-APIs stellen die meisten Funktionen bereit, erfordern jedoch Programmierkenntnisse. API-Referenz und -Endpunkte stellen Endpunktdetails und Links zu den verfügbaren API-Referenzdokumenten bereit.
  • Oracle Cloud Infrastructure stellt SDKs bereit, die mit Data Catalog interagieren, ohne ein Framework erstellen zu müssen.
  • Die Befehlszeilenschnittstelle (CLI) bietet sowohl Schnellzugriff als auch vollständige Funktionen ohne Programmierung.

Ressourcen-IDs

Die Data Catalog-Ressource besitzt eine von Oracle zugewiesene eindeutige ID, die als Oracle Cloud ID (OCID) bezeichnet wird.

Regionen und Availability-Domains

Data Catalog ist in allen Regionen verfügbar, die in Regionen und Availability-Domains erwähnt werden. Regionen und Availability-Domains geben die physische und logische Organisation der Data Catalog-Ressourcen an. Eine Region ist ein bestimmter geografischer Bereich. Eine Availability-Domain umfasst mindestens ein Data Center innerhalb einer Region.

Limits und Quota

Servicelimits

Die Nutzung von Data Catalog ist auf zwei Data Catalog-Instanzen pro Region beschränkt.

Compartment Quotas

Sie können die Anzahl der Data Catalog-Ressourcen in einem Compartment begrenzen, indem Sie ein Quota-Limit erstellen. Beispiel:

set data-catalog quota catalog-count to 1 in compartment <MyCompartment>

Integrierte Services

Data Catalog ist in verschiedene Services und Features integriert.

IAM

Data Catalog kann mit IAM zur Authentifizierung und Autorisierung für alle Schnittstellen integriert werden (Konsole, SDK, CLI und REST-API).

Ein Administrator in Ihrem Unternehmen muss Gruppen, Compartments und Policys einrichten, die kontrollieren, wer mit welchem Zugriffstyp wer auf verschiedene Services und Ressourcen zugreifen kann. Die Policys steuern beispielsweise, wer neue Benutzer erstellen, das Cloud-Netzwerk erstellen und verwalten, Instanzen und Buckets erstellen und Objekte herunterladen kann.

Wenn Sie ein regulärer Benutzer (kein Administrator) sind und die Oracle Cloud Infrastructure-Ressourcen verwenden müssen, deren Eigentümer Ihr Unternehmen ist, bitten Sie den Administrator, eine Benutzer-ID für Sie einzurichten. Der Administrator kann die Compartments bestätigen, die Sie verwenden können.

Zur Autorisierung von Data Catalog-Benutzern können allgemeine Policys erstellt werden. Sie können auch Data Catalog-Policys erstellen, um den Benutzerzugriff auf Data Catalog zu kontrollieren.

Arbeitsanforderungen

Data Catalog ist mit der allgemeinen Arbeitsanforderungs-API integriert. Siehe Data Catalog-Arbeitsanforderungen.

Events

Data Catalog ist mit dem Events-Service integriert. Siehe Data Catalog-Ereignisse

Suche

Mit Oracle Cloud Infrastructure Search können Sie Ressourcen in Ihrem Mandanten finden, ohne dass Sie durch verschiedene Services und Compartments navigieren müssen. Sie können in Ihren Suchabfragen nach dem Ressourcentyp datacatalog suchen.

Mandanten-Explorer

Mit dem Mandanten-Explorer können Sie regionsübergreifend alle Ressourcen in einem bestimmten Compartment anzeigen. Der Mandanten-Explorer wird vom Search-Service bereitgestellt und unterstützt den Data Catalog-Ressourcentyp datacatalog.

Monitoring

Mit Oracle Cloud Infrastructure Monitoring können Sie Ihre Data Catalog-Ressourcen mit den Features "Metriken" und "Alarme" aktiv und passiv überwachen.

Mit Data Catalog-Metriken können Sie Folgendes messen:

  • Anzahl der in der Datenkataloginstanz gespeicherten Objekte
  • Anzahl der durch Harvesting erstellten Objekte
  • Für das Harvesting der Objekte benötigte Zeit
  • Die beim Harvesting aufgetretenen Fehler