Überblick über Data Integration

Administratoren, Data Engineers, ETL-Entwickler und Operatoren gehören zu den verschiedenen Typen von Datenexperten, die Oracle Cloud Infrastructure Data Integration verwenden.

Sie können eine oder mehrere der folgenden Rollen ausführen:

  • Administratoren: Verwalten und überwachen die Lebenszyklusmanagement- und Sicherheits-Policys für den Service.
  • Data Engineers und ETL-Entwickler: Entwickeln, erstellen und testen Datenintegrationslösungen.
  • Operatoren: Verwalten, überwachen und diagnostizieren die Ausführung der Datenintegration.
Tipp

Sehen Sie sich ein Einführungsvideo zum Service an.

Service

Bevor Sie beginnen, muss der Administrator die Verbindungsanforderungen erfüllen, damit der Data Integration-Service eine Verbindung zu Datenquellen herstellen kann. Der Administrator erstellt dann Workspaces  und erteilt Ihnen Zugriff darauf. Mit Workspaces können Sie Ressourcen organisieren und verschiedene Datenintegrationsumgebungen ganz einfach verwalten.

Für jede Datenintegrationslösung registrieren Sie Datenassets , um die zu verwendenden Quell- und Zieldatenquellen zu identifizieren. Wenn Sie mit dem Entwerfen einer Datenintegrationslösung beginnen möchten, erhalten Sie Integrations- und Data-Loader-Aufgaben in Data Integration.

Um eine Integrationsaufgabe zu erstellen, beginnen Sie mit einem Datenfluss. Der Designer in Data Integration ist eine benutzerfreundliche grafische Benutzeroberfläche, auf der Sie aus verschiedenen Operatoren auswählen und den Datenfluss visuell erstellen können. Er umfasst Validierungs- und Debug-Features, mit denen Sie potenzielle Probleme identifizieren und beheben können, bevor Sie die Aufgabe ausführen.

Wenn Sie eine Data-Loader-Aufgabe erstellen, geben Sie das Quelldatenasset an. Anschließend konfigurieren Sie Transformationen, um die Daten beim Laden in das Zieldatenasset zu löschen und zu verarbeiten.

Um ein bestimmtes Set von Prozessen in einer Sequenz oder parallel von Anfang bis Ende auszuführen, erstellen Sie eine Pipeline. Das Entwerfen einer Pipeline ähnelt dem Erstellen eines Datenflusses, in dem Sie Operatoren zum Hinzufügen der gewünschten Aufgaben und Aktivitäten verwenden. Nachdem Sie eine Pipeline erstellt haben, erstellen Sie eine Pipelineaufgabe, die die Pipeline verwendet.

Nachdem Sie Aufgaben erstellt haben, veröffentlichen Sie sie in der Standardanwendung in Data Integration oder in einer von Ihnen erstellten Anwendung . In einer Anwendung führen Sie Aufgaben aus und überwachen deren Fortschritt und Status. Sie können auch Aufgaben für automatisierte Ausführungen planen.

Data Integration-Konzepte

In der folgenden Liste sind Konzepte aufgeführt, die bei der Verwendung des Data Integration-Service hilfreich sind:

Workspace
Der Container für alle Data Integration-Ressourcen, wie Projekte, Ordner, Datenassets, Aufgaben, Datenflüsse, Pipelines, Anwendungen und Pläne, die mit einer Datenintegrationslösung verknüpft sind.
Projekt
Ein Container für Entwurfszeitressourcen, wie Aufgaben oder Datenströme und Pipelines.
Ordner
Ein Container in einem Projekt oder einem anderen Ordner, in dem Sie Entwurfszeitressourcen organisieren können.
Datenasset
Stellt eine Datenquelle dar, z.B. eine Datenbank, einen Objektspeicher oder einen Datei- oder Dokumentspeicher mit den Metadaten und Verbindungsdetails der Datenquelle.
Verbindung
Enthält die erforderlichen Details zum Herstellen einer Verbindung zu einer Datenquelle. Eine Verbindung ist immer mit einem Data Asset verknüpft. Ein Datenasset kann mehrere Verbindungen aufweisen.
Datenentity
Eine Sammlung von Daten, wie eine Datenbanktabelle oder -View oder eine einzelne logische Datei, die zahlreiche Attribute enthält, die die zugehörigen Daten beschreiben.
Schema
Eine Sammlung von Datenentitys innerhalb eines Datenassets.
Datenfluss
Eine Entwurfszeitressource, die den Datenfluss und alle Vorgänge an den Daten zwischen Quell- und Zielsystem definiert. Um einen Datenfluss auszuführen, fügen Sie ihn einer Integrationsaufgabe hinzu.
Pipeline
Eine Entwurfszeitressource zur Orchestrierung von Aufgaben und Aktivitäten, die nacheinander oder parallel ausgeführt werden, um einen Prozess von Anfang bis Ende zu vereinfachen. Um eine Pipeline auszuführen, fügen Sie die Pipeline einer Pipelineaufgabe hinzu.
Operator
Ein Operator stellt eine Eingabequelle, ein Ausgabeziel oder eine Transformation in einem Datenfluss dar. In einer Pipeline stellt ein Operator eine Entwurfszeit- oder veröffentlichte Aufgabe oder eine Aktivität wie Zusammenführung, Entscheidung und Ende dar.
Parameter
Ein Variablentyp, den Sie den Details eines Operators zuweisen können, damit Sie das Design des Datenflusses oder der Pipeline mit verschiedenen Ressourcen und Werten wiederverwenden können. Wenn Sie Parameter verwenden und Standardwerte während der Entwurfszeit festlegen, können Sie die Werte später entweder in Aufgaben ändern, die den Datenfluss oder die Pipeline wrappen, oder wenn Sie die Aufgaben ausführen.
Aufgabe
Eine Entwurfszeitressource, die ein Set von Aktionen angibt, die für Daten ausgeführt werden sollen. Sie können Data-Loader-Aufgaben, Integrationsaufgaben für Datenflüsse und Pipelineaufgaben für Pipelines erstellen. Außerdem können Sie SQL-Aufgaben und OCI Data Flow-Aufgaben erstellen. Um eine Aufgabe auszuführen, veröffentlichen Sie die Aufgabe in einer Anwendung, um sie zu testen oder in der Produktion verfügbar zu machen.
Anwendung
Ein Container für Laufzeitartefakte, beispielsweise Aufgaben, die zusammen mit den zugehörigen Abhängigkeiten veröffentlicht wurden. Sie verwenden Anwendungen zum Testen und machen sie schließlich in der Produktionsumgebung verfügbar.
Patch
Eine Aktualisierung für eine Anwendung. Wenn Sie eine einzelne Aufgabe, eine Aufgabengruppe oder die Veröffentlichung einer Aufgabe aufheben, werden diese Aktivitäten als Patches in einer Anwendung protokolliert. Wenn Sie eine Anwendung (Ziel) erstellen, indem Sie vorhandene Ressourcen in einer anderen Anwendung (Quelle) kopieren, wird der Anwendung (Ziel) ein Patch hinzugefügt. Bei nachfolgenden Aktualisierungen der Zielanwendung durch Synchronisierung mit Änderungen aus der Quellanwendung wird ebenfalls ein Patch in der Anwendung (Ziel) erstellt.
Ausführung
Ein Laufzeitartefakt, das die Ausführung einer Aufgabe darstellt.
Zeitplan
Eine Laufzeitressource, die definiert, wann und wie oft veröffentlichte Aufgaben automatisch ausgeführt werden.
Aufgabenplan
Eine Laufzeitressource, die einer bestimmten veröffentlichten Aufgabe und einem vorhandenen Zeitplan zugeordnet ist, um zu definieren, wann und wie oft die Aufgabe automatisch ausgeführt wird.

Referenzarchitekturen

Erfahren Sie mehr über die Referenzarchitekturen, die Ihnen bei der Verwendung von Oracle Cloud Infrastructure Data Integration helfen.

Referenzarchitekturen sind Architekturen, Konfigurationen und Best Practices für das Deployment in Oracle Cloud Infrastructure. Sie sind im Oracle Architecture Center verfügbar.

Geben Sie auf der Hauptseite von Architecture Center OCI Data Integration in das Suchfeld ein, und drücken Sie die Eingabetaste.

Im Folgenden finden Sie einige Beispiele für Referenzarchitekturen:

Möglichkeiten für den Zugriff auf Oracle Cloud Infrastructure

Sie können über die Konsole (eine browserbasierte Schnittstelle) oder die REST API auf Oracle Cloud Infrastructure zugreifen.

Anweisungen zur Konsole und zur Data Integration-API sind in den Themen dieser Dokumentation enthalten. Eine Liste der verfügbaren SDKs finden Sie unter SDKs und die CLI (Software Development Kits und Befehlszeilenschnittstelle).

Um auf die Konsole zuzugreifen, müssen Sie einen unterstützten Browser verwenden. Siehe Unterstützte Browser. Über das Navigationsmenü am Anfang dieser Hilfe können Sie mit dem Link Oracle Cloud-Konsole zur Anmeldeseite wechseln. Sie werden aufgefordert, einen Cloud-Accountnamen oder Mandanten einzugeben. Wenn Sie zur Eingabe einer Identitätsdomain aufgefordert werden, belassen Sie diese in den meisten Fällen unter Standard, und geben Sie einen Benutzernamen und ein Kennwort ein.

Ressourcen-IDs

Die meisten Oracle Cloud Infrastructure-Ressourcentypen verfügen über eine eindeutige, von Oracle zugewiesene ID, die als Oracle Cloud-ID (OCID) bezeichnet wird.

Informationen zum OCID-Format und zu weiteren Möglichkeiten zur Identifizierung Ihrer Ressourcen finden Sie unter Ressourcen-IDs.

Servicelimits und Quotas

Servicelimits

Die Nutzung von Data Integration ist auf fünf Workspaces pro Region begrenzt.

Compartment Quotas

Sie können die Anzahl der Workspace-Ressourcen in einem Compartment begrenzen, indem Sie einen Quota-Grenzwert erstellen. Beispiel:

set data-integration quota dis-workspace-count to 3 in compartment <compartment_name>

Aufbewahrungsfrist

Data Integration behält gelöschte und nicht erfolgreiche Workspaces 15 Tage lang bei. Nach 15 Tagen werden die Workspaces dauerhaft entfernt.

Integrierte Services

Data Integration ist in verschiedene Oracle Cloud Infrastructure-Services und -Features integriert.

Identity and Access Management (IAM)

Data Integration kann mit dem Service OCI IAM mit Identitätsdomains zur Authentifizierung und Autorisierung für alle Schnittstellen integriert werden (Konsole, SDK, CLI und REST-API).

Ein Administrator richtet Gruppen, Compartments und Policys ein. Policys steuern, wer Benutzer erstellen, das Cloud-Netzwerk erstellen und verwalten, Instanzen starten, Buckets erstellen, Objekte herunterladen kann usw.

Wenn Sie ein regulärer Benutzer sind, also kein Administrator, der Oracle Cloud Infrastructure-Ressourcen verwenden muss, deren Eigentümer das Unternehmen ist, muss der Administrator eine Benutzer-ID für Sie einrichten. Der Administrator kann festlegen, welche Compartments Sie verwenden können.

Der Administrator kann allgemeine Policys zur Autorisierung von Data Integration-Benutzer erstellen. Sie können auch Datenintegrations-Policys erstellen, um den Benutzerzugriff auf den Data Integration-Service zu kontrollieren.

Arbeitsanforderungen

Data Integration ist nicht in die allgemeine Arbeitsanforderungs-API integriert. Data Integration verwendet eine eigene API für Arbeitsanforderungen. Siehe Referenz zu WorkRequest.

Mandanten-Explorer

Mit dem Mandanten-Explorer können Sie regionsübergreifend alle Ressourcen in einem bestimmten Compartment anzeigen. Der Mandanten-Explorer wird vom Search-Service bereitgestellt und unterstützt den Data Integration-Ressourcentyp workspace.

Monitoring

Mit Oracle Cloud Infrastructure Monitoring können Sie Data Integration-Ressourcen aktiv und passiv mit Metriken und Alarmen überwachen. Data Integration-Metriken erfassen die Anzahl der gelesenen Byte, der geschriebene Byte, der aktiven Aufgabenausführungen, der erfolgreichen Aufgabenausführungen und der nicht erfolgreichen Aufgabenausführungen.

Datensicherheit

Neben der Kontrolle und Transparenz, die Sie im Rahmen der Oracle Cloud Infrastructure-Sicherheit erhalten, werden die Daten im Data Integration-Service auch mit Sorgfalt behandelt.

Die Kundenisolation in Oracle Cloud Infrastructure stellt sicher, dass jeder von Ihnen erstellte Data Integration-Workspace eine eigene reservierte Compute-Instanz erhält. Ein Workspace ist von anderen Workspaces innerhalb eines Mandanten und von anderen Mandanten isoliert. In Data Integration werden über die Aufgabenausführungen hinaus keine Daten in dieser Compute-Instanz gespeichert, damit die Sicherheit der Daten gewährleistet ist.

Data Integration verwendet den Vault-Service von Oracle Cloud Infrastructure, um sensible Informationen wie Kennwörter, Wallet-Dateien für Datenassets und Verbindungsinformationen zu speichern und als Geheimnisse zu verschlüsseln. Bei Bedarf wird in Echtzeit auf Schemas und Datenentitys zugegriffen. Wenn ein Datensampling in die Registerkarte "Daten" für einen Datenfluss oder zur Konfiguration von Transformationen in der Data-Loader-Aufgabe geladen wird, werden die Daten aus der Datenentity in Echtzeit geladen.

Weisen Sie Accounts, die für dataintegration verwendet werden, nur die erforderlichen Berechtigungen zu. Beispiel: Data Integration benötigt nur Lesezugriff, um Daten aus Datenassets aufzunehmen.

Weitere Informationen:

Typische Data Integration-Benutzeraktivitäten

Im Folgenden sind einige Aktivitäten aufgeführt, die Sie als Data Integration-Benutzer wahrscheinlich ausführen.

Aktivität Beschreibung
Auf Workspaces zugreifen oder sie erstellen Auf die Data Integration-Projekte und deren Ressourcen (Datenassets, Datenflüsse, Aufgaben usw.) zugreifen oder einen Arbeitsbereich erstellen
Datenasset erstellen Registrieren Sie die Datenquellen, mit denen Sie arbeiten, als Data Integration-Datenassets
Verbindung erstellen Datenassets neue Verbindungen hinzufügen
Projekte und Ordner verwenden

Projekte und Ordner erstellen, um Entwurfszeitartefakte zu organisieren

Erstellen Sie ein Projekt, indem Sie ein vorhandenes Projekt kopieren

Datenflüsse erstellen Design eines Datenflusses erstellen
Pipeline erstellen Design einer Pipeline erstellen

Integrationsaufgabe erstellen (für einen Datenfluss)

Data-Loader-Aufgabe erstellen

SQL-Aufgabe erstellen

OCI Data Flow-Aufgabe erstellen

REST-Aufgabe erstellen

Pipelineaufgabe erstellen (für eine Pipeline)

Aufgaben erstellen
Anwendungen erstellen

Erstellen Sie eine Anwendung zum Ausführen und Planen von Aufgaben:

  • Leere Anwendung erstellen (ohne vordefinierte Beispielaufgaben)
  • Anwendung mit einer Vorlage erstellen
  • Anwendung durch Kopieren aus einer vorhandenen Anwendung erstellen
Designaufgaben veröffentlichen Aufgaben für Tests und zur Ausführung in Anwendungen veröffentlichen

Aufgabe ausführen

Aufgabenausführungen anzeigen

Anwendung überwachen

Aufgaben ausführen und deren Fortschritt überwachen
Veröffentlichte Aufgaben planenZeitplan und Aufgabenpläne zur Automatisierung von Ausführungen erstellen
Workspace überwachenWorkspace überwachen

Seite "Data Integration - Überblick" der Konsole verwenden

Wenn Sie in der Konsole auf Data Integration zugreifen und auf Überblick klicken, wird die Seite Überblick für Data Integration angezeigt.

Die Seite Überblick enthält Informationen zu Features, Links zu den ersten Schritten mit dem Service und Ressourcen für die effiziente Verwendung von Data Integration.