Überblick über Data Integration
Administratoren, Data Engineers, ETL-Entwickler und Operatoren gehören zu den verschiedenen Typen von Datenexperten, die Oracle Cloud Infrastructure Data Integration verwenden.
Sie können eine oder mehrere der folgenden Rollen ausführen:
- Administratoren: Verwalten und überwachen die Lebenszyklusmanagement- und Sicherheits-Policys für den Service.
- Data Engineers und ETL-Entwickler: Entwickeln, erstellen und testen Datenintegrationslösungen.
- Operatoren: Verwalten, überwachen und diagnostizieren die Ausführung der Datenintegration.
Service
Bevor Sie beginnen, muss der Administrator die Verbindungsanforderungen erfüllen, damit der Data Integration-Service eine Verbindung zu Datenquellen herstellen kann. Der Administrator erstellt dann Workspaces und erteilt Ihnen Zugriff darauf. Mit Workspaces können Sie Ressourcen organisieren und verschiedene Datenintegrationsumgebungen ganz einfach verwalten.
Für jede Datenintegrationslösung registrieren Sie Datenassets , um die zu verwendenden Quell- und Zieldatenquellen zu identifizieren. Wenn Sie mit dem Entwerfen einer Datenintegrationslösung beginnen möchten, erhalten Sie Integrations- und Data-Loader-Aufgaben in Data Integration.
Um eine Integrationsaufgabe zu erstellen, beginnen Sie mit einem Datenfluss. Der Designer in Data Integration ist eine benutzerfreundliche grafische Benutzeroberfläche, auf der Sie aus verschiedenen Operatoren auswählen und den Datenfluss visuell erstellen können. Er umfasst Validierungs- und Debug-Features, mit denen Sie potenzielle Probleme identifizieren und beheben können, bevor Sie die Aufgabe ausführen.
Wenn Sie eine Data-Loader-Aufgabe erstellen, geben Sie das Quelldatenasset an. Anschließend konfigurieren Sie Transformationen, um die Daten beim Laden in das Zieldatenasset zu löschen und zu verarbeiten.
Um ein bestimmtes Set von Prozessen in einer Sequenz oder parallel von Anfang bis Ende auszuführen, erstellen Sie eine Pipeline. Das Entwerfen einer Pipeline ähnelt dem Erstellen eines Datenflusses, in dem Sie Operatoren zum Hinzufügen der gewünschten Aufgaben und Aktivitäten verwenden. Nachdem Sie eine Pipeline erstellt haben, erstellen Sie eine Pipelineaufgabe, die die Pipeline verwendet.
Nachdem Sie Aufgaben erstellt haben, veröffentlichen Sie sie in der Standardanwendung in Data Integration oder in einer von Ihnen erstellten Anwendung . In einer Anwendung führen Sie Aufgaben aus und überwachen deren Fortschritt und Status. Sie können auch Aufgaben für automatisierte Ausführungen planen.
Data Integration-Konzepte
In der folgenden Liste sind Konzepte aufgeführt, die bei der Verwendung des Data Integration-Service hilfreich sind:
- Workspace
- Der Container für alle Data Integration-Ressourcen, wie Projekte, Ordner, Datenassets, Aufgaben, Datenflüsse, Pipelines, Anwendungen und Pläne, die mit einer Datenintegrationslösung verknüpft sind.
- Projekt
- Ein Container für Entwurfszeitressourcen, wie Aufgaben oder Datenströme und Pipelines.
- Ordner
- Ein Container in einem Projekt oder einem anderen Ordner, in dem Sie Entwurfszeitressourcen organisieren können.
- Datenasset
- Stellt eine Datenquelle dar, z.B. eine Datenbank, einen Objektspeicher oder einen Datei- oder Dokumentspeicher mit den Metadaten und Verbindungsdetails der Datenquelle.
- Verbindung
- Enthält die erforderlichen Details zum Herstellen einer Verbindung zu einer Datenquelle. Eine Verbindung ist immer mit einem Data Asset verknüpft. Ein Datenasset kann mehrere Verbindungen aufweisen.
- Datenentity
- Eine Sammlung von Daten, wie eine Datenbanktabelle oder -View oder eine einzelne logische Datei, die zahlreiche Attribute enthält, die die zugehörigen Daten beschreiben.
- Schema
- Eine Sammlung von Datenentitys innerhalb eines Datenassets.
- Datenfluss
- Eine Entwurfszeitressource, die den Datenfluss und alle Vorgänge an den Daten zwischen Quell- und Zielsystem definiert. Um einen Datenfluss auszuführen, fügen Sie ihn einer Integrationsaufgabe hinzu.
- Pipeline
- Eine Entwurfszeitressource zur Orchestrierung von Aufgaben und Aktivitäten, die nacheinander oder parallel ausgeführt werden, um einen Prozess von Anfang bis Ende zu vereinfachen. Um eine Pipeline auszuführen, fügen Sie die Pipeline einer Pipelineaufgabe hinzu.
- Operator
- Ein Operator stellt eine Eingabequelle, ein Ausgabeziel oder eine Transformation in einem Datenfluss dar. In einer Pipeline stellt ein Operator eine Entwurfszeit- oder veröffentlichte Aufgabe oder eine Aktivität wie Zusammenführung, Entscheidung und Ende dar.
- Parameter
- Ein Variablentyp, den Sie den Details eines Operators zuweisen können, damit Sie das Design des Datenflusses oder der Pipeline mit verschiedenen Ressourcen und Werten wiederverwenden können. Wenn Sie Parameter verwenden und Standardwerte während der Entwurfszeit festlegen, können Sie die Werte später entweder in Aufgaben ändern, die den Datenfluss oder die Pipeline wrappen, oder wenn Sie die Aufgaben ausführen.
- Aufgabe
- Eine Entwurfszeitressource, die ein Set von Aktionen angibt, die für Daten ausgeführt werden sollen. Sie können Data-Loader-Aufgaben, Integrationsaufgaben für Datenflüsse und Pipelineaufgaben für Pipelines erstellen. Außerdem können Sie SQL-Aufgaben und OCI Data Flow-Aufgaben erstellen. Um eine Aufgabe auszuführen, veröffentlichen Sie die Aufgabe in einer Anwendung, um sie zu testen oder in der Produktion verfügbar zu machen.
- Anwendung
- Ein Container für Laufzeitartefakte, beispielsweise Aufgaben, die zusammen mit den zugehörigen Abhängigkeiten veröffentlicht wurden. Sie verwenden Anwendungen zum Testen und machen sie schließlich in der Produktionsumgebung verfügbar.
- Patch
- Eine Aktualisierung für eine Anwendung. Wenn Sie eine einzelne Aufgabe, eine Aufgabengruppe oder die Veröffentlichung einer Aufgabe aufheben, werden diese Aktivitäten als Patches in einer Anwendung protokolliert. Wenn Sie eine Anwendung (Ziel) erstellen, indem Sie vorhandene Ressourcen in einer anderen Anwendung (Quelle) kopieren, wird der Anwendung (Ziel) ein Patch hinzugefügt. Bei nachfolgenden Aktualisierungen der Zielanwendung durch Synchronisierung mit Änderungen aus der Quellanwendung wird ebenfalls ein Patch in der Anwendung (Ziel) erstellt.
- Ausführung
- Ein Laufzeitartefakt, das die Ausführung einer Aufgabe darstellt.
- Zeitplan
- Eine Laufzeitressource, die definiert, wann und wie oft veröffentlichte Aufgaben automatisch ausgeführt werden.
- Aufgabenplan
- Eine Laufzeitressource, die einer bestimmten veröffentlichten Aufgabe und einem vorhandenen Zeitplan zugeordnet ist, um zu definieren, wann und wie oft die Aufgabe automatisch ausgeführt wird.
Referenzarchitekturen
Erfahren Sie mehr über die Referenzarchitekturen, die Ihnen bei der Verwendung von Oracle Cloud Infrastructure Data Integration helfen.
Referenzarchitekturen sind Architekturen, Konfigurationen und Best Practices für das Deployment in Oracle Cloud Infrastructure. Sie sind im Oracle Architecture Center verfügbar.
Geben Sie auf der Hauptseite von Architecture Center OCI Data Integration
in das Suchfeld ein, und drücken Sie die Eingabetaste.
Im Folgenden finden Sie einige Beispiele für Referenzarchitekturen:
Möglichkeiten für den Zugriff auf Oracle Cloud Infrastructure
Sie können über die Konsole (eine browserbasierte Schnittstelle) oder die REST API auf Oracle Cloud Infrastructure zugreifen.
Anweisungen zur Konsole und zur Data Integration-API sind in den Themen dieser Dokumentation enthalten. Eine Liste der verfügbaren SDKs finden Sie unter SDKs und die CLI (Software Development Kits und Befehlszeilenschnittstelle).
Um auf die Konsole zuzugreifen, müssen Sie einen unterstützten Browser verwenden. Siehe Unterstützte Browser. Über das Navigationsmenü am Anfang dieser Hilfe können Sie mit dem Link Oracle Cloud-Konsole zur Anmeldeseite wechseln. Sie werden aufgefordert, einen Cloud-Accountnamen oder Mandanten einzugeben. Wenn Sie zur Eingabe einer Identitätsdomain aufgefordert werden, belassen Sie diese in den meisten Fällen unter Standard, und geben Sie einen Benutzernamen und ein Kennwort ein.
Ressourcen-IDs
Die meisten Oracle Cloud Infrastructure-Ressourcentypen verfügen über eine eindeutige, von Oracle zugewiesene ID, die als Oracle Cloud-ID (OCID) bezeichnet wird.
Informationen zum OCID-Format und zu weiteren Möglichkeiten zur Identifizierung Ihrer Ressourcen finden Sie unter Ressourcen-IDs.
Servicelimits und Quotas
Servicelimits
Die Nutzung von Data Integration ist auf fünf Workspaces pro Region begrenzt.
Compartment Quotas
Sie können die Anzahl der Workspace-Ressourcen in einem Compartment begrenzen, indem Sie einen Quota-Grenzwert erstellen. Beispiel:
set data-integration quota dis-workspace-count to 3 in compartment <compartment_name>
Aufbewahrungsfrist
Data Integration behält gelöschte und nicht erfolgreiche Workspaces 15 Tage lang bei. Nach 15 Tagen werden die Workspaces dauerhaft entfernt.
Integrierte Services
Data Integration ist in verschiedene Oracle Cloud Infrastructure-Services und -Features integriert.
Data Integration kann mit dem Service OCI IAM mit Identitätsdomains zur Authentifizierung und Autorisierung für alle Schnittstellen integriert werden (Konsole, SDK, CLI und REST-API).
Ein Administrator richtet Gruppen, Compartments und Policys ein. Policys steuern, wer Benutzer erstellen, das Cloud-Netzwerk erstellen und verwalten, Instanzen starten, Buckets erstellen, Objekte herunterladen kann usw.
Wenn Sie ein regulärer Benutzer sind, also kein Administrator, der Oracle Cloud Infrastructure-Ressourcen verwenden muss, deren Eigentümer das Unternehmen ist, muss der Administrator eine Benutzer-ID für Sie einrichten. Der Administrator kann festlegen, welche Compartments Sie verwenden können.
Der Administrator kann allgemeine Policys zur Autorisierung von Data Integration-Benutzer erstellen. Sie können auch Datenintegrations-Policys erstellen, um den Benutzerzugriff auf den Data Integration-Service zu kontrollieren.
Data Integration ist nicht in die allgemeine Arbeitsanforderungs-API integriert. Data Integration verwendet eine eigene API für Arbeitsanforderungen. Siehe Referenz zu WorkRequest.
Mit dem Mandanten-Explorer können Sie regionsübergreifend alle Ressourcen in einem bestimmten Compartment anzeigen. Der Mandanten-Explorer wird vom Search-Service bereitgestellt und unterstützt den Data Integration-Ressourcentyp workspace
.
Mit Oracle Cloud Infrastructure Monitoring können Sie Data Integration-Ressourcen aktiv und passiv mit Metriken und Alarmen überwachen. Data Integration-Metriken erfassen die Anzahl der gelesenen Byte, der geschriebene Byte, der aktiven Aufgabenausführungen, der erfolgreichen Aufgabenausführungen und der nicht erfolgreichen Aufgabenausführungen.
Datensicherheit
Neben der Kontrolle und Transparenz, die Sie im Rahmen der Oracle Cloud Infrastructure-Sicherheit erhalten, werden die Daten im Data Integration-Service auch mit Sorgfalt behandelt.
Die Kundenisolation in Oracle Cloud Infrastructure stellt sicher, dass jeder von Ihnen erstellte Data Integration-Workspace eine eigene reservierte Compute-Instanz erhält. Ein Workspace ist von anderen Workspaces innerhalb eines Mandanten und von anderen Mandanten isoliert. In Data Integration werden über die Aufgabenausführungen hinaus keine Daten in dieser Compute-Instanz gespeichert, damit die Sicherheit der Daten gewährleistet ist.
Data Integration verwendet den Vault-Service von Oracle Cloud Infrastructure, um sensible Informationen wie Kennwörter, Wallet-Dateien für Datenassets und Verbindungsinformationen zu speichern und als Geheimnisse zu verschlüsseln. Bei Bedarf wird in Echtzeit auf Schemas und Datenentitys zugegriffen. Wenn ein Datensampling in die Registerkarte "Daten" für einen Datenfluss oder zur Konfiguration von Transformationen in der Data-Loader-Aufgabe geladen wird, werden die Daten aus der Datenentity in Echtzeit geladen.
Weisen Sie Accounts, die für dataintegration
verwendet werden, nur die erforderlichen Berechtigungen zu. Beispiel: Data Integration benötigt nur Lesezugriff, um Daten aus Datenassets aufzunehmen.
Weitere Informationen:
- Oracle Cloud Infrastructure - Sicherheitsdokumentation
- Vault- und Secret-Konzeptbeschreibungen in Oracle Cloud Infrastructure Vault
- Data Integration sichern
- Data Integration-Policys
Typische Data Integration-Benutzeraktivitäten
Im Folgenden sind einige Aktivitäten aufgeführt, die Sie als Data Integration-Benutzer wahrscheinlich ausführen.
Aktivität | Beschreibung |
---|---|
Auf Workspaces zugreifen oder sie erstellen | Auf die Data Integration-Projekte und deren Ressourcen (Datenassets, Datenflüsse, Aufgaben usw.) zugreifen oder einen Arbeitsbereich erstellen |
Datenasset erstellen | Registrieren Sie die Datenquellen, mit denen Sie arbeiten, als Data Integration-Datenassets |
Verbindung erstellen | Datenassets neue Verbindungen hinzufügen |
Projekte und Ordner verwenden |
Projekte und Ordner erstellen, um Entwurfszeitartefakte zu organisieren Erstellen Sie ein Projekt, indem Sie ein vorhandenes Projekt kopieren |
Datenflüsse erstellen | Design eines Datenflusses erstellen |
Pipeline erstellen | Design einer Pipeline erstellen |
Integrationsaufgabe erstellen (für einen Datenfluss) OCI Data Flow-Aufgabe erstellen Pipelineaufgabe erstellen (für eine Pipeline) |
Aufgaben erstellen |
Anwendungen erstellen |
Erstellen Sie eine Anwendung zum Ausführen und Planen von Aufgaben:
|
Designaufgaben veröffentlichen | Aufgaben für Tests und zur Ausführung in Anwendungen veröffentlichen |
Aufgaben ausführen und deren Fortschritt überwachen | |
Veröffentlichte Aufgaben planen | Zeitplan und Aufgabenpläne zur Automatisierung von Ausführungen erstellen |
Workspace überwachen | Workspace überwachen |
Seite "Data Integration - Überblick" der Konsole verwenden
Wenn Sie in der Konsole auf Data Integration zugreifen und auf Überblick klicken, wird die Seite Überblick für Data Integration angezeigt.
Die Seite Überblick enthält Informationen zu Features, Links zu den ersten Schritten mit dem Service und Ressourcen für die effiziente Verwendung von Data Integration.
Data Integration-Lernressourcen
Mit den folgenden Ressourcen erhalten Sie Informationen zu Oracle Cloud Infrastructure Data Integration.