Sichere OCI Data Integration-Umgebung mit vordefinierten Aufgaben aus Vorlagen erstellen

Erstellen Sie mit Oracle Cloud Infrastructure Data Integration (OCI Data Integration) Service sichere und skalierbare Datenverarbeitungsaufgaben aus externen Quellen in einem Oracle Autonomous Data Warehouse-Zieldatenspeicher.

In dieser Referenzarchitektur betrachten wir ein Szenario, in dem Ihre Geschäftsdaten auf On-Premise-Datenspeicher verteilt sind, während das Unternehmen bereits versucht hat, einige Anwendungen in die Cloud zu migrieren. OCI Data Integration kann jede Funktion, die bereits On Premise und in anderen Clouds vorhanden ist, erweitern und dabei die Netzwerk- und Datenspeicherkonnektivität in der OCI-Fabric sicher und skalierbar nutzen.

Architektur

Diese Architektur zeigt die verschiedenen Komponenten, die in das obige Szenario einbezogen werden können.

Bei einer Multi-Cloud-Strategie können Technologien und Datenservices in anderen Cloud-Providern vorkommen, für die OCI Architekturreferenzen für die Konnektivität zu anderen Cloud-Providern bereitstellt. On-Premise-Datenspeicher variieren für mehrere Technologien, von in Dateien gespeicherten Daten bis hin zu prozessgesteuerten Datensets in ERPs.

Das folgende Diagramm veranschaulicht die Referenzarchitektur und die Datenreise.



OCI Data-integration-flow-oracle.zip

Im Folgenden finden Sie die Schritte zum sicheren Erfassen, Verarbeiten und Anreichern von Daten, um zu einer Gruppe von Zielinformationen zu werden, die in der Downstream-Datenbank oder im Lakehouse gespeichert sind.

  1. Über Oracle Cloud Infrastructure FastConnect oder Site-to-Site-VPN können On-Premise-Datenquellen mit OCI Data Integration Data Assets-Connectors aufgenommen werden.
  2. Ebenso können Datenquellen verwendet werden, die von den OCI Data Integration Data Assets-Connectors erreicht werden können, um Datasets in den anderen Clouds abzurufen (z.B. benutzerdefinierte Anwendungen, Nicht-Oracle-Anwendungen, Oracle-Datenbanken, die in Clouds von Drittanbietern, Oracle Fusion SaaS, Cloud-Services von Drittanbietern und Anwendungen ausgeführt werden). Daten können auch beim globalen Laden von Dateien in Oracle Cloud Infrastructure Object Storage-Buckets hochgeladen werden, wenn ein OCI Data Integration Data Asset-Connector nicht direkt darauf zugreifen kann.

    Oracle hat spezifische Cloud-Konnektivitätslösungen für andere Cloud-Provider wie Microsoft Azure, Amazon Web Services und Google Cloud Platform entwickelt. Da keine vertikale Cloud-Interoperabilität vorhanden ist, kann die Konnektivität zu Services oder Anwendungen sicher über ein NAT-Gateway hergestellt werden, sodass nur ausgehender Datenverkehr zum Internet zugelassen wird. OCI verringert die Datenexposition im Internet, indem End-to-End-Konnektivität zu den Endpunkten verschlüsselt wird. In der Aufnahme kann OCI Data Integration Pipelines jedoch andere Arten der Datenaufnahme orchestrieren, wie Datenstreaming in Echtzeit mit hohem Volumen und Replikationen von Datenquellen mit Oracle GoldenGate. Die Orchestrierungsfunktionen zum Aufrufen von REST-API-Aufrufen für OCI-Services können die Erkennung von Dateiänderungen in Buckets von OCI Object Storage und die Kombination mit Ereignissen und Integrationsfunktionen nutzen und Datenstreams mit Trickle Ingestion verknüpfen.

  3. Nachdem Daten in die OCI-Fabric aufgenommen wurden, werden sie in exklusiven virtuellen Cloud-Netzwerken (VCN) verarbeitet, die weiter vom Internetzugriff isoliert werden können. Datenintegrationsservices (OCI Data Integration) über Datenflüsse können mehrere Transformationen in einer codefreien Schnittstelle ausführen, Quell- und Zielentitys und den jeweiligen Transformationen zuordnen. Während Datentransformationen auftreten, übernehmen OCI Data Catalog-Services die Katalogisierung, um Herkunft bereitzustellen. Data-at-Rest in den Oracle Databases unterliegen möglicherweise den Bestimmungen für Datenschutz und Compliance. Oracle Data Safe wertet den Sicherheitsstatus der Datenbank aus, identifiziert und kategorisiert Risiken und maskiert Informationen, die als vertraulich betrachtet werden. Eine weitere Ressource für die Datensicherheit und Informationssicherheit, OCI Vault, bietet Services zum Speichern und Verwalten von Schlüsseln und Secrets, wie Accountinformationen und Kennwörter, zum Verschlüsseln und Vereinfachen des gesamten Prozesses zum Sichern von Daten.
  4. Während die OCI Data Integration-Pipelines und OCI Data Integration Dataflows die Anreicherung von Datenassets innerhalb fördern, können REST-Operatoren auch den Zugriff auf andere OCI-Services sichern. In dieser Kapazität kann die OCI Data Integration-Orchestrierung Notizbücher in Data Science für maschinelles Lernen aufrufen oder künstliche Intelligenz-Services abfragen, um die Daten mit Prognose- oder Anomalieerkennung zu erweitern. OCI Data Integration Orchestration kann Spark-Engines für das Bursting einer umfangreichen Datenverarbeitung mit OCI Data Flow mit derselben sicheren OCI-Fabric starten. Das gesamte Orchestrierungsmanagement, wie Monitoring, Logging und Notifications, wird über den genauen Mechanismus integriert.
  5. OCI Data Integration schreibt in jeden Oracle-Speicher in OCI oder On Premise sowie OCI Data Lake-Kombinationen und MySQL. Analytics nutzt die Zielspeicher sofort mit umfangreichen Ressourcen für Datenvisualisierung, Geschäftsmodellierung und pixelgenaue Berichterstellung.
  6. Consumer, Producer und Entwickler von Daten sind in feingranulierten Policys für die Daten- und Ressourcenzugriffskontrolle sicher organisiert.

Das folgende Architekturdiagramm führt einen weiteren Drilldown zur Implementierung durch, um eine vorgeschlagene Netzwerk-Subnetz-Trennung zu erstellen.



OCI-Datenintegration-arch-oracle.zip

OCI Data Integration-Services stellen Out-of-the-box-Konnektivität zu vielen Datenquellen bereit, und Microbatches können die Daten inkrementell in der OCI-Umgebung verarbeiten. Ebenso können andere OCI-Services aufgerufen werden, um die Datasets weiter zu erweitern und zu kuratieren.

  • Die Batchverarbeitung transformiert große Datasets aus Quellsystemen und nutzt native OCI-Services, die nahtlos in OCI Object Storage integriert werden können. So können Sie kuratierte Daten für Anwendungsfälle wie Datenaggregation und -anreicherung, Data Warehouse-Aufnahme sowie skalierbare Nutzung von maschinellem Lernen und KI-Daten erstellen.
  • OCI Data Integration ist ein vollständig verwalteter, serverloser, cloud-nativer Service, der Daten aus verschiedenen Datenquellen in Oracle Cloud Infrastructure-Zielservices wie Autonomous Data Warehouse und OCI Object Storage extrahiert, lädt, transformiert, bereinigt und umformt.
  • OCI Data Integration orchestriert die Abhängigkeiten innerhalb der Verarbeitungsdatenflüsse, aber auch mit den restlichen Oracle Cloud Infrastructure-Services, wie OCI Artificial Intelligence und Oracle Machine Learning für die Datenanreicherung oder weitere Klassifizierung und Data Safe für Datensicherheit und Compliance. Policys mit granularer Kontrolle über den Zugriff verwalten die Service-to-Service-Authentifizierung und -Autorisierung.
  • OCI Data Integration-Anwendungsvorlagen stellen eine Reihe von OCI Data Integration-Aufgaben (REST (API), SQL, Integration (Datenfluss) und Pipelines bereit, die sofort verwendet werden können. Die Aufgaben sind vollständig parametrisiert, sodass sie direkt verwendet werden können. Die Aufgaben können auch in neuen Projekten und Ordnern gespeichert werden, sodass das Design geändert werden kann, um weitere Implementierungsdetails zu berücksichtigen.

Die Architektur umfasst die folgenden Komponenten:

  • Region

    Eine Oracle Cloud Infrastructure-Region ist ein lokalisierter geografischer Bereich, der mindestens ein Data Center enthält, das als Availability-Domains bezeichnet wird. Regionen sind unabhängig von anderen Regionen, und große Entfernungen können sie voneinander trennen (innerhalb von Ländern oder sogar Kontinenten).

  • Virtual Cloud Network (VCN) und Subnetze

    Ein VCN ist ein anpassbares, Software-definiertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten können. Wie herkömmliche Data Center-Netzwerke erhalten Sie mit VCNs vollständige Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere sich nicht überschneidende CIDR-Blöcke aufweisen, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die sich auf eine Region oder eine Availability-Domain beschränken. Jedes Subnetz besteht aus einem Bereich zusammenhängender Adressen, die sich nicht mit anderen Subnetzen im VCN überschneiden. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz kann öffentlich oder privat sein.

  • Data Integration

    Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, mehrmandantenfähiger, serverloser, nativer Cloud-Service, mit dem Sie gängige ETL-Aufgaben ausführen können, wie das Aufnehmen von Daten aus verschiedenen Quellen, das Bereinigen, Transformieren und Ändern dieser Daten sowie das effiziente Laden dieser Daten in Zieldatenquellen auf OCI.

    Die Aufnahme von Daten aus verschiedenen Quellen (z.B. Amazon Redshift, Azure SQL Database und Amazon S3) in Object Storage und Autonomous Data Warehouse ist der erste Schritt in diesem Prozess.

  • Object Storage

    Mit Object Storage erhalten Sie schnellen Zugriff auf große Mengen an strukturierten und unstrukturierten Daten eines beliebigen Inhaltstyps, darunter Datenbankbackups, Analysendaten und umfangreiche Inhalte, wie Bilder und Videos. Sie können Daten sicher und geschützt speichern und dann direkt aus dem Internet oder aus der Cloud-Plattform abrufen. Sie können den Speicher nahtlos skalieren, ohne dass die Performance oder Servicezuverlässigkeit beeinträchtigt wird. Verwenden Sie Standardspeicher für "Hot Storage", auf den Sie schnell, sofort und häufig zugreifen müssen. Verwenden Sie Archivspeicher für "Cold Storage", den Sie über lange Zeiträume beibehalten möchten und auf den Sie nur selten zugreifen.

  • Data Science

    Oracle Cloud Infrastructure Data Science ist eine vollständig verwaltete serverlose Plattform, mit der Data Science-Teams Modelle des maschinellen Lernens (ML) auf Oracle Cloud Infrastructure (OCI) erstellen, trainieren und verwalten können. Sie kann problemlos in andere OCI-Services wie Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage und mehr integriert werden. Sie können hochwertige Modelle für maschinelles Lernen erstellen und evaluieren, die die Geschäftsflexibilität erhöhen, indem Sie vertrauenswürdige Daten für Unternehmen schnell einsetzen und datengesteuerte Geschäftsziele mit einer einfacheren Bereitstellung von ML-Modellen unterstützen.

  • Oracle Machine Learning

    Oracle Machine Learning bietet Features zum Erstellen, Trainieren und Bereitstellen von Modellen für Daten in der Datenbank. Oracle Machine Learning stellt eine Zeppelin-Notizbuchschnittstelle bereit, mit der Data Scientists Modelle mit der Python-Clientbibliothek OML4Py trainieren können. Oracle Machine Learning bietet auch einen No-Code-Ansatz zum Modelltraining mit der Benutzeroberfläche AutoML. Das Deployment von Modellen als REST-APIs kann über Oracle Machine Learning Services erfolgen. Die Open-Source-Software wird jedoch nur begrenzt unterstützt.

  • KI-Services

    Oracle Cloud Infrastructure AI-Services bieten eine Sammlung von vorab trainierten und anpassbaren Modell-APIs für Anwendungsfälle, die von Sprache, Vision, Sprache, Entscheidung und Prognose reichen. AI-Services bieten Modellvorhersagen, auf die über REST-API-Endpunkte zugegriffen werden kann. Diese Services bieten hochmoderne vorgefertigte Modelle und sollten vor dem Training benutzerdefinierter Modelle für maschinelles Lernen mit Services 1-6 berücksichtigt und bewertet werden. Alternativ stellen Oracle Machine Learning-Services auch eine Reihe vorab trainierter Modelle für Sprache (Thema, Schlüsselwörter, Zusammenfassung, Ähnlichkeit) und Vision bereit.

  • Data Safe

    Oracle Data Safe ist ein vollständig integrierter, regionaler Cloud-Service, der alle Funktionen zum Schutz sensibler und regulierter Daten in Oracle-Datenbanken bereitstellt. Data Safe unterstützt auch On-Premise-Datenbanken, Oracle Exadata Database Service on Cloud@Customer und Multi-Cloud-Deployments. Alle Oracle Database-Kunden können das Risiko einer Datenverletzung reduzieren und die Compliance vereinfachen, indem sie mit Oracle Data Safe Konfigurations- und Benutzerrisiken bewerten, Benutzeraktivitäten überwachen und auditieren sowie sensible Daten erkennen, klassifizieren und maskieren.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse ist ein selbststeuernder, selbstsichernder und selbstreparierender Datenbankservice, der für Data Warehousing-Workloads optimiert ist. Sie müssen keine Hardware konfigurieren oder verwalten und keine Software installieren. Oracle Cloud Infrastructure verwaltet das Erstellen der Datenbank sowie Backup, Patching, Upgrade und Optimierung der Datenbank.

Empfehlungen

Verwenden Sie die folgenden Empfehlungen als Ausgangspunkt. Ihre Anforderungen können von der hier beschriebenen Architektur abweichen.
  • VCN

    Bestimmen Sie beim Erstellen eines VCN die Anzahl der erforderlichen CIDR-Blöcke und die Größe jedes Blocks basierend auf der Anzahl der Ressourcen, die Sie an Subnetze im VCN anhängen möchten. Verwenden Sie CIDR-Blöcke innerhalb des standardmäßigen privaten IP-Adressraums.

    Wählen Sie CIDR-Blöcke aus, die sich mit keinem anderen Netzwerk (in Oracle Cloud Infrastructure, Ihrem On-Premise-Data Center oder einem anderen Cloud-Provider) überschneiden, zu dem Sie private Verbindungen einrichten möchten.

    Nachdem Sie ein VCN erstellt haben, können Sie die zugehörigen CIDR-Blöcke ändern, hinzufügen und entfernen.

    Berücksichtigen Sie bei der Entwicklung der Subnetze Ihren Verkehrsfluss und Ihre Sicherheitsanforderungen. Hängen Sie alle Ressourcen innerhalb einer bestimmten Ebene oder Rolle an dasselbe Subnetz an, das als Sicherheitsgrenze dienen kann.

  • OCI Data Integration-Vorlagen

    Viele tägliche Verwaltungsaufgaben können einfach mit Vorlagenaufgaben automatisiert oder wiederverwendet werden. Darüber hinaus erweitern Vorlagen die Datenverarbeitungs- und Verwaltungsfunktionen von OCI Data Integration, indem sie eine Reihe von Aufgaben anbieten, die speziell auf Data Engineers zugeschnitten sind. Anwendungsfälle zum Aufrufen anderer OCI-Services wie Oracle Cloud Infrastructure AI Services für Dokumentklassifizierungen, Oracle Data Safe für die Maskierung des zu speichernden Inhalts sowie die Kontrolle und Berichterstellung im inkrementellen Feed zu Autonomous Data Warehouse sind Vorlagenbausteine für die einfache Verwendung von OCI Data Integration.

    Folgende Vorlagen sind verfügbar:

    • Oracle Object Storage-Verwaltung

      Anwendung mit REST-Aufgaben für Object Storage, um Objekte zu kopieren, zu löschen und umzubenennen sowie Buckets zu erstellen und zu löschen.

    • Oracle Vision-Image

      Anwendung mit REST-Aufgaben zur Ausführung der OCI Vision-Imageanalyse. Die Aufgaben umfassen Bildklassifizierung, Objekterkennung und Erkennung von Bildtext.

    • Oracle Vision-Dokument

      Anwendung mit REST-Aufgaben zur Ausführung der OCI Vision-Dokument-KI. Zu den Aufgaben gehören die Dokumentklassifizierung, die Erkennung von Dokumentschlüsselwerten, die Klassifizierung der Dokumentsprache, die Erkennung von Dokumenttabellen und die Erkennung von Dokumenttext.

    • Oracle DataSafe-Maskierung

      Anwendung mit parametrisierten Aufgaben zur Generierung eines sensiblen Oracle Data Safe-Modells und einer Maskierung aus einem Oracle-Zieldatenbankschema.

    • Dateien aus Oracle Object Storage in ADW laden

      Anwendung mit Aufgaben zum Laden verschiedener Dateitypen aus OCI Object Storage in Autonomous Data Warehouse: JSON, Parquet, CSV, Avro.

    • Inkrementelles Laden von Oracle Database in Autonomous Data Warehouse (kundenverwaltet)

      Anwendung, mit der inkrementelle Aufgaben basierend auf der letzten Ausführung in einer Metadatentabelle ausgeführt werden können, die in einem Autonomous Data Warehouse-Zielschema gespeichert ist, und Berichte darüber erstellen können.

    • Inkrementelles Laden von Oracle Fusion Applications mit Oracle Business Intelligence Publisher (BIP) in ADW

      Anwendung, mit der Oracle Fusion Applications mit Oracle Business Intelligence Publisher-(BIP-)Berichten Extrakte auf Basis der letzten Ausführung in einer Metadatentabelle ausführen können, die in einem Autonomous Data Warehouse-Zielschema gespeichert ist, und Berichte dazu erstellen können.

Hinweise

Berücksichtigen Sie beim Erfassen, Verarbeiten und Kurieren von Anwendungsdaten für Analysen und maschinelles Lernen die folgenden Implementierungsoptionen.

  • Datenverarbeitung
    • Oracle Cloud Infrastructure Data Integration bietet eine cloud-native, serverlose, vollständig verwaltete ETL-Plattform, die skalierbar und kosteneffektiv ist.
    • Oracle Cloud Infrastructure Data Flow bietet eine serverlose Spark-Umgebung zur skalierbaren Verarbeitung von Daten mit einem nutzungsbasierten, extrem elastischen Modell.
    • Oracle Cloud Infrastructure Big Data Service stellt Hadoop-as-a-Service der Unternehmensebene mit End-to-End-Sicherheit, hoher Performance sowie einfacher Verwaltung und Upgradefähigkeit bereit.
  • Datenpersistenz
    • Oracle Autonomous Data Warehouse ist eine einfach zu verwendende, vollständig autonome Datenbank, die elastisch skalierbar ist, schnelle Abfrageperformance liefert und keine Datenbankadministration erfordert. Sie bietet außerdem direkten Zugriff auf die Daten aus externen oder hybriden partitionierten Objektspeichertabellen.
    • In Oracle Cloud Infrastructure Object Storage werden unbegrenzte Daten im Raw-Format gespeichert.
  • Datenrefinery

    Oracle Cloud Infrastructure Data Integration bietet eine cloud-native, serverlose, vollständig verwaltete ETL-Plattform, die skalierbar und kosteneffizient ist.

Bereitstellen

Der Terraform-Code für diese Referenzarchitektur ist in GitHub verfügbar.

  1. Gehen Sie zu GitHub.
  2. Klonen Sie das Repository, oder laden Sie es auf den lokalen Rechner herunter.
  3. Befolgen Sie die Anweisungen im Dokument README.

Bestätigungen

  • Author: Mario Miola