Massendaten mit OCI Data Integration- und Oracle Integration-Cloudservices verarbeiten

Verarbeiten oder integrieren Sie Bulk-Daten aus externen Quellen in gezielte Systeme oder Anwendungen.

Betrachten Sie dieses Szenario: Sie erhalten Daten in großen Mengen von einer externen Quelle (z. B. Kunden, Lieferanten, Mitarbeiter, Produkte). Bevor sie Ihre Endsysteme oder Anwendungen erreicht, müssen die Daten orchestriert, angereichert, kombiniert oder organisiert werden. Als Teil des Ablaufs müssen Sie in zwei oder mehr Zwischenanwendungen oder Services integrieren oder komplexe Transformationen auf die Daten anwenden. Dieser Prozess kann den Daten zusätzliche Attribute hinzufügen, nachdem er Anrufe getätigt oder mit verschiedenen Drittanbieteranwendungen orchestriert hat (z.B. REST, SOAP). Diese Transaktionsdaten benötigen möglicherweise auch komplexe Transformationen (JSON oder XML), Lookups oder Querverweise.

Dieses Szenario kann einfach mit zwei Cloud-Services implementiert werden: OCI Data Integration und Oracle Integration, wobei OCI Data Integration all Ihre Datenintegrations- oder ETL-Anforderungen (Extract, Transform, Load) erfüllt und Oracle Integration all Ihre Anwendungsintegration oder Konnektivität der Unternehmensklasse abdeckt, unabhängig von den Anwendungen, die Sie verbinden oder sich dort befinden.

Architektur

Diese Referenzarchitektur stellt einen Anwendungsfall für die Verwendung von OCI Data Integration und Oracle Integration zur Verarbeitung von Massendaten dar.

Diese Referenzarchitektur befasst sich auch mit den Herausforderungen bei der Verarbeitung von Apache Parquet-, Apache Avro- und Microsoft Excel-Dateien in Oracle Integration über OCI Data Integration. Beispiel: Um Finanzberichtsdaten (z.B. Verbindlichkeiten, Forderungen, HBs, Cashflows, Vermögenswerte und Verbindlichkeiten, Umsatz) zu verarbeiten, konvertiert OCI Data Integration diese Dateiformate in CSV-Dateien, die dann von Oracle Integration verarbeitet werden.

Das folgende Diagramm veranschaulicht diese Referenzarchitektur.



OCI-Bulk-Data-Integration-Architektur-Diagramm-oracle.zip

Im Folgenden werden die in der obigen Referenzarchitektur dargestellten Schritte erläutert:

  1. Externe Quellen (z.B. benutzerdefinierte Anwendungen, Nicht-Oracle-Anwendungen, Oracle-Datenbanken, die auf Clouds von Drittanbietern, Cloud-Services von Drittanbietern, On-Premise-Datenbanken und Anwendungen ausgeführt werden) laden die Bulk-Dataload-Datei in einen OCI Object Storage-Bucket hoch oder löschen sie.
  2. OCI Observability & Management-Service: OCI-Ereignisse sucht nach einem Objekt oder einer Datei, die in den OCI Object Storage-Bucket hochgeladen wurde.
  3. OCI-Ereignisse lösen eine Aktion aus, um OCI Functions mit einem Bucket und einem Dateinamen aufzurufen.
  4. OCI Functions empfängt das Ereignis und ruft die OCI Data Integration-Pipeline mit Eingabeparametern auf: Bucket-Name und Dateiname.
  5. Die OCI Data Integration-Pipeline liest die Bulk Load-Datei aus dem OCI Object Storage-Bucket und teilt die einzelne große Datendatei in zahlreiche kleinere Dateien auf. Anschließend werden die aufgeteilten Dateien in den OCI Object Storage-Bucket hochgeladen.
  6. Eine andere Instanz von OCI-Ereignissen sucht nach aufgeteilten Dateien, die in den OCI Object Storage-Bucket hochgeladen wurden.
  7. OCI-Ereignisse lösen eine Aktion aus, um OCI Functions mit einem Bucket-Namen und für jeden Dateinamen aufzurufen.
  8. OCI Functions empfängt das Ereignis und ruft den Oracle Integration-Ablauf mit den Eingabeparametern "Bucket-Name" und jedem Dateinamen auf.
  9. Oracle Integration liest jede Datei aus dem OCI Object Storage-Bucket.
  10. Oracle Integration orchestriert und reichert die Daten je nach Anforderung an, indem es Aufrufe für eine oder mehrere Zwischenanwendungen oder Systeme ausführt. Es führt dann komplexe Funktionen aus (z. B. Transformationen, Lookups, Querverweise) und verarbeitet die Daten schließlich in nachgelagerte Systeme oder Anwendungen.

Die Architektur umfasst die folgenden Komponenten:

  • Region

    Eine Oracle Cloud Infrastructure-Region ist ein lokalisierter geografischer Bereich, der mindestens ein Data Center enthält, das als Availability-Domain bezeichnet wird. Regionen sind unabhängig von anderen Regionen, und große Entfernungen können sie trennen (über Länder oder sogar Kontinente).

  • Data Integration

    Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser, Cloud-nativer Service, der Daten aus einer Vielzahl von Datenquellen extrahiert, lädt, transformiert, bereinigt und neu gestaltet in Oracle Cloud Infrastructure-Zielservices wie Autonomous Data Warehouse und Oracle Cloud Infrastructure Object Storage. Benutzer entwerfen Datenintegrationsprozesse mit einer intuitiven, codeless-Benutzeroberfläche, die Integrationsabläufe optimiert, um die effizienteste Engine und Orchestrierung zu generieren und die Ausführungsumgebung automatisch zuzuweisen und zu skalieren.

    ETL (Extract Transform Load) nutzt die vollständig verwaltete Scale-Out-Verarbeitung in Spark, und ELT (Extract Load Transform) nutzt die vollständigen SQL-Pushdown-Funktionen von Autonomous Data Warehouse, um die Datenverschiebung zu minimieren und die Amortisierungszeit für neu aufgenommene Daten zu verbessern.

    Oracle Cloud Infrastructure Data Integration bietet interaktive Explorationen und Datenvorbereitung und unterstützt Data Engineers beim Schutz vor Schemaabweichungen, indem Regeln zur Verarbeitung von Schemaänderungen definiert werden.

  • Integration

    Oracle Integration ist eine vollständig verwaltete, vorkonfigurierte Umgebung, in der Sie Cloud- und On-Premise-Anwendungen integrieren, Geschäftsprozesse automatisieren und visuelle Anwendungen entwickeln können. Es verwendet einen SFTP-konformen Dateiserver zum Speichern und Abrufen von Dateien und ermöglicht Ihnen den Austausch von Dokumenten mit Geschäftspartnern, indem Sie ein Portfolio aus Hunderten von Adaptern und Rezepten für die Verbindung mit Oracle- und Drittanbieteranwendungen verwenden.

  • Ereignisse

    Oracle Cloud Infrastructure-Services geben Ereignisse aus. Dies sind strukturierte Nachrichten, die Änderungen an Ressourcen beschreiben. Ereignisse werden für CRUD-(Create, Read, Update, or Delete-)Vorgänge, Änderungen des Ressourcenlebenszyklusstatus und Systemereignisse ausgegeben, die sich auf Cloud-Ressourcen auswirken.

  • Funktionen

    Oracle Cloud Infrastructure Functions ist eine vollständig verwaltete, mehrmandantenfähige, hoch skalierbare, bedarfsgesteuerte Functions-as-a-Service-(FaaS-)Plattform. Es wird von der Open-Source-Engine Fn Project angetrieben. Mit Funktionen können Sie Ihren Code bereitstellen und entweder direkt aufrufen oder als Reaktion auf Ereignisse auslösen. Oracle Functions verwendet Docker-Container, die in Oracle Cloud Infrastructure Registry gehostet werden.

  • Virtuelles Cloud-Netzwerk (VCN) und Subnetze

    Ein VCN ist ein anpassbares, softwaredefiniertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten können. Wie herkömmliche Data Center-Netzwerke erhalten Sie mit VCNs die Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere sich nicht überschneidende CIDR-Blöcke aufweisen, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die sich auf eine Region oder eine Availability-Domain beschränken. Jedes Subnetz besteht aus einem Bereich zusammenhängender Adressen, die sich nicht mit anderen Subnetzen im VCN überschneiden. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz kann öffentlich oder privat sein.

  • Sicherheitsliste

    Für jedes Subnetz können Sie Sicherheitsregeln erstellen, die Quelle, Ziel und Typ des Traffics angeben, der im Subnetz und aus dem Subnetz zugelassen werden muss.

  • Routentabelle

    Virtuelle Routentabellen enthalten Regeln zum Weiterleiten von Traffic von Subnetzen an Ziele außerhalb eines VCN, in der Regel über Gateways.

Danksagungen

  • Autoren: Pavan Rajalbandi
  • Mitwirkende: John Sulyok