Implementieren Sie eine Integrationsarchitektur für Multicloud-Data Lakes
Diese Referenzarchitektur zeigt, wie Organisationen Daten aus mehreren Quellen in den Oracle Cloud Infrastructure-(OCI-)Data Lake integrieren können.
Diese Referenzarchitektur stellt einen Anwendungsfall für eine große Unternehmensorganisation mit einer Geschäftsstrategie dar, die den Erwerb neuer Organisationen als Teil ihres langfristigen Wachstumsplans einschließt. Das Unternehmen ist dabei, einen Data Lake mit einer Analyseplattform zu erstellen, und die Kostenanalyse ist eines der Module im Umfang.
Die Organisation hat Oracle Fusion Cloud Applications für die Finanzabteilung implementiert, in der die Rechnungsdaten gespeichert sind.
Das Unternehmen hat kürzlich eine neue Organisation erworben und nutzt Amazon Web Services (AWS) für das Hosting der Anwendung zur Rechnungsverarbeitung. Vor dem Laden in den Data Lake müssen die Rechnungsdaten von AWS in Oracle Cloud Infrastructure (OCI) übertragen werden, wo der Data Lake implementiert ist, und die hochvolumigen Rechnungsdaten mit Kostenstellen-/Lieferanteninformationen angereichert werden. Kostenstellendaten stammen aus Oracle Fusion Cloud Applications, und Lieferantendaten stammen aus einer On-Premise-Datenbank MySQL.
Architektur
In dieser Referenzarchitektur wird beschrieben, wie Sie die Daten verschiedener Cloud-Provider und On-Premise-Datenquellen in einen in OCI gehosteten Data Lake bringen können. Diese Architektur deckt Batchintegration, Datenintegration, Echtzeitintegration und ereignisbasierte Integrationsszenarios ab.
Das folgende Diagramm veranschaulicht den Datenfluss für diese Referenzarchitektur.
Beschreibung der Abbildung oci_multicloud_datalake_flow.png
OCI-multicloud-datalake-flow-oracle.zip
- Verbindet und extrahiert Daten aus:
- AWS-Services und Azure-Services über native Adapter.
- On-Premise-Datenquellen über private Konnektivität (FastConnect/VPN).
- Oracle SaaS-Anwendungen über BICC-Connector.
- Führt eine Transformation der extrahierten Daten aus.
- Lädt Daten über Adapter (ADB/Object Storage) in den OCI-Data Lake.
- Erhält Echtzeitdaten von verschiedenen Quellsystemen wie Oracle SaaS-Anwendungen/IOT/Streaming-Services/Social Media/On-Premise-Systemen/anderen Cloud-Providern über native Adapter.
- Führt Transformations-/Orchestrierungslogik aus.
- Lädt Daten über Adapter (ADB/Object Storage) in den OCI-Data Lake.
Das folgende Diagramm veranschaulicht diese Referenzarchitektur.
OCI-multicloud-datalake-oracle.zip
- Konsolidieren von Daten, indem Daten aus mehreren, heterogenen Quellsystemen erfasst und in einen einzelnen persistenten Speicher integriert werden. Dies erfolgt in der Regel mithilfe von ETL-(Extrahieren, Transformieren und Laden-)Routinen.
- Extrahieren von High-Volume-Daten aus den Quellsystemen (HDFS, Oracle Autonomous Database, MySQL, Oracle Database, Azure Synapse, AWS Redshift, Object Storage, S3, Microsoft SQL, PostgreSQL usw.), die im privaten/öffentlichen Netzwerk (Kunden-On-Premise, Cloud-Netzwerk der 3. Partei (Azure VNet, AWS VPC)) gehostet und dann in den OCI-Data Lake geladen werden.
- Extrahieren Sie die Daten aus Oracle Fusion Cloud-Anwendungen über den BICC-/BI Publisher-Connector, und laden Sie sie dann in den OCI-Data Lake.
- Extrahieren von Daten mit hohem Volumen aus mehreren Quellen mit einem Orchestrierungsmuster.
- Geplante (tägliche, monatliche, wöchentliche, monatliche, Cron-Ausdrücke usw.) ETL-Jobs implementieren
Oracle Integration Cloud (OIC) wird für die folgenden Szenarios verwendet:
- Empfangen von Daten aus Oracle Cloud-Anwendungen, CRM-, E-Commerce- und On-Premise-/3-Party-Cloud-Anwendungen in Echtzeit und anschließendem Laden in den Data Lake.
- Die Daten werden aus einer von einer Datenquelle generierten Datei (weniger Datenträger) in den Data Lake geladen.
- Bereitstellung von Oracle Integration Cloud-REST-APIs für Webhook-Plattformen, Empfangen der Daten in Echtzeit und Laden in den Data Lake.
- Einige IOT-Plattformen (Geotab, CheckSafe usw.) verfügen über Webhook-Fuktionalität und senden Daten für neue Ereignisse an eine HTTPS-API, damit sie sich direkt mit dem API-Gateway verbinden können.
- Empfangen von Daten von Social Media-Plattformen (Facebook, LinkedIn, Twitter, Slack usw.) und Laden in den OCI-Data Lake.
- Veröffentlichen Sie OIC-APIs und Anwendungs-APIs mit privaten Endpunkten, auf die in Ihrem Netzwerk zugegriffen werden kann. Sie können aber auch bei Bedarf im öffentlichen Internet verfügbar machen. Die Endpunkte unterstützen API-Validierung, Anforderungs- und Reaktionstransformation, CORS, Authentifizierung und Autorisierung und Anforderungsbegrenzung.
- Entkopplung der Sicherheits- und Geschäftslogik bei der API-Entwicklung.
- Die Bereitstellung von APIs für die eingeschränkten Quellen mit Sicherheitskontrollen, die Daten in einen nachgelagerten Data Lake einspeisen können.
Die Architektur umfasst die folgenden Komponenten:
- Region
Eine Oracle Cloud Infrastructure-Region ist ein lokalisierter geografischer Bereich, der mindestens ein Data Center enthält, das als Availability-Domains bezeichnet wird. Regionen sind unabhängig von anderen Regionen, und große Entfernungen können sie voneinander trennen (innerhalb von Ländern oder sogar Kontinenten).
- Availability-Domains
Availability-Domains sind eigenständige, unabhängige Data Center innerhalb einer Region. Die physischen Ressourcen in jeder Availability-Domain sind von den Ressourcen in den anderen Availability-Domains isoliert, was Fehlertoleranz bietet. Availability-Domains teilen keine Infrastruktur wie Stromversorgung oder Kühlung und nicht das interne Availability-Domainnetzwerk. Aus diesem Grund ist es wahrscheinlich, dass ein Fehler in einer Availability-Domain sich auf die anderen Availability-Domains in der Region auswirkt.
- Virtual Cloud Network (VCN) und Subnetze
Ein VCN ist ein anpassbares, Software-definiertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten können. Wie herkömmliche Data Center-Netzwerke erhalten Sie mit VCNs vollständige Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere sich nicht überschneidende CIDR-Blöcke aufweisen, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die sich auf eine Region oder eine Availability-Domain beschränken. Jedes Subnetz besteht aus einem fortlaufenden Adressbereich, der sich nicht mit den anderen Subnetzen im VCN überschneidet. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz ist öffentlich oder privat.
- Integration
Oracle Integration ist ein vollständig verwalteter Service, mit dem Sie Ihre Anwendungen integrieren, Prozesse automatisieren, Einblicke in Ihre Geschäftsprozesse erlangen und visuelle Anwendungen erstellen können.
- Oracle Data Integration
Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser, cloud-nativer Service, der Daten aus einer Vielzahl von Datenquellen in Oracle Cloud Infrastructure-Zielservices, wie Autonomous Data Warehouse und Oracle Cloud Infrastructure Object Storage, extrahiert, lädt, transformiert, bereinigt und neu ausbildet. ETL (Extract Transform Load) nutzt die vollständig verwaltete Scale-out-Verarbeitung in Spark. ELT (Extract Load Transform) nutzt vollständige SQL-Push-Down-Funktionen von Autonomous Data Warehouse, um die Datenverschiebung zu minimieren und die Time-to-Value für neu aufgenommene Daten zu verbessern. Benutzer entwerfen Datenintegrationsprozesse mit einer intuitiven, kodlosen Benutzeroberfläche, die Integrationsabläufe optimiert. So werden die effizienteste Engine und Orchestrierung generiert und die Ausführungsumgebung automatisch zugewiesen und skaliert. Oracle Cloud Infrastructure Data Integration bietet interaktive Exploration und Datenvorbereitung. Außerdem können Data Engineers sich vor Schemaabweichungen schützen, indem sie Regeln zur Verarbeitung von Schemaänderungen definieren.
- Oracle Business Intelligence Cloud-Connector
Oracle BI Cloud Connector (BICC) ist ein nützliches Tool zum Extrahieren von Daten aus Fusion und zum Speichern in gemeinsamen Ressourcen wie Oracle Universal Content Management (UCM)-Server oder Cloud-Speicher im CSV-Format.
- OIC-Konnektivitäts-Agent
Mit dem OIC-Konnektivitäts-Agent können Sie hybride Integrationen erstellen und Nachrichten zwischen Anwendungen in privaten oder On-Premise-Netzwerken und Oracle Integration Cloud austauschen.
- Datenspeicher
Ein Data Lake ist ein skalierbares, zentralisiertes Repository, das Rohdaten speichern kann und es einem Unternehmen ermöglicht, alle Daten in einer kosteneffektiven, elastischen Umgebung zu speichern. Ein Data Lake bietet einen flexiblen Speichermechanismus zum Speichern von Rohdaten.
- Objektspeicher
Mit Object Storage erhalten Sie schnellen Zugriff auf große Mengen an strukturierten und unstrukturierten Daten eines beliebigen Inhaltstyps, darunter Datenbankbackups, Analysendaten und umfangreiche Inhalte, wie Bilder und Videos. Sie können Daten sicher und geschützt speichern und dann direkt aus dem Internet oder aus der Cloud-Plattform abrufen. Sie können den Speicher nahtlos skalieren, ohne dass die Performance oder Servicezuverlässigkeit beeinträchtigt wird. Verwenden Sie Standardspeicher für "Hot Storage", auf den Sie schnell, sofort und häufig zugreifen müssen. Verwenden Sie Archivspeicher für "Cold Storage", den Sie über lange Zeiträume beibehalten möchten und auf den Sie nur selten zugreifen.
- Autonomous Database
Oracle Cloud Infrastructure Autonomous Database ist eine vollständig verwaltete, vorkonfigurierte Datenbankumgebung, die Sie für Transaktionsverarbeitungs- und Data Warehousing-Workloads verwenden können. Sie müssen keine Hardware konfigurieren oder verwalten und keine Software installieren. Oracle Cloud Infrastructure verwaltet das Erstellen der Datenbank sowie Backup, Patching, Upgrade und Optimierung der Datenbank.
- Analyse
Oracle Analytics Cloud ist ein skalierbarer und sicherer Public Cloud-Service, mit dem Geschäftsanalysten moderne, KI-gesteuerte Selfserviceanalysefunktionen für Datenvorbereitung, Visualisierung, Unternehmensberichte, erweiterte Analysen sowie Natural Language Processing und -generierung erhalten. Mit Oracle Analytics Cloud erhalten Sie außerdem flexible Service-Management-Funktionen, darunter schnelles Setup, einfache Skalierung und Patching sowie automatisiertes Lifecycle Management.
- Datenkatalog
Oracle Cloud Infrastructure Data Catalog ist eine vollständig verwaltete Selfservice-Lösung für Daten-Discovery und Governance für Ihre Unternehmensdaten. Es bietet Dateningenieuren, Datenwissenschaftlern, Data Stewards und Chief Data Officers eine einzige kollaborative Umgebung zur Verwaltung der technischen, geschäftlichen und betrieblichen Metadaten des Unternehmens.
Empfehlungen
- Sicherheit
Alle Verbindungen werden über ein privates Netzwerk aufgebaut, und alle ETL-Transaktionen werden über Fastconnect für On Premise, Colt für AWS, Azure Interconnect für Azure weitergeleitet. Außerdem wird empfohlen, Verschlüsselung und Entschlüsselung an Quelle und Ziel zu verwenden. Dadurch wird die Sicherheit bei der Übertragung sichergestellt.
Aspekte
Beachten Sie beim Deployment dieser Referenzarchitektur die folgenden Punkte.
- SicherheitMit OCI Identity and Access Management-(IAM-)Policys können Sie kontrollieren, wer auf Ihre Cloud-Ressourcen zugreifen kann und welche Vorgänge ausgeführt werden können. Um die Datenbankkennwörter oder andere Secrets zu schützen, sollten Sie den OCI Vault-Service verwenden.
- Weisen Sie Ressourcentypen in
dis-family
die geringste Zugriffsberechtigung für IAM-Benutzer und -Gruppen zu. - Oracle empfiehlt, dass Sie die Berechtigung
DIS_WORKSPACE_DELETE
nur einer möglichst kleinen Gruppe von IAM-Benutzern und -Gruppen zuweisen, um Datenverluste aufgrund von unbeabsichtigten Löschungen durch einen autorisierten Benutzer oder böswilligen Löschungen zu minimieren. Weisen Sie die BerechtigungDIS_WORKSPACE_DELETE
nur Mandanten- und Compartment-Administratoren zu. - Um Ihre Datenquellen vor Sicherheitsrisiken zu schützen, geben Sie nur Zugangsdaten zu schreibgeschützten Accounts an. Data Integration benötigt nur Lesezugriff, um Daten aus Datenassets zu erfassen.
- Weisen Sie Ressourcentypen in
- Kostenfaktor
- Wenn große Daten häufig über die Cloud-Grenzen übertragen werden, ist die Richtung des Datenflusses unerlässlich. Cloud-Provider berechnen in der Regel keine Dateneingang, aber alle Provider berechnen eine Gebühr für den Datenausgang. Die Datenausgangsraten variieren je nach Cloud-Provider. Es ist wichtig, Egress-Kosten in Überlegungen zu Multi-Cloud-Designs zu übernehmen. Darüber hinaus muss beim Verschieben von Daten eine Datenspeicherung in Betracht gezogen werden.
- OCI FastConnect: Die Kosten von FastConnect sind in allen OCI-Regionen identisch.
- Microsoft Azure ExpressRoute: Die Microsoft Azure ExpressRoute-Kosten variieren von Region zu Region. Azure verfügt über mehr als eine SKU für eine Expressroute. Oracle empfiehlt die Verwendung der lokalen Einstellung, da sie keine separaten Ingress- oder Egress-Gebühren aufweist und mit der minimalen Bandbreite von 1 Gbit/s beginnt. Die Standard- und Premium-Konfigurationen bieten eine geringere Bandbreite, verursachen aber separate Egress-Gebühren in einem nutzungsabhängig abgerechneten Setup.
- Mit dem kostengünstigen Archive Storage-Service können Sie Daten speichern, auf die selten zugegriffen wird, die jedoch für einen längeren Zeitraum aufbewahrt werden müssen. Definieren Sie Lebenszyklusmanagement-Policys, um Daten nach einer bestimmten Dauer automatisch in Archive Storage zu verschieben oder zu löschen.
- High Availability
Jeder Interconnect-Circuit (ExpressRoute und FastConnect) verfügt über einen redundanten Circuit auf demselben POP, aber über einen anderen physischen Router, der High Availability bereitstellt.
Mehr erfahren
Weitere Informationen zu den Features dieser Referenzarchitektur finden Sie in diesen zusätzlichen Ressourcen.
- Best Practices Framework für Oracle Cloud Infrastructure
- Erfahren Sie mehr über das Entwerfen von Data Lakes in Oracle Cloud
- Was ist Multi-Cloud?
- Vordefinierte OCI Data Integration-Anwendungsadapter
- Benutzerdefiniertes Data Warehouse für NetSuite mit Datentransformationen erstellen
- OCI-Integration Services
- Dokumentation zu OCI API Gateway
- OCI Data Integration: Unterstützte Datenquellen für Data Assets
- Oracle Cloud Infrastructure - Dokumentation
- Oracle Cloud-Kostenrechner