Etablieren einer Multicloud-Datenlösung zwischen OCI und Microsoft Azure
Unternehmen können ein Data Lake House oder Data Warehouse für Unternehmen einrichten, um Live- und archivierte Daten an einem zentralen Ort zu speichern.
Dieser Ansatz vereinfacht den Prozess der Erstellung eines zentralen Datenspeichers, der als umfassende Lösung für alle Datenanalyseanforderungen dient.
Durch die Nutzung einer Multicloud-Datenanalyselösung können Unternehmen Analysen effizient mit einem zentralen Data Lake House oder Data Warehouse durchführen, das in verschiedene Datenquellen integriert ist, einschließlich Fusion SaaS, Flat Files, On-Premises- und Cloud-Datenbanken, Salesforce und E-Commerce-Websites.
Das ultimative Ziel ist es, ein zentrales Repository von Daten zu erstellen, das von Geschäftseinheiten extrahiert und analysiert wurde, um die End-to-End-Geschäftstransparenz zu verbessern und datengesteuerte Erkenntnisse bereitzustellen. Zu den Vorteilen zählen:
- Einheitliche Datenanalyse-Pipeline
Optimieren Sie den Zugriff auf Daten aus verschiedenen Cloud- und On-Premise-Quellen, wie Datenbanken und Objektspeichern.
- Einfache Integration
Nahtlose Integration von Daten über verschiedene Systeme, Formate, APIs, Anwendungen und Geräte hinweg, um eine sichere Zusammenarbeit und Compliance mit Sicherheitsprotokollen zu gewährleisten, ohne dass eine manuelle Codierung erforderlich ist.
- High-Performance-Analysen
Effiziente Datenabfrage, die zu schnelleren Entscheidungen und verbessertem Kundenservice führt.
- Kosten, Sicherheit und Verfügbarkeit
Minimieren Sie CapEx und OpEx, und erzielen Sie gleichzeitig optimale Kosteneffizienz, Performance, Sicherheit und Verfügbarkeit.
Architektur
Diese Referenzarchitektur veranschaulicht eine Multicloud-Datenpipeline für Unternehmen, die Daten aus verschiedenen Quellen erfasst und formatiert und in den Unternehmens-Data Lake oder das Data Warehouse übertragen. Sie umfasst Batchintegration, Datenintegration und Echtzeitintegrationsszenarios.
Oracle Interconnect for Microsoft Azure verknüpft Azure ExpressRoute und Oracle Cloud Infrastructure FastConnect, um zwei separate Cloud-Netzwerke effizient zu verbinden.
Der Traffic des virtuellen Netzwerks (VNet) von Azure leitet über eine private Verbindung zum virtuellen Cloud-Netzwerk (VCN) von OCI weiter.
Das folgende Diagramm veranschaulicht diese Referenzarchitektur.
oci-azure-multicloud-data-solution-diagram-oracle.zip
OCI Data Integration verbindet und extrahiert Daten aus On-Premise- und Cloud-Quellen mit nativen Adaptern, greift über den BICC-Connector auf Oracle SaaS-Anwendungen zu, führt Transformationen der Daten durch und lädt sie über Adapter (Oracle Autonomous Database oder OCI Object Storage) in einen OCI Data Lake.
Oracle-Anwendungsintegrationsservices erfassen Echtzeitdaten aus verschiedenen Quellsystemen wie Oracle SaaS-Anwendungen, Internet-of-Things (IoT), Streaming-Services, Social Media, On-Premises-Systemen und anderen Cloud-Providern über native Adapter. Anschließend werden Transformations- und Orchestrierungsprozesse ausgeführt, bevor die Daten mit Adaptern (Oracle Autonomous Database oder OCI Object Storage) in einen OCI-Data Lake geladen werden.
OCI GoldenGate captures data from Oracle Autonomous Database and replicates it to Azure Data Lake Gen2 and Azure Synapse Analytics in near real-time via OCI FastConnect. Bei der Replikation in Synapse werden die Änderungsdaten in Microbatches in Azure Data Lake Storage Gen2 zwischengespeichert und zusammengeführt, bevor sie in der Zieltabelle "Synapse" zusammengeführt werden.
Ablauf
- Datengewinnung und -übertragung
- Kundendaten werden entweder direkt oder über standardmäßige, quellspezifische Treiber von der Datenquelle an OCI Object Storage übertragen.
- On-Premise-Flat Files werden mit dem Python-Skript des Kunden oder durch Herstellen einer FTP-Verbindung mit OCI Object Storage in OCI Object Storage verschoben, um eine nahtlose Konnektivität zu Oracle Integration Cloud Service zu gewährleisten.
- Daten werden sicher in ihrer Rohform mit Verschlüsselung in OCI Object Storage-Buckets hochgeladen.
- Datenaufnahme und -transformation
- OCI Data Integration ruft Daten aus OCI Object Storage und anderen Quellen ab, transformiert sie entsprechend den Geschäftsanforderungen mit Apache Spark und einem vorgeschlagenen Architekturfluss und speichert die transformierten Daten dann wieder in OCI Object Storage neben der autonomen Datenbank.
- Dieser Prozess folgt der Delta Lake-Architektur für aktive ACID-Eigenschaften und Komprimierung. Die Daten sind nun strukturiert, können abgefragt werden und sind für weitere Analysen bereit.
- OCI Logging verwaltet alle Verarbeitungslogs.
- Orchestrierung und Planung
- OCI Data Integration verwaltet Datenflussprozesse und plant bei Bedarf die Ausführung von Data Flow-Anwendungen und Data Science-Notizbüchern.
- Entwickler können Data Flow-Anwendungen aus Gründen der Flexibilität über die UI oder die Notizbücher des Data Science-Service ausführen.
- Datenarchivierung
- OCI Object Storage-Lebenszyklus-Policys, die von Kunden definiert und implementiert werden, spielen eine entscheidende Rolle bei der Automatisierung des Datenarchivierungsprozesses. Diese Richtlinien erleichtern die nahtlose Verlagerung von Daten auf kostengünstigere Speicherebenen oder die systematische Löschung veralteter Informationen, alles in Übereinstimmung mit vordefinierten Regeln und Richtlinien. Diese Automatisierung ist unerlässlich, um nicht nur ein effizientes Datenmanagement zu gewährleisten, sondern auch die Einhaltung verschiedener Aufbewahrungsrichtlinien, die Unternehmen einhalten müssen.
- Durch die Verwendung dieser Lebenszyklusrichtlinien können Kunden ihre Speicherkosten optimieren und gleichzeitig die Kontrolle über ihre Datenaufbewahrungspraktiken behalten und sicherstellen, dass sie an gesetzlichen und behördlichen Anforderungen ausgerichtet sind.
- Datenreplikation in Azure
- OCI GoldenGate wird für die Datenreplikation zu Azure über ein dediziertes Netzwerk verwendet, das mit Oracle Interconnect for Microsoft Azure eingerichtet wurde.
- OCI GoldenGate lässt sich eng in Azure Data Lake und Azure Synapse Analytics integrieren, um nahtloses Laden von Daten zu ermöglichen.
- Datenanalyse und Reporting
- Oracle Analytics Cloud und Power BI sind Beispiele für Business-Intelligence-Tools, mit denen eine Verbindung zu OCI Object Storage oder Oracle Autonomous Database hergestellt werden kann.
- Diese Tools sammeln die transformierten Daten und erstellen benutzerfreundliche Dashboards, in denen wichtige KPIs (Key Performance Indicators) für Unternehmen dargestellt werden.
- Durch diese Dashboards können aus den Daten wertvolle Erkenntnisse gewonnen werden, die eine fundierte Entscheidungsfindung ermöglichen.
Die Architektur umfasst die folgenden Komponenten:
- Tenancy
Ein Mandant ist eine sichere und isolierte Partition, die Oracle in Oracle Cloud einrichtet, wenn Sie sich für Oracle Cloud Infrastructure registrieren. Sie können Ihre Ressourcen in Oracle Cloud in Ihrem Mandanten erstellen, organisieren und verwalten. Ein Mandant ist ein Synonym für ein Unternehmen oder eine Organisation. In der Regel verfügt ein Unternehmen über einen einzigen Mandanten und spiegelt seine Organisationsstruktur innerhalb dieses Mandanten wider. Ein einzelner Mandant ist in der Regel mit einem einzelnen Abonnement verknüpft, und ein einzelnes Abonnement hat in der Regel nur einen Mandanten.
- Region
Eine Oracle Cloud Infrastructure-Region ist ein lokalisierter geografischer Bereich, der mindestens ein Data Center enthält, das als Availability-Domain bezeichnet wird. Regionen sind unabhängig von anderen Regionen, und große Entfernungen können sie trennen (über Länder oder sogar Kontinente).
- Compartment
Compartments sind regionsübergreifende logische Partitionen innerhalb eines Oracle Cloud Infrastructure-Mandanten. Mit Compartments können Sie Ihre Ressourcen in Oracle Cloud organisieren, den Zugriff auf die Ressourcen kontrollieren und Nutzungs-Quotas festlegen. Um den Zugriff auf die Ressourcen in einem bestimmten Compartment zu kontrollieren, definieren Sie Policys, mit denen angegeben wird, wer auf die Ressourcen zugreifen kann und welche Aktionen sie ausführen können.
- Availability-Domains
Availability-Domains sind eigenständige, unabhängige Data Center innerhalb einer Region. Die physischen Ressourcen in jeder Availability-Domain sind von den Ressourcen in den anderen Availability-Domains isoliert, was eine Fehlertoleranz sicherstellt. Availability-Domains haben keine gemeinsame Infrastruktur wie Stromversorgung oder Kühlung oder das interne Availability-Domainnetzwerk. Daher sollte ein Fehler in einer Availability-Domain sich nicht auf die anderen Availability-Domains in der Region auswirken.
- Virtuelles Cloud-Netzwerk (VCN) und Subnetze
Ein VCN ist ein anpassbares, softwaredefiniertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten können. Wie herkömmliche Data Center-Netzwerke erhalten Sie mit VCNs die Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere sich nicht überschneidende CIDR-Blöcke aufweisen, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die sich auf eine Region oder eine Availability-Domain beschränken. Jedes Subnetz besteht aus einem Bereich zusammenhängender Adressen, die sich nicht mit anderen Subnetzen im VCN überschneiden. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz kann öffentlich oder privat sein.
- ExpressRoute
Mit Azure ExpressRoute können Sie eine private Verbindung zwischen einer VNet und einem anderen Netzwerk einrichten, z.B. Ihr On-Premise-Netzwerk oder ein Netzwerk in einem anderen Cloud-Provider.
Azure ExpressRoute ist eine zuverlässigere und schnellere Alternative zu typischen Internetverbindungen, da der Traffic über Azure ExpressRoute nicht das öffentliche Internet durchläuft.
- Autonomous Database
Oracle Autonomous Database ist eine vollständig verwaltete, vorkonfigurierte Datenbankumgebung, die Sie für Transaktionsverarbeitungs- und Data Warehousing-Workloads verwenden können. Sie müssen keine Hardware konfigurieren oder verwalten oder Software installieren. Oracle Cloud Infrastructure übernimmt das Erstellen der Datenbank sowie Backup, Patching, Upgrade und Optimierung der Datenbank.
- Object Storage
Mit Object Storage können Sie schnell auf große Mengen an strukturierten und unstrukturierten Daten eines beliebigen Inhaltstyps zugreifen, einschließlich Datenbankbackups, analytischen Daten und umfangreichen Inhalten wie Bildern und Videos. Sie können Daten sicher und geschützt speichern und dann direkt aus dem Internet oder aus der Cloud-Plattform abrufen. Sie können den Speicher skalieren, ohne dass die Performance oder Servicezuverlässigkeit beeinträchtigt wird. Verwenden Sie Standardspeicher für "guten" Speicher, auf den Sie schnell, sofort und häufig zugreifen müssen. Verwenden Sie Archivspeicher für "Cold Storage", den Sie über lange Zeiträume beibehalten und auf den Sie nur selten zugreifen.
- Datenintegration
Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser, Cloud-nativer Service, der Daten aus einer Vielzahl von Datenquellen extrahiert, lädt, transformiert, bereinigt und neu gestaltet in Oracle Cloud Infrastructure-Zielservices wie Autonomous Data Warehouse und Oracle Cloud Infrastructure Object Storage. ETL (Extract Transform Load) nutzt eine vollständig verwaltete Scale-Out-Verarbeitung in Spark, und ELT (Extract Load Transform) nutzt die vollständigen SQL-Pushdown-Funktionen von Autonomous Data Warehouse, um die Datenverschiebung zu minimieren und die Amortisierungszeit für neu aufgenommene Daten zu verbessern. Benutzer entwerfen Datenintegrationsprozesse mit einer intuitiven, codeless-Benutzeroberfläche, die Integrationsabläufe optimiert, um die effizienteste Engine und Orchestrierung zu generieren und die Ausführungsumgebung automatisch zuzuweisen und zu skalieren. Oracle Cloud Infrastructure Data Integration bietet interaktive Explorationen und Datenvorbereitung und unterstützt Data Engineers beim Schutz vor Schemaabweichungen, indem Regeln zur Verarbeitung von Schemaänderungen definiert werden.
- Oracle GoldenGate Cloud Service
Oracle GoldenGate Cloud Service ist ein vollständig verwalteter Service, der die Datenaufnahme aus Quellen ermöglicht, die sich On-Premises oder in einer beliebigen Cloud befinden. Dabei wird die CDC-Technologie GoldenGate für eine nicht aufdringliche und effiziente Erfassung von Daten und die Bereitstellung an Oracle Autonomous Data Warehouse in Echtzeit und in großem Umfang verwendet, um den Verbrauchern relevante Informationen so schnell wie möglich zur Verfügung zu stellen.
- Oracle Integration
Oracle Integration bietet vordefinierte Konnektivität zu SaaS und On-Premise-Anwendungen, einsatzbereiten Prozessautomatisierungsvorlagen und einem Low-Code-Visual Builder für die Entwicklung von Web- und mobilen Anwendungen. Sie erhalten nativen Zugriff auf Veranstaltungen in Oracle Cloud ERP, HCM und CX. Verbinden Sie app-spezifische Analysesilos, um die Prozesse von der Anforderung bis zum Wareneingang, von der Rekrutierung bis zur Zahlung, von der Lead bis zur Rechnungsstellung und andere kritische Prozesse zu vereinfachen und Ihren IT- und Führungskräften End-to-End-Transparenz zu bieten.
- Azure Synapse Analytics
Azure Synapse Analytics ist ein Analyseservice, der Datenintegration, Enterprise Data Warehousing und Big Data-Analysen zusammenführt. Es ermöglicht die Abfrage von Daten zu Ihren Bedingungen, entweder mit serverlosen oder dedizierten Optionen, in großem Maßstab. Azure Synapse Analytics bringt diese Konzepte mit einer einheitlichen Erfahrung zusammen, um Daten für sofortige BI- und ML-Anforderungen aufzunehmen, zu untersuchen, vorzubereiten, zu transformieren, zu verwalten und bereitzustellen.
- Azure-Data-Lake-Speicher Gen2
Azure Data Lake Storage Gen2 ist eine Reihe von Funktionen für Big Data-Analysen, die auf Azure Blob Storage basieren. Data Lake Storage Gen2 konvergiert die Funktionen von Azure Data Lake Storage Gen1 mit Azure Blob Storage.
Beispiel: Azure Data Lake Storage Gen2 bietet Dateisystemsemantik, Sicherheit auf Dateiebene und Skalierung. Da diese Funktionen auf Blob-Speicher basieren, erhalten Sie auch kostengünstigen mehrstufigen Speicher mit High Availability- und Disaster Recovery-Funktionen.
- Azure-Anwendungsgateway
Azure Application Gateway ist ein Load Balancer für Webtraffic (OSI-Schicht 7), mit dem Sie Traffic zu Ihren Webanwendungen verwalten können. Herkömmliche Load Balancer arbeiten auf der Transportschicht (OSI-Schicht 4 - TCP und UDP) und leiten Traffic basierend auf Quell-IP-Adresse und -port an eine Ziel-IP-Adresse und einen Zielport weiter. Das Azure-Anwendungsgateway kann Routingentscheidungen basierend auf zusätzlichen Attributen einer HTTP-Anforderung treffen, z.B. URI-Pfad oder Hostheader.
Beispiel: Sie können Traffic basierend auf der eingehenden URL weiterleiten. Wenn sich
/images
also in der eingehenden URL befindet, können Sie Traffic an eine bestimmte Gruppe von Servern (als Pool bezeichnet) weiterleiten, die für Images konfiguriert sind. Wenn sich/video
in der URL befindet, wird dieser Traffic an einen anderen Pool weitergeleitet, der für Videos optimiert ist.
Empfehlungen
- Provisioning
- Wählen Sie die entsprechende Größe für die Virtual Circuits OCI FastConnect und Azure ExpressRoute aus, um die Bandbreitenanforderungen der Workload zu erfüllen.
- Stellen Sie die Oracle Database im OCI-VCN und Subnetz bereit, die mit dem OCI Dynamic Routing Gateway (DRG) und OCI FastConnect verknüpft sind.
- Richten Sie Routing- und Sicherheitsmaßnahmen oder Netzwerksicherheitsgruppe (NSG) auf OCI ein, damit der Azure Synapse Analytics-Netzwerktraffic die Oracle Database erreichen kann.
- Wenn Sie Oracle Database mit einem privaten Endpunkt konfigurieren, definieren Sie die VCN-Einstellungen so, dass Traffic ausschließlich vom angegebenen VCN zulässig ist. Dadurch wird der Zugriff von öffentlichen IPs oder VCNs eingeschränkt.
Hinweise
Beachten Sie beim Deployment dieser Referenzarchitektur die folgenden Punkte:
- Kostenfaktor
OCI FastConnect: Der Preis für OCI FastConnect bleibt in allen OCI-Regionen konsistent, ohne zusätzliche Gebühren für Daten-Ingress oder -Egress.
Azure ExpressRoute: Die Preise für Azure ExpressRoute variieren je nach Region.
- Performance
In dieser Referenzarchitektur benötigte der Kunde für seinen Anwendungsfall eine nahezu Echtzeit-Datenreplikation von der Primärdatenbank auf OCI zu Azure-Endpunkten. Durch die Verwendung von OCI GoldenGate stellte der Kunde sicher, dass seine heterogenen und Multicloud-Big Data-Reservoirs konsistent mit Echtzeitdaten aus betrieblichen und analytischen Produktionssystemen aktualisiert wurden, was eine Echtzeitanalyse erleichtert.
- Networking
Oracle Interconnect for Microsoft Azure dient als alternative Netzwerklösung und ist mit bestimmten gepaarten Azure-OCI-Regionen kompatibel. Informationen dazu, welche Azure- und OCI-Regionen Oracle Database Service for Microsoft Azure unterstützen, finden Sie unter "Weitere Informationen zu Oracle Database Service for Azure Regional Availability".
In Fällen, in denen OCI- und Azure-Regionen Oracle Interconnect for Microsoft Azure nicht unterstützen, können Sie das Rückgrat jedes Cloud-Providers verwenden, um den Traffic zu verarbeiten. Wenn Sie sich für das OCI-Backbone entscheiden, müssen Sie eine Zwischenregion einrichten, die die Oracle Interconnect for Microsoft Azure-Region innerhalb von OCI und eine Remote-Peering-Verbindung (RPC) zur Region umfasst, die keine Unterstützung für Oracle Interconnect for Microsoft Azure bietet.