Datenplattform - Data Federation

Mit einer Data Lakehouse-Architektur können Sie Ereignisdaten und Streamingdaten von Geräten effektiv in Echtzeit erfassen und analysieren und mit einer breiten Palette von Unternehmensdatenressourcen korrelieren, um Ihre Dateninvestitionen zu nutzen und die gewünschten Erkenntnisse zu gewinnen.

Aber wie korrelieren Sie Daten in Ihrem Data Lakehouse mit Daten, die sich in Ihren heterogenen Datenquellen befinden oder die in anderen Clouds oder On-Premises-Systemen bereitgestellt werden, ohne dass Daten dupliziert werden müssen?

Die Antwort ist, einen Data Federation-Ansatz zu nutzen, der Ihre Data Lakehouse-Daten mit föderierten Daten aus Cloud-Speichern von Drittanbietern und Daten aus Cloud- und On-Premises-Datenbanken kombiniert, unabhängig von ihrem physischen Standort.

Diese Referenzarchitektur positioniert die Technologielösung im gesamten Geschäftskontext:



Data Federation ist eine Technik, die Integration, Vereinheitlichung und Governance von Daten ermöglicht, die in verschiedenen Datenspeichern gespeichert sind, indem eine föderierte Abfrage-Engine verwendet wird, die eine einzelne Abfrage in Unterabfragen übersetzt, die an die Quelldatenspeicher gesendet werden. Die Ergebnisse werden dann zusammengeführt und dem Benutzer oder der Anwendung wie unten dargestellt angezeigt.



Daten-Plattform-Föderation-Übersicht-oracle.zip

Häufig wird Data Federation mit Datenvirtualisierung ausgetauscht. Durch die Datenvirtualisierung wird eine einheitliche Ansicht der Daten aus mehreren Quellen erstellt, ohne die Daten zu duplizieren, und neue Daten werden in Echtzeit bereitgestellt.

Für die Zwecke dieser Referenzarchitektur wird der Begriff Data Federation verwendet, obwohl die unten beschriebenen Funktionen sowohl Föderation als auch Virtualisierung betreffen.

Die Verwendung von Data Federation vereinfacht den Datenzugriff für Consumer, wie Analyse- und Data Science-Engines, indem sie mit einer Federation Serving Engine und nicht mit mehreren Datenquellen verbunden werden. Dadurch wird die Wiederverwendbarkeit, Governance und Sicherheit von föderierten Daten erhöht.

Analyse-Engines bieten traditionell Datenverbundfunktionen, die als Ergänzung zur Federation Serving Engine verwendet werden können. In der Regel verfügen föderierte Data-Serving-Engines über mehr Funktionen, um die Performance zu steigern und die Skalierbarkeit zu verbessern, was diesen Analyse-Engines implizit zugute kommt.

In diesem Dokument wird eine potenzielle Lösung für die Datenföderation in Oracle Cloud Infrastructure beschrieben. Es kann jedoch Alternativen geben, die verschiedene Technologien für verschiedene Szenarios verwenden.

Funktionale Architektur

Diese Architektur verwendet ein Data Lakehouse zum Speichern und Arbeiten mit Daten, unabhängig von ihrer Form oder Form. Kern dieser Architektur ist das Data Warehouse, das in Oracle Autonomous Data Warehouse bereitgestellt wird.

Darüber hinaus verwendet die Architektur eine einheitliche Abfrage-Engine, um kuratierte Daten aus ausgewählten Quellen mit den Daten im Lakehouse zu föderieren. Föderierte Daten werden je nach Datenspeicher mithilfe von Mechanismen wie externen Tabellen, Datenbanklinks und Datenfreigabe abgerufen.

Eine Föderationsarchitektur, die Lakehouse-Daten und vorhandene Datenspeicher kombiniert, ermöglicht Folgendes:

  • Alle Daten verknüpfen, unabhängig davon, wo sie gespeichert sind
  • Unterstützung einer Multicloud- und Hybrid-Cloud-Datenplattform, die auf anderen Clouds und On-Premises gespeicherte Daten föderiert
  • Vereinfachen Sie die Daten-Consumer-Erfahrung beim Abrufen und Abfragen von Daten aus verschiedenen Engines
  • Erhöhen Sie die Sicherheit, da ein einzelnes Datensicherheitsmodell in der föderierten Abfrage-Engine durchgesetzt werden kann
  • Steigern Sie die Governance, indem Sie einen Datenkatalog verwenden, der Metadaten für Entitys vereinheitlicht, die im Lakehouse gespeichert und mit der Abfrage-Engine föderiert sind
  • Steigerung der Performance durch Nutzung der Datenmaterialisierung und des autonomen Datenbank-Cachings
  • Stellen Sie mithilfe von Analyse-Dashboards, SQL-Schnittstellen, API-Endpunkten und Datenfreigabe einheitliche und kuratierte Daten für verschiedene Verbraucher bereit
  • Datenbank mit mehreren Modellen als föderierte Abfrage-Engine nutzen

Das folgende Diagramm veranschaulicht die Funktionsarchitektur. Der Einfachheit halber werden nicht alle Fähigkeiten des Lakehouse gezeigt.



Daten-Plattform-Föderation-Funktional-oracle.zip

Beachten Sie, dass diese Architektur eine föderierte Datenplattform darstellt, die hauptsächlich Batchverarbeitung verwendet. Sie kann jedoch um die Echtzeitfunktionen des Data Lakehouse zur Verarbeitung von Streamingdaten erweitert werden.

Die Streaming-Datenverarbeitung muss häufig kontextbezogene Daten innerhalb ihrer Datenpipelines konsumieren. Kontextbezogene Daten können auf verschiedenen Datenquellen gespeichert werden. Eine Data Federation Engine, die alle kontextbezogenen Daten an die Datenpipelines liefert, vereinfacht diese Pipelines jedoch.

Die Architektur konzentriert sich auf die folgenden logischen Unterteilungen:

Aufnehmen, transformieren

Erfasst und verfeinert die Daten für die Verwendung in jeder der Datenschichten in der Architektur.

Föderierte Daten werden nach Bedarf aus Cloud-Speicher, Datenbanken und Datenfreigaben verbraucht. Daten werden auf diesem Layer nicht transformiert, weil sie bereits im Quelldatenspeicher kuratiert wurden.

Persist, Kuratieren, Erstellen

Ermöglicht den Zugriff und die Navigation der Daten, um die aktuelle Geschäftsansicht anzuzeigen. Bei relationalen Technologien können Daten logisch oder physisch in einfachen relationalen, longitudinalen, dimensionalen oder OLAP-Formularen strukturiert sein. Bei nicht relationalen Daten enthält diese Schicht einen oder mehrere Datenpools, die entweder aus einem Analyseprozess oder für eine bestimmte analytische Aufgabe optimierte Daten ausgegeben werden.

Diese Schicht enthält die Federation Serving Engine, die Daten in Data Warehouse, Data Lake und föderierten Datenquellen vereinheitlicht und bereitstellt. Sie bietet die Möglichkeit, föderierte Daten bei Bedarf abzufragen und föderierte Daten für eine höhere Abfrageperformance zu materialisieren.

Die föderierende Engine bietet die Möglichkeit, Daten mithilfe von SQL, REST-APIs oder Datenfreigabe bereitzustellen, was die Interoperabilität erhöht und die Konnektivität vereinfacht, da Datenverbraucher eine Verbindung zu einer einzelnen Serving Engine anstatt zu mehreren Datenspeichern herstellen.

Analysieren, lernen, vorhersagen

Stellt die logische Geschäftsansicht der Daten für Consumer dar. Diese Abstraktion erleichtert agile Entwicklungsansätze, die Migration zur Zielarchitektur und die Bereitstellung einer einzelnen Berichtsebene aus mehreren föderierten Quellen.

Diese Schicht nutzt die Serving Engine, um föderierte Daten zu erhalten, die mit den Daten-Connectors, die auf dieser Schicht verfügbar sind und von den Visualisierungs- oder Data Science-Services bereitgestellt werden können, weiter erweitert werden können.

Mit einer föderierten Abfrage-Engine kann der Daten-Consumer-Zugriff aus den zugrunde liegenden Datenspeichern abstrahiert werden. Dadurch wird die Produktivität gesteigert, da Daten einmal föderiert und von vielen Daten-Consumern genutzt werden. Dies macht das System auch interoperabler, da jeder Consumer, der mit SQL, REST-APIs oder Data Sharing interagieren kann, Lakehouse und föderierte Daten verwenden und verbinden kann.

Die Architektur umfasst die folgenden Funktionskomponenten:

Batchaufnahme

Die Batchaufnahme ist nützlich für Daten, die nicht in Echtzeit aufgenommen werden können oder zu teuer sind, um sie für die Echtzeitaufnahme anzupassen. Es ist auch wichtig, Daten in zuverlässige und vertrauenswürdige Informationen umzuwandeln, die für den regelmäßigen Verbrauch kuratiert und persistiert werden können.

Die Batchaufnahme ergänzt die Data Federation Engine, da sie Daten aufnehmen kann, auf die die Federation Engine keinen nativen Zugriff hat, oder für bestimmte Anwendungsfälle, in denen die Daten transformiert werden müssen, um dem Lakehouse-Datenmodell zu entsprechen.

Sie können die folgenden Services zusammen oder unabhängig voneinander nutzen, um einen hochflexiblen und effektiven Datenintegrations- und Transformationsworkflow zu erzielen.

  • Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser, cloud-nativer Service, der Daten aus einer Vielzahl von Datenquellen in Oracle Cloud Infrastructure-Zielservices extrahiert, lädt, transformiert, bereinigt und umformt, wie Autonomous Data Warehouse und Oracle Cloud Infrastructure Object Storage. ETL (Extract Transform Load) nutzt die vollständig verwaltete Scale-Out-Verarbeitung in Spark, und ELT (Extract Load Transform) nutzt vollständige SQL-Push-Down-Funktionen von Autonomous Data Warehouse, um die Datenverschiebung zu minimieren und die Amortisierungszeit für neu aufgenommene Daten zu verbessern. Benutzer entwerfen Datenintegrationsprozesse mit einer intuitiven, kodlosen Benutzeroberfläche, die Integrationsabläufe optimiert, um die effizienteste Engine und Orchestrierung zu generieren und die Ausführungsumgebung automatisch zuzuweisen und zu skalieren. Oracle Cloud Infrastructure Data Integration bietet interaktive Exploration und Datenvorbereitung. Data Engineers können sich vor Schemaabweichungen schützen, indem sie Regeln zur Verarbeitung von Schemaänderungen definieren.

  • Oracle Data Integrator bietet eine umfassende Datenintegration: von Batch-Loads mit hohem Datenvolumen und hoher Performance über ereignisgesteuerte Integrationsprozesse bin hin zu SOA-fähigen Datenservices. Ein deklarativer Designansatz gewährleistet eine schnellere, einfachere Entwicklung und Wartung und bietet einen einzigartigen Ansatz für die Extraktion von Lasttransformationen (ELT), der die höchstmögliche Performance für Datentransformations- und Validierungsprozesse garantiert. Oracle-Datentransformationen verwenden eine Weboberfläche, um die Konfiguration und Ausführung von ELT zu vereinfachen und Benutzern zu helfen, Daten und Arbeitsabläufe mit einem deklarativen Designansatz zu erstellen und zu planen.

  • Oracle Data Transforms ermöglichen ELT für ausgewählte unterstützte Technologien und vereinfachen die Konfiguration und Ausführung von Datenpipelines mit einer Webbenutzeroberfläche, mit der Benutzer Datenflüsse und Workflows deklarativ erstellen und planen können. Oracle Data Transforms ist als vollständig verwaltete Umgebung in Oracle Autonomous Data Warehouse verfügbar, um Daten aus mehreren Datenquellen in eine ADW-Instanz zu laden und zu transformieren.

Je nach Anwendungsfall können diese Komponenten unabhängig oder zusammen verwendet werden, um eine hochflexible und performante Datenintegration und -transformation zu erreichen.

Batchverarbeitung

Die Batchverarbeitung transformiert große Datasets, die im Data Lakehouse gespeichert sind. Die Batchverarbeitung nutzt native Oracle Cloud Infrastructure-Services, die sich nahtlos in Oracle Cloud Infrastructure Object Storage integrieren lassen. So können Sie kuratierte Daten für Anwendungsfälle wie Datenaggregation und -anreicherung, Data Warehouse-Aufnahme sowie maschinelles Lernen und skalierbare KI-Daten erstellen.

Oracle Cloud Infrastructure Data Integration, oben beschrieben, ist ein vollständig verwalteter, serverloser, cloudnativer Service, der Daten aus einer Vielzahl von Datenquellen in Oracle Cloud Infrastructure-Zielservices extrahiert, lädt, transformiert, bereinigt und umformt, wie Oracle Autonomous Data Warehouse und Oracle Cloud Infrastructure Object Storage.

Oracle Cloud Infrastructure Data Flow ist ein vollständig verwalteter Big Data-Service, mit dem Sie Apache Spark-Anwendungen ausführen können, ohne die Infrastruktur bereitstellen oder verwalten zu müssen. Sie können damit Big Data- und KI-Anwendungen schneller bereitstellen, da Sie sich auf Ihre Anwendungen konzentrieren können, ohne den Betrieb verwalten zu müssen. Datenflussanwendungen sind wiederverwendbare Vorlagen, die aus einer Spark-Anwendung und ihren Abhängigkeiten, Standardparametern und einer Spezifikation von Standardlaufzeitressourcen bestehen.

Bedienen

Oracle Autonomous Data Warehouse ist ein selbstverwaltender, selbstsichernder und selbstreparierender Datenbankservice, der für Data Warehousing-Workloads optimiert ist. Sie müssen keine Hardware konfigurieren oder verwalten und keine Software installieren. Oracle Cloud Infrastructure übernimmt das Erstellen der Datenbank sowie Backup, Patching, Upgrade und Optimierung der Datenbank.

Nach dem Provisioning können Sie die Anzahl der CPU-Cores oder die Speicherkapazität der Datenbank jederzeit skalieren, ohne dass sich Verfügbarkeit oder Performance beeinträchtigen.

ADW kann auch Daten, die sich im Objektspeicher befinden, als externe und hybride partitionierte Tabellen virtualisieren, sodass Sie Daten, die aus anderen Quellen abgeleitet wurden, mit den Warehouse-Daten verknüpfen und konsumieren können. Sie können historische Daten auch aus dem Warehouse in den Objektspeicher verschieben und anschließend mit hybriden partitionierten Tabellen nahtlos konsumieren.

ADW kann zuvor durch Harvesting erstellte Metadaten, die im Oracle Cloud Infrastructure Data Catalog gespeichert sind, zum Erstellen externer Tabellen verwenden und Metadatenaktualisierungen im Oracle Cloud Infrastructure Data Catalog automatisch mit der Definition der externen Tabellen synchronisieren, um Konsistenz zu gewährleisten, die Verwaltung zu vereinfachen und den Aufwand zu reduzieren.

Analyse-Views, ein Autonomous Database-Feature, bieten eine schnelle und effiziente Möglichkeit, analytische Abfragen von Daten zu erstellen, die in vorhandenen Datenbanktabellen und -Views gespeichert sind. Analyse-Views organisieren Daten mit einem Dimensionsmodell. Sie ermöglichen Ihnen das einfache Hinzufügen von Aggregationen und Berechnungen zu Datasets und das Darstellen von Daten in Views, die mit relativ einfacher SQL abgefragt werden können. Mit diesem Feature können Sie ein Star- oder Snowflake-Schema semantisch direkt in ADW unter Verwendung intern und extern gespeicherter Daten modellieren und die Nutzung des Modells mit SQL und einem SQL-konformen Daten-Consumer ermöglichen.

ADW bietet die Möglichkeit, Daten, die in Cloud-Stores von Drittanbietern (nämlich AWS S3, Azure Blob und GCP CGS) gespeichert sind, in Cloud-Datenbanken von Drittanbietern (nämlich AWS Redshift, Azure Synapse Analytics, Google BigQuery und Snowflake), Datenbanken von Drittanbietern (nämlich IBM DB2, MongoDB, PostrgreSQL, Hive) und sogar SaaS-Anwendungen zu föderieren und abzufragen.

In einer einzigen Abfrage kann ADW Daten aus Cloud-Speichern, Cloud-Datenbanken und anderen gängigen Datenbanken abfragen und verknüpfen und so den Datenzugriff auf die Consumer der Serving Engine vereinfachen, da sie von der Komplexität der separaten Abfrage abstrahiert sind, mehrere Abfrage-Engines, um ein einheitliches Ergebnis zu erhalten. Es kann diese Daten auch mit Daten kombinieren, die aus Datenfreigaben stammen, die von Produzenten bereitgestellt werden, die dem offenen Delta Sharing-Protokoll entsprechen.

Cloud-Speicher

Oracle Cloud Infrastructure Object Storage ist eine internetbasierte, leistungsstarke Speicherplattform, die zuverlässige und kostengünstige Dauerhaftigkeit von Daten bietet. Oracle Cloud Infrastructure Object Storage kann eine unbegrenzte Menge unstrukturierter Daten eines beliebigen Inhaltstyps speichern, einschließlich Analysendaten. Sie können Daten sicher und geschützt direkt aus dem Internet oder aus der Cloud-Plattform speichern oder abrufen. Mit mehreren Verwaltungsschnittstellen können Sie ganz einfach klein anfangen und nahtlos skalieren, ohne dass die Performance oder Servicezuverlässigkeit beeinträchtigt wird.

Oracle Cloud Infrastructure Object Storage kann auch als Cold Storage-Schicht für das Data Warehouse verwendet werden, indem selten verwendete Daten gespeichert und anschließend nahtlos mit den neuesten Daten verknüpft werden, indem Hybridtabellen in Oracle Autonomous Data Warehouse verwendet werden.

Visualisieren/Lernen

Oracle Analytics Cloud ist ein skalierbarer und sicherer Public-Cloud-Service, mit dem Sie kollaborative Analysen für sich, Ihre Arbeitsgruppe und Ihr Unternehmen durchführen können. Es unterstützt Citizen Data Scientists, fortgeschrittene Business Analysts-Schulungen und die Ausführung von ML-Modellen. Modelle für maschinelles Lernen können im Analyseservice oder direkt in Oracle Autonomous Data Warehouse als OML-eingebettete Modelle für groß angelegte Batchvorhersagen ausgeführt werden, bei denen die Verarbeitungsleistung, Skalierbarkeit und Elastizität der Warehouse- und OCI-KI-Services wie Oracle Cloud Infrastructure Vision genutzt werden.

Mit Oracle Analytics Cloud erhalten Sie außerdem flexible Service-Management-Funktionen, darunter schnelles Setup, einfache Skalierung und Patching sowie automatisiertes Lebenszyklusmanagement.

Erfahren und vorhersagen

Oracle Cloud Infrastructure Data Science bietet Infrastruktur, Open-Source-Technologien, Bibliotheken, Packages und Data-Science-Tools, mit denen Data-Science-Teams ML-Modelle in Oracle Cloud Infrastructure erstellen, trainieren und verwalten können. Der kollaborative und projektgesteuerte Workspace bietet eine durchgängig einheitliche Benutzererfahrung und unterstützt den Lebenszyklus prädiktiver Modelle. Mit Data Science können Data Scientists und Machine Learning-Ingenieure Pakete kostenlos direkt aus dem Anaconda-Repository herunterladen und installieren. So können sie mit einem kuratierten Data Science-Ökosystem aus Librarys für maschinelles Lernen Innovationen für ihre Projekte entwickeln.

Mit dem Feature für Data Science-Jobs können Data Scientists wiederholbare Aufgaben für maschinelles Lernen in einer vollständig verwalteten Infrastruktur definieren und ausführen.

Mit der Data Science-Modellbereitstellungsfunktion können Data Scientists trainierte Modelle als vollständig verwaltete HTTP-Endpunkte bereitstellen, die Vorhersagen in Echtzeit bereitstellen, Informationen in Prozesse und Anwendungen einfließen lassen und es dem Unternehmen ermöglichen, auf relevante Ereignisse zu reagieren, wenn sie auftreten.

Oracle Machine Learning bietet leistungsstarke Funktionen für maschinelles Lernen, die eng in Oracle Autonomous Database integriert sind und Python und AutoML unterstützen. Es unterstützt Modelle mit Open Source und skalierbaren, datenbankinternen Algorithmen, die Datenvorbereitung und -bewegung reduzieren. Mit AutoML können Data Scientists die Amortisierungszeit für die Initiativen des Unternehmens für maschinelles Lernen verkürzen, indem sie automatische Algorithmusauswahl, adaptives Daten-Sampling, automatische Featureauswahl und automatische Modelloptimierung verwenden. Mit Oracle Machine Learning-Services, die in Oracle Autonomous Data Warehouse verfügbar sind, können Sie nicht nur Modelle verwalten, sondern diese Modelle auch als REST-Endpunkte bereitstellen, um Echtzeitvorhersagen im Unternehmen zu demokratisieren, sodass Unternehmen auf relevante Ereignisse reagieren können, während sie auftreten, und nicht danach.

KI-Services

Oracle Cloud Infrastructure AI Services-Services bieten eine Reihe einsatzbereiter KI-Services, mit denen Sie eine Reihe von Anwendungsfällen unterstützen können, von der Textanalyse bis zur vorausschauenden Wartung. Diese Services verfügen über vordefinierte, fein abgestimmte Modelle, die Sie mit APIs in Datenpipelines, Analysen und Anwendungen integrieren können.

Oracle Cloud Infrastructure Anomaly Detection bietet zahlreiche Tools, mit denen Sie unerwünschte Ereignisse oder Beobachtungen in Geschäftsdaten in Echtzeit identifizieren können. So können Sie Maßnahmen ergreifen, um Geschäftsstörungen zu vermeiden.

Oracle Cloud Infrastructure AI Language führt anspruchsvolle Textanalysen in großem Maßstab durch. Mit vortrainierten und benutzerdefinierten Modellen können Entwickler unstrukturierten Text verarbeiten und Erkenntnisse ohne Data Science-Expertise extrahieren. Vortrainierte Modelle unterstützen Sentimentanalyse, Schlüsselphrasenextraktion, Textklassifizierung und benannte Entityerkennung. Sie können auch benutzerdefinierte Modelle für Named Entity Recognition und Textklassifizierung mit domänenspezifischen Datasets trainieren. Mit dem Übersetzungsservice können Sie Text in 21 verschiedene Sprachen übersetzen.

Oracle Cloud Infrastructure Speech nutzt die Leistungsfähigkeit gesprochener Sprache, indem Sie Mediendateien mit menschlicher Sprache einfach in hochgenaue Texttranskriptionen konvertieren können. Mit OCI Speech können Sie Kundenserviceanrufe übersetzen, die Untertitelerstellung automatisieren und Metadaten für Medienassets generieren, um ein vollständig suchbares Archiv zu erstellen.

Oracle Cloud Infrastructure Vision führt Aufgaben zur Bilderkennung und Dokumentanalyse aus, wie das Klassifizieren von Bildern, das Erkennen von Bildern und Gesichtern, das Extrahieren von Text und das Erkennen von Tabellen. Sie können entweder vortrainierte Modelle nutzen oder ganz einfach benutzerdefinierte Vision-Modelle für branchenspezifische und kundenspezifische Szenarien erstellen. Vision Service ist ein vollständig verwalteter, mehrmandantenfähiger, nativer Cloud-Service, der alle gängigen Computer Vision-Aufgaben unterstützt.

Oracle Cloud Infrastructure Document Understanding führt Dokumentanalyseaufgaben wie das Extrahieren von Text und das Erkennen von Tabellen aus. Der OCI Document Understanding-Service ist ein vollständig verwalteter, mehrmandantenfähiger, nativer Cloud-Service, der alle gängigen Dokumentanalyseaufgaben unterstützt.

Datenanreicherung

Die Datenanreicherung kann die Daten verbessern, mit denen Modelle für maschinelles Lernen trainiert werden, um bessere und genauere Vorhersageergebnisse zu erzielen.

Mit Oracle Cloud Infrastructure Data Labeling können Sie Datasets erstellen und durchsuchen, Datensätze (Text oder Bilder) anzeigen sowie Labels zum Erstellen von KI-/ML-Modellen anwenden. Der Service bietet auch interaktive Benutzeroberflächen, die den Kennzeichnungsprozess unterstützen. Nachdem Datensätze beschriftet wurden, kann das Dataset als zeilenbegrenztes JSON zur Verwendung in der AI/ML-Modellentwicklung exportiert werden.

API

Mit der API-Schicht können Sie die aus Data Science und Oracle Machine Learning abgeleitete Intelligenz in Anwendungen, Geschäftsprozesse und Dinge einfließen lassen, um deren Betrieb und Funktion zu beeinflussen und zu verbessern. Die API-Schicht bietet eine sichere Nutzung der von Data Science bereitgestellten Modelle für Oracle Machine Learning-REST-Endpunkte und die Möglichkeit, das System zu steuern, um die Verfügbarkeit von Laufzeitumgebungen sicherzustellen. Sie können Funktionen auch nutzen, um bei Bedarf zusätzliche Logik auszuführen.

Mit Oracle Cloud Infrastructure API Gateway können Sie APIs mit privaten Endpunkten veröffentlichen, auf die Sie über Ihr Netzwerk zugreifen können. Sie können aber auch öffentliche IP-Adressen dafür angeben. Die Endpunkte unterstützen API-Validierung, Anforderungs- und Antworttransformation, CORS, Authentifizierung und Autorisierung sowie Anforderungsbegrenzung. Dadurch kann die API die Nutzung überwachen und SLAs garantieren. Nutzungspläne können auch verwendet werden, um die API-Consumer und API-Clients, die auf APIs zugreifen, zu überwachen und zu verwalten und verschiedene Zugriffsebenen für verschiedene Kunden einzurichten, um die von APIs genutzte Datennutzung zu verfolgen. Nutzungspläne sind ein wichtiges Feature zur Unterstützung der Datenmonetarisierung.

Oracle Cloud Infrastructure Functions ist eine vollständig verwaltete, mehrmandantenige, hochskalierbare, On-Demand-Funktionsserviceplattform. Sie basiert auf Oracle Cloud Infrastructure für Unternehmen und wird von der Fn-Projekt-Open-Source-Engine unterstützt.

Oracle REST Data Services (ORDS) ist eine Java-Anwendung, mit der Entwickler mit SQL- und Datenbankkenntnissen REST-APIs für Oracle Database entwickeln können. Jeder Anwendungsentwickler kann diese APIs aus jeder Sprachumgebung verwenden, ohne Clienttreiber zu installieren und zu verwalten, genauso wie er mit REST, der am häufigsten verwendeten API-Technologie, auf andere externe Services zugreift. ORDS wird als vollständig verwaltetes Feature in ADW bereitgestellt und kann zur Bereitstellung von Lakehouse-Informationen verwendet werden, indem APIs für Data Consumer verwendet werden.

Data Governance

Mit Oracle Cloud Infrastructure Data Catalog können Sie sehen, wo sich technische Assets wie Metadaten und zugehörige Attribute befinden. Außerdem können Sie ein Geschäftsglossar verwalten, das diesen technischen Metadaten zugeordnet ist. Oracle Cloud Infrastructure Data Catalog kann Oracle Autonomous Data Warehouse-Warehouse auch Metadaten bereitstellen, um die externe Tabellenerstellung im Data Warehouse zu erleichtern.

Datensicherheit

Datensicherheit ist entscheidend, um Lakehouse-Daten in vollem Umfang zu untersuchen und zu verwenden. Durch die Nutzung eines Zero-Trust-Sicherheitsmodells mit Defense-in-Depth- und RBAC-Funktionen und die Einhaltung der strengsten Vorschriften bietet Datensicherheit präventive, detektive und korrigierende Sicherheitskontrollen, um sicherzustellen, dass Datenexfiltration und -verletzungen verhindert werden.

Oracle Data Safe ist ein vollständig integrierter Oracle Cloud-Service, der auf die Datensicherheit abzielt. Er bietet ein vollständiges und integriertes Featureset zum Schutz sensibler und regulierter Daten in Oracle Cloud-Datenbanken, wie Oracle Autonomous Data Warehouse. Zu den Features gehören Sicherheitsbewertung, Benutzerbewertung, Datenerkennung, Datenmaskierung und Aktivitätsauditing.

Mit Oracle Cloud Infrastructure Audit können Sie Aktivitäten zu Oracle Cloud Infrastructure-(OCI-)Ressourcen und -Mandanten anzeigen. Mit Auditlogereignissen können Sie Sicherheitsaudits durchführen, um die Nutzung von und Änderungen an OCI-Ressourcen zu verfolgen und die Einhaltung von Standards und Vorschriften zu gewährleisten.

Oracle Cloud Infrastructure Logging bietet eine hoch skalierbare und vollständig verwaltete zentrale Schnittstelle für alle Logs im Mandanten, einschließlich Auditlogs. Mit OCI Logging können Sie von allen OCI-Ressourcen auf Logs zugreifen, damit Sie sie aktivieren, verwalten und durchsuchen können.

Oracle Cloud Infrastructure Vault ist ein Verschlüsselungsverwaltungsservice, der Verschlüsselungsschlüssel und Geheimnisse für den sicheren Zugriff auf Ressourcen speichert und verwaltet. Ermöglicht die Verwendung von vom Kunden verwalteten Schlüsseln für Oracle Autonomous Data Warehouse und Data Lake-Verschlüsselung für erhöhten Datenschutz im Ruhezustand. Ermöglicht Secrets zum sicheren Speichern von Services und Benutzerzugangsdaten, um Ihren Sicherheitsstatus zu verbessern und sicherzustellen, dass Zugangsdaten nicht gefährdet und nicht unangemessen verwendet werden.

Physische Architektur

Die physische Architektur für diese Datenplattform unterstützt Folgendes:
  • Oracle Autonomous Data Warehouse (ADW) ruft Daten aus den föderierten Datenquellen mit von Oracle verwalteten Features für heterogene Konnektivität ab
  • ADW verwendet Zieldatenbanken, auf die über das öffentliche Internet zugegriffen werden kann, die konfiguriert sind und eingehende SSL-/TLS-Verbindungen zulassen, sodass von Oracle verwaltete heterogene Konnektivität eine sichere Verbindung herstellen und Daten abfragen kann
  • ADW liest Daten aus Databricks mit Datenfreigaben
  • Databricks-Datenfreigaben sind über das öffentliche Internet zugänglich, werden jedoch mit von Databricks bereitgestellten Zugangsdatendateien gesichert
  • Daten aus AWS S3, Azure Blob und Google Cloud Storage werden entweder föderiert und bei Bedarf mit externen Tabellen gelesen oder je nach Anwendungsfall und Anforderungen in ADW kopiert.
  • Daten aus nicht föderierten Datenquellen werden sicher aufgenommen, indem Mikrobatch und Dateien aus relationalen und nicht relationalen Datenquellen verwendet werden, die nicht föderiert sind
  • Daten werden mithilfe einer Kombination aus Oracle Cloud Infrastructure Data Integration und Oracle Cloud Infrastructure Data Flow verarbeitet
  • Daten werden in ADW und Oracle Cloud Infrastructure Object Storage gespeichert und nach Qualität und Wert organisiert
  • ADW bedient Warehouse-, Lake- und Verbunddaten sicher für Verbraucher
  • Oracle Analytics Cloud stellt Geschäftsbenutzern Daten mithilfe von Visualisierungen zur Verfügung
  • Oracle Analytics Cloud wird mit Oracle Cloud Infrastructure Load Balancing bereitgestellt, das von Oracle Cloud Infrastructure Web Application Firewall (WAF) gesichert wird, um Zugriff über das Internet zu ermöglichen
  • Oracle Cloud Infrastructure Data Science wird zum Erstellen, Trainieren und Bereitstellen von ML-Modellen verwendet
  • Oracle Cloud Infrastructure API Gateway wird zur Steuerung der Data Science ML-Modell-Deployments verwendet
  • Oracle Cloud Infrastructure Data Catalog sammelt Metadaten aus ADW und Objektspeicher
  • Oracle Cloud Infrastructure Bastion wird von Administratoren zum Verwalten von Private Cloud-Ressourcen verwendet

Das folgende Diagramm zeigt die Architektur:



Datenplattform-Föderation-physisch-oracle.zip

Das Design für die physische Architektur:

  • Nutzt 2 VCNs, eines für Hub und eines für die Workload selbst
  • On-Premises-Konnektivität nutzt sowohl Oracle Cloud Infrastructure FastConnect als auch Site-to-Site-VPN für Redundanz
  • Der gesamte eingehende Traffic von On Premise und aus dem Internet wird zuerst an das Hub-VCN und dann an das Workload-VCN weitergeleitet
  • Alle Daten sind während der Übertragung und im Ruhezustand sicher
  • Services werden mit privaten Endpunkten bereitgestellt, um die Sicherheitslage zu erhöhen
  • Das VCN ist in mehrere private Subnetze aufgeteilt, um den Sicherheitsstatus zu erhöhen
  • Lake-Daten werden im Objektspeicher in mehrere Buckets aufgeteilt und nutzen dabei eine Medallion-Architektur
  • Auf föderierte Datenquellen und Cloud-Speicher wird über öffentliche Konnektivität und das NAT-Gateway zugegriffen, das an das Workload-VCN angehängt ist

Mögliche Designverbesserungen, die der Einfachheit halber bei dieser Bereitstellung nicht dargestellt werden, sind:

  • Nutzen Sie die vom Kunden verwaltete heterogene Konnektivität mit einem Oracle Database Gateway, um über private Konnektivität eine Verbindung zu föderierten Datenquellen herzustellen
  • Nutzung einer vollständigen CIS-konformen Landezone
  • Nutzen Sie eine Netzwerkfirewall, um die allgemeine Sicherheitslage zu verbessern, indem Sie den gesamten Traffic prüfen und Policys durchsetzen

Empfehlungen

Verwenden Sie die folgenden Empfehlungen als Ausgangspunkt, um Daten aus heterogenen Datenquellen für Geschäftsanalysen und maschinelles Lernen zu verwenden.

Ihre Anforderungen können von der hier beschriebenen Architektur abweichen.

Oracle Autonomous Data Warehouse

Diese Architektur verwendet Oracle Autonomous Data Warehouse (ADW) auf einer gemeinsam genutzten Infrastruktur.

  • Verwenden Sie Materialized Views, um die Performance beim Zugriff auf föderierte Daten zu erhöhen.
  • Sie sollten die Materialized Views mit der Häufigkeit aktualisieren, die erforderlich ist, um zu verhindern, dass föderierte Daten blockiert werden.
  • Sie sollten Ansichten erstellen, um Daten mit Datenbanklinks aus föderierten Quellen abzufragen, damit für diese Ansichten Harvesting ausgeführt und in Oracle Cloud Infrastructure Data Catalog katalogisiert werden kann, um die Data Governance zu verbessern.
  • Sie sollten die Zugangsdaten der föderierten Datenquelle in einem Secret in Oracle Cloud Infrastructure Vault speichern, um den Sicherheitsstatus zu erhöhen.
  • Sie sollten die Autonomous Database-Sicherheitsfeatures wie Verdeckung (dynamische Datenmaskierung) in Ansichten verwenden, die föderierte Daten zur Erhöhung der Datensicherheit aufdecken.
  • Verwenden Sie die gemeinsame Verwendung von Daten, um föderierte Daten aus heterogenen Datenquellen zu konsumieren, die mit dem offenen Delta Sharing-Protokoll kompatibel sind.
  • Verwenden Sie die Datenfreigabe, um kuratierte Daten für Consumer freizugeben, die mit dem offenen Delta Sharing-Protokoll kompatibel sind.
  • Sie sollten die vom Kunden verwaltete heterogene Konnektivität mit einem Oracle Database Gateway verwenden, um eine Verbindung zu föderierten Datenquellen mit privater Konnektivität herzustellen, für die Sie mehr Sicherheit, geringere Latenz oder beides benötigen.

Oracle Analytics Cloud

Diese Architektur nutzt Oracle Analytics Cloud (OAC), um Endbenutzern erweiterte Analysen bereitzustellen.

  • Erwägen Sie die Verwendung der umfangreichen Datenquellen von OAC, um die von ADW verwendeten föderierten Datenquellen zu ergänzen.
  • Erwägen Sie die Föderation von Datenquellen, die in OAC auf ADW erforderlich sind, um die Performance, das Caching, die Verarbeitung der Auslagerung an die Serving Engine und die Vereinfachung der analytischen semantischen Schicht zu verbessern.

Beachten Sie, dass diese Architektur auf einer Data Lakehouse-Referenzarchitektur basiert, einschließlich der Empfehlungen, die für Ihre Architektur anwendbar sind. Im Abschnitt Weitere Informationen finden Sie einen Link zur Lakehouse-Referenzarchitektur und zu den Ressourcen.

Hinweise

Berücksichtigen Sie beim Föderieren von Daten für Analysen die folgenden Implementierungsoptionen.

Richtlinien Empfohlen Andere Optionen Begründung
Datenraffinerie

Oracle Cloud Infrastructure Data Integration

  • Oracle Data Integrator
  • Oracle Autonomous Database - Datentransformationen

Oracle Cloud Infrastructure Data Integration bietet eine cloud-native, serverlose, vollständig verwaltete ETL-Plattform, die skalierbar und kosteneffizient ist.

Datenpersistenz
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous Data Warehouse ist eine benutzerfreundliche, vollständig autonome Datenbank, die elastisch skalierbar ist, schnelle Abfrageperformance liefert und keine Datenbankadministration erfordert. Es bietet auch direkten Zugriff auf die Daten aus externen oder hybriden partitionierten Objektspeicher-Tabellen.

Oracle Cloud Infrastructure Object Storage speichert unbegrenzte Daten im Raw-Format.

Datenverarbeitung
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
Drittanbietertools

Oracle Cloud Infrastructure Data Integration bietet eine cloud-native, serverlose, vollständig verwaltete ETL-Plattform, die skalierbar und kostengünstig ist.

Oracle Cloud Infrastructure Data Flow bietet eine serverlose Spark-Umgebung zur skalierbaren Verarbeitung von Daten mit einem nutzungsabhängigen, extrem elastischen Modell.

Zugriff und Interpretation
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Oracle Cloud Infrastructure-KI-Services
Drittanbietertools

Oracle Analytics Cloud ist vollständig verwaltet und eng in die kuratierten Daten in Oracle Autonomous Data Warehouse integriert.

Data Science ist eine vollständig verwaltete Selfservice-Plattform, auf der Data Science-Teams Modelle für Machine Learning (ML) in Oracle Cloud Infrastructure erstellen, trainieren und verwalten können. Der Data Science-Service bietet Infrastruktur- und Data Science-Tools wie AutoML und Modellbereitstellungsfunktionen.

Oracle Machine Learning ist eine vollständig verwaltete Selfserviceplattform für Data Science, die in Oracle Autonomous Data Warehouse verfügbar ist und die Verarbeitungsleistung des Warehouse nutzt, um skalierbare ML-Modelle zu erstellen, zu trainieren, zu testen und bereitzustellen, ohne die Daten außerhalb des Warehouse verschieben zu müssen.

Oracle Cloud Infrastructure-KI-Services sind eine Reihe von Services, die vordefinierte Modelle bereitstellen, die speziell für die Ausführung von Aufgaben wie die Inferenzierung potenzieller Anomalien oder die Erkennung von Stimmungen entwickelt und trainiert wurden.

Bestätigungen

  • Author: José Cruz
  • Contributors: Robert Lies