Datenplattform - Data Federation

Mit einer Data Lakehouse-Architektur können Sie Ereignisdaten und Streamingdaten von Geräten effektiv in Echtzeit erfassen und analysieren und mit einer breiten Palette von Unternehmensdatenressourcen korrelieren, um Ihre Dateninvestitionen zu nutzen und die gewünschten Erkenntnisse zu gewinnen.

Aber wie korrelieren Sie Daten in Ihrem Data Lakehouse mit Daten, die sich in Ihren heterogenen Datenquellen befinden oder die in anderen Clouds oder On-Premises-Systemen bereitgestellt werden, ohne dass Daten dupliziert werden müssen?

Die Antwort ist, einen Data Federation-Ansatz zu nutzen, der Ihre Data Lakehouse-Daten mit föderierten Daten aus Cloud-Speichern von Drittanbietern und Daten aus Cloud- und On-Premises-Datenbanken kombiniert, unabhängig von ihrem physischen Standort.

Diese Referenzarchitektur positioniert die Technologielösung im gesamten Geschäftskontext:

Eine Beschreibung von data-driven-business-context.png folgt.

Beschreibung der Abbildung data-driven-business-context.png

Data Federation ist eine Technik, die Integration, Vereinheitlichung und Governance von Daten ermöglicht, die in verschiedenen Datenspeichern gespeichert werden, indem eine föderierte Abfrage-Engine verwendet wird, die eine einzelne Abfrage in Unterabfragen übersetzt, die an die Quelldatenspeicher gesendet werden. Die Ergebnisse werden dann zusammengeführt und dem Benutzer oder der Anwendung angezeigt, wie unten dargestellt.

Beschreibung von data-platform-federation-overview.png folgt

Beschreibung der Abbildung data-platform-federation-overview.png

data-platform-federation-overview-oracle.zip#GUID-6CFF3896-837A-4379-90C4-C1797B831AA6

Häufig wird die Datenföderation mit der Datenvirtualisierung geändert. Durch die Datenvirtualisierung wird eine einheitliche Ansicht der Daten aus mehreren Quellen erstellt, ohne die Daten zu duplizieren, und frische Daten werden in Echtzeit bereitgestellt.

Für die Zwecke dieser Referenzarchitektur wird der Begriff "Data Federation" verwendet, obwohl sich die unten beschriebenen Funktionen sowohl auf die Föderation als auch auf die Virtualisierung beziehen.

Die Verwendung von Data Federation vereinfacht den Datenzugriff für Verbraucher, wie Analysen und Data Science-Engines, indem sie mit einer föderierten Serving Engine und nicht mit mehreren Datenquellen verbunden werden, wodurch die Wiederverwendbarkeit, Governance und Sicherheit föderierter Daten erhöht wird.

Analyse-Engines bieten traditionell Datenverbundfunktionen, die als Ergänzung zur föderierten Serving Engine verwendet werden können. In der Regel verfügen föderierte Datenbereitstellungs-Engines über mehr Funktionen, um die Leistung zu steigern und die Skalierbarkeit zu adressieren, von denen diese Analyse-Engines implizit profitieren.

In diesem Dokument wird eine potenzielle Lösung für die Datenföderation in Oracle Cloud Infrastructure beschrieben. Es gibt jedoch Alternativen, die verschiedene Technologien für verschiedene Szenarien verwenden.

Funktionale Architektur

Diese Architektur verwendet ein Data Lakehouse zum Speichern und Arbeiten mit Daten, unabhängig von ihrer Form oder Form. Im Mittelpunkt dieser Architektur steht das Data Warehouse, das auf Oracle Autonomous AI Lakehouse bereitgestellt wird.

Darüber hinaus verwendet die Architektur eine einheitliche Abfrage-Engine, um kuratierte Daten aus ausgewählten Quellen mit den Daten in Lakehouse zu föderieren. Föderierte Daten werden mithilfe von Mechanismen wie externen Tabellen, Datenbanklinks und Datenfreigabe bezogen, je nach Datenspeicher.

Eine Föderationsarchitektur, die Lakehouse-Daten und vorhandene Datenspeicher kombiniert, ermöglicht Folgendes:

Alle Daten verknüpfen, unabhängig davon, wo sie gespeichert sind
Unterstützung einer Multicloud- und Hybrid-Cloud-Datenplattform, die Daten föderiert, die in anderen Clouds und On-Premises gespeichert sind
Vereinfachen Sie die Erfahrung der Datenkonsumenten beim Abrufen und Abfragen von Daten aus verschiedenen Engines
Erhöhen Sie die Sicherheit, da ein einzelnes Datensicherheitsmodell in der föderierten Abfrage-Engine durchgesetzt werden kann
Steigern Sie die Governance mit einem Datenkatalog, der Metadaten für Entitys vereinheitlicht, die im Lakehouse gespeichert und mit der Abfrage-Engine föderiert sind
Leistungssteigerung durch Nutzung von Datenmaterialisierung und autonomem Datenbank-Caching
Bereitstellung einheitlicher und kuratierter Daten für verschiedene Verbraucher mithilfe von Analyse-Dashboards, SQL-Schnittstellen, API-Endpunkten und Datenaustausch
Datenbank mit mehreren Modellen als föderierte Abfrage-Engine nutzen

Das folgende Diagramm veranschaulicht die funktionale Architektur. Der Einfachheit halber werden nicht alle Möglichkeiten des Lakehouse gezeigt.

Beschreibung von data-platform-federation-functional.png folgt

Beschreibung der Abbildung data-platform-federation-functional.png

data-platform-federation-functional-oracle-1.zip#GUID-827999E3-20E0-4D6C-B343-7AD45CF085A9

Beachten Sie, dass diese Architektur eine föderierte Datenplattform darstellt, die hauptsächlich Batchverarbeitung verwendet. Sie kann jedoch mit den Echtzeitfunktionen des Data Lakehouse zur Verarbeitung von Streamingdaten erweitert werden.

Die Streaming-Datenverarbeitung muss häufig kontextbezogene Daten innerhalb der Datenpipelines konsumieren. Kontextbezogene Daten können in verschiedenen Datenquellen gespeichert werden. Eine Data Federation Engine, die alle kontextbezogenen Daten an die Datenpipelines liefert, vereinfacht diese Pipelines.

Die Architektur konzentriert sich auf die folgenden logischen Bereiche:

Aufnahme, Transformation

Nimmt die Daten auf und verfeinert sie zur Verwendung in jeder der Datenschichten in der Architektur.

Föderierte Daten werden bei Bedarf aus Cloud-Speicher, Datenbanken und Datenfreigaben genutzt. Daten werden auf diesem Layer nicht transformiert, weil sie bereits im Quelldatenspeicher kuratiert wurden.

Beibehalten, kuratieren, erstellen

Ermöglicht den Zugriff auf und die Navigation der Daten, um die aktuelle Geschäftsansicht anzuzeigen. Bei relationalen Technologien können Daten logisch oder physisch in einfachen relationalen, longitudinalen, dimensionalen oder OLAP-Formen strukturiert sein. Bei nicht-relationalen Daten enthält diese Schicht einen oder mehrere Datenpools, die entweder aus einem Analyseprozess oder für eine bestimmte analytische Aufgabe optimierte Daten ausgegeben werden.

Diese Schicht enthält die föderierte Serving Engine, die Daten in Data Warehouse-, Data Lake- und föderierten Datenquellen vereinheitlicht und verarbeitet. Es bietet die Möglichkeit, föderierte Daten bei Bedarf abzufragen und föderierte Daten zu materialisieren, um die Abfrageperformance zu steigern.

Die föderierende Engine bietet die Möglichkeit, Daten mit SQL, REST-APIs oder Datenfreigabe zu bedienen, was die Interoperabilität erhöht und gleichzeitig die Konnektivität vereinfacht, da Datenkonsumenten eine Verbindung zu einer Single Serving Engine und nicht zu mehreren Datenspeichern herstellen.

Analysieren, lernen, vorhersagen

Ruft die logische Geschäftsansicht der Daten für Consumer ab. Diese Abstraktion erleichtert agile Ansätze zur Entwicklung, Migration zur Zielarchitektur und die Bereitstellung einer einzelnen Berichtsebene aus mehreren föderierten Quellen.

Diese Schicht nutzt die Serving Engine, um föderierte Daten zu erhalten, die mit den auf dieser Schicht verfügbaren Datenkonnektoren weiter erweitert werden können und von den Visualisierungs- oder Data Science-Services bereitgestellt werden.

Durch die Verwendung einer föderierten Abfrage-Engine kann der Daten-Consumer-Zugriff von den zugrunde liegenden Datenspeichern abstrahiert werden. Dies erhöht die Produktivität, da Daten einmal föderiert und von vielen Daten-Consumern genutzt werden. Dadurch wird das System auch interoperabler, da jeder Verbraucher, der mit SQL, REST-APIs oder Datenfreigabe interoperieren kann, Lakehouse- und föderierte Daten verwenden und verknüpfen kann.

Die Architektur verfügt über die folgenden funktionalen Komponenten:

Batchaufnahme

Die Batchaufnahme ist nützlich für Daten, die nicht in Echtzeit aufgenommen werden können oder die zu kostspielig sind, um sich für die Echtzeitaufnahme anzupassen. Es ist auch wichtig, Daten in zuverlässige und vertrauenswürdige Informationen umzuwandeln, die kuratiert und für den regelmäßigen Verbrauch beibehalten werden können.

Die Batchaufnahme ergänzt die Data Federation Engine, weil sie Daten aufnehmen kann, auf die die Federation Engine keinen nativen Zugriff hat, oder für bestimmte Anwendungsfälle, in denen die Daten transformiert werden müssen, um dem Lakehouse-Datenmodell zu entsprechen.

Sie können die folgenden Services zusammen oder unabhängig voneinander nutzen, um einen hochflexiblen und effektiven Datenintegrations- und Transformationsworkflow zu erreichen.

Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser Service zum Entwerfen und Ausführen von Datenpipelines. Es ermöglicht eine nahtlose Extraktion, Transformation und das Laden von Daten in OCI-Ziele wie Autonomous AI Lakehouse und OCI Object Storage. Benutzer können Integrationsabläufe über eine kodierte, intuitive Benutzeroberfläche erstellen, die automatisch Ausführungsumgebungen skaliert. Es unterstützt sowohl ETL mit Spark-basierter Verarbeitung als auch ELT mit SQL Pushdown für Performance und Effizienz. Der Service bietet auch Tools zur Datenaufbereitung und schützt vor Schemaabweichungen durch regelbasiertes Handling.
Oracle Data Integrator bietet umfassende Datenintegration: von Batch-Loads mit hohem Datenvolumen und hoher Performance über ereignisgesteuerte Trickle-Feed-Integrationsprozesse bin hin zu SOA-fähigen Datenservices. Ein deklarativer Designansatz sorgt für eine schnellere, einfachere Entwicklung und Wartung und bietet einen einzigartigen Ansatz zum Extrahieren von Lasttransformationen (ELT), mit dem ein Höchstmaß an Performance für Datentransformations- und Validierungsprozesse gewährleistet wird. Oracle-Datentransformationen verwenden eine Webschnittstelle, um die Konfiguration und Ausführung von ELT zu vereinfachen und Benutzern zu helfen, Daten und Arbeitsabläufe mit einem deklarativen Designansatz zu erstellen und zu planen.
Oracle-Datentransformationen ermöglichen ELT für ausgewählte unterstützte Technologien und vereinfachen die Konfiguration und Ausführung von Datenpipelines, indem eine Webbenutzeroberfläche verwendet wird, mit der Benutzer Datenflüsse und Workflows deklarativ erstellen und planen können. Oracle Data Transforms ist als vollständig verwaltete Umgebung in Oracle Autonomous AI Lakehouse verfügbar, um Daten aus mehreren Datenquellen in eine Oracle Autonomous AI Lakehouse-Instanz zu laden und zu transformieren.

Je nach Anwendungsfall können diese Komponenten unabhängig oder zusammen verwendet werden, um eine hochflexible und leistungsstarke Datenintegration und -transformation zu erreichen.

Batchverarbeitung

Die Batchverarbeitung transformiert große Datasets, die im Data Lakehouse gespeichert sind. Die Batchverarbeitung nutzt native Oracle Cloud Infrastructure-Services, die sich nahtlos in Oracle Cloud Infrastructure Object Storage integrieren lassen, und ermöglicht es Ihnen, kuratierte Daten für Anwendungsfälle wie Datenaggregation und -anreicherung, Data Warehouse-Aufnahme sowie skalierbare Nutzung von maschinellem Lernen und KI-Daten zu erstellen.

Oracle Cloud Infrastructure Data Integration, wie oben beschrieben, ist ein vollständig verwalteter, serverloser, Cloud-nativer Service, der Daten aus einer Vielzahl von Datenquellen in Oracle Cloud Infrastructure-Zielservices wie Oracle Autonomous AI Lakehouse und Oracle Cloud Infrastructure Object Storage extrahiert, lädt, transformiert, bereinigt und neu formt.

Oracle Cloud Infrastructure Data Flow ist ein vollständig verwalteter Big-Data-Service, mit dem Sie Apache Spark-Anwendungen ausführen können, ohne Infrastruktur bereitstellen oder verwalten zu müssen. Damit können Sie Big-Data- und KI-Anwendungen schneller bereitstellen, da Sie sich auf Ihre Anwendungen konzentrieren können, ohne den Betrieb verwalten zu müssen. Datenflussanwendungen sind wiederverwendbare Vorlagen, die aus einer Spark-Anwendung und ihren Abhängigkeiten, Standardparametern und einer Spezifikation der Standardlaufzeitressourcen bestehen.

Service

Oracle Autonomous AI Lakehouse ist ein selbstverwaltender, selbstsichernder, selbstreparierender Datenbankservice, der für Data Warehousing-Workloads optimiert ist. Sie müssen weder Hardware konfigurieren oder verwalten noch Software installieren. OCI übernimmt das Erstellen, Sichern, Patchen, Upgraden und Optimieren der Datenbank.

Nach dem Provisioning können Sie die Anzahl der CPU-Cores oder die Speicherkapazität der Datenbank jederzeit skalieren, ohne dass sich dies auf Verfügbarkeit oder Performance auswirkt.

Oracle Autonomous AI Lakehouse kann auch Daten, die sich im Objektspeicher befinden, als externe und hybride partitionierte Tabellen virtualisieren, sodass Sie Daten, die aus anderen Quellen abgeleitet wurden, mit den Warehouse-Daten verknüpfen und nutzen können. Sie können historische Daten auch aus dem Warehouse in den Objektspeicher verschieben und dann mithilfe hybrider partitionierter Tabellen nahtlos konsumieren.

Oracle Autonomous AI Lakehouse kann zuvor in Oracle Cloud Infrastructure Data Catalog gespeicherte Metadaten verwenden, um externe Tabellen zu erstellen, und Metadatenupdates im Oracle Cloud Infrastructure Data Catalog automatisch mit der Definition externer Tabellen synchronisieren, um Konsistenz zu gewährleisten, die Verwaltung zu vereinfachen und den Aufwand zu reduzieren.

Analyse-Views, ein Autonomous AI Database-Feature, bieten eine schnelle und effiziente Möglichkeit, analytische Abfragen von Daten zu erstellen, die in vorhandenen Datenbanktabellen und -Views gespeichert sind. Analyse-Views organisieren Daten mit einem Dimensionsmodell. Sie ermöglichen es Ihnen, ganz einfach Aggregationen und Berechnungen zu Datasets hinzuzufügen und Daten in Ansichten zu präsentieren, die mit relativ einfacher SQL abgefragt werden können. Mit diesem Feature können Sie ein Star- oder Snowflake-Schema semantisch direkt in Oracle Autonomous AI Lakehouse modellieren. Dabei werden intern und extern gespeicherte Daten verwendet. Außerdem können Sie das Modell mit SQL und jedem SQL-konformen Daten-Consumer nutzen.

Oracle Autonomous AI Lakehouse bietet die Möglichkeit, Daten zu föderieren und abzufragen, die in Cloud-Stores von Drittanbietern (nämlich AWS S3, Azure Blob und GCP CGS), in Cloud-Datenbanken von Drittanbietern (nämlich AWS Redshift, Azure Synapse Analytics, Google BigQuery und Snowflake), Datenbanken von Drittanbietern (nämlich IBM DB2, MongoDB, PostrgreSQL, Hive) und sogar SaaS-Anwendungen gespeichert sind.

In einer einzigen Abfrage kann Oracle Autonomous AI Lakehouse Daten aus Cloud-Speichern, Cloud-Datenbanken und anderen gängigen Datenbanken abfragen und verknüpfen. Dadurch wird der Datenzugriff auf die bereitstellenden Engine-Consumer vereinfacht, da sie von der Komplexität der separaten Abfrage mehrerer Abfrage-Engines abstrahiert werden, um ein einheitliches Ergebnis zu erhalten. Es kann diese Daten auch mit Daten kombinieren, die aus Datenfreigaben stammen, die von Herstellern bereitgestellt werden, die dem offenen Delta Sharing-Protokoll entsprechen.

Cloud-Speicher

Oracle Cloud Infrastructure Object Storage ist eine internetbasierte, leistungsstarke Speicherplattform mit zuverlässiger und kostengünstiger Datendauerhaftigkeit. Oracle Cloud Infrastructure Object Storage kann eine unbegrenzte Menge unstrukturierter Daten eines beliebigen Inhaltstyps speichern. Hierzu zählen Analysedaten. Sie können Daten sicher und geschützt direkt aus dem Internet oder aus der Cloud-Plattform speichern oder abrufen. Über mehrere Managementschnittstellen können Sie problemlos klein anfangen und nahtlos skalieren, ohne dass sich die Leistung oder die Servicezuverlässigkeit verschlechtert.

Oracle Cloud Infrastructure Object Storage kann auch als Cold-Storage-Layer für das Data Warehouse verwendet werden, indem selten verwendete Daten gespeichert und dann nahtlos mit den neuesten Daten verknüpft werden, indem Hybridtabellen in Oracle Autonomous AI Lakehouse verwendet werden.

Visualisieren/Lernen

Oracle Analytics Cloud ist ein skalierbarer und sicherer Public-Cloud-Service, der eine vollständige Reihe von Funktionen bietet, mit denen Sie kollaborative Analysen für Sie, Ihre Arbeitsgruppen und Ihr Unternehmen durchführen und ausführen können. Es unterstützt Citizen Data Scientists, erweiterte Business Analysts-Schulungen und die Ausführung von ML-Modellen. Modelle für maschinelles Lernen können im Analyseservice oder direkt in Oracle Autonomous AI Lakehouse als OML-eingebettete Modelle für groß angelegte Batchvorhersagen ausgeführt werden, bei denen die Verarbeitungsleistung, Skalierbarkeit und Elastizität der Warehouse- und OCI-KI-Services wie Oracle Cloud Infrastructure Vision genutzt werden.

Mit Oracle Analytics Cloud erhalten Sie außerdem flexible Service-Management-Funktionen wie schnelles Setup, einfache Skalierung und Patching sowie automatisiertes Lebenszyklusmanagement.

Lernen und vorhersagen

Oracle Cloud Infrastructure Data Science bietet Infrastruktur, Open-Source-Technologien, Bibliotheken, Packages und Data-Science-Tools für Data-Science-Teams zum Erstellen, Trainieren und Verwalten von ML-Modellen in Oracle Cloud Infrastructure. Der kollaborative und projektgesteuerte Workspace bietet eine durchgängig einheitliche Benutzererfahrung und unterstützt den Lebenszyklus von Vorhersagemodellen.

Mit dem Data Science-Jobfeature können Data Scientists wiederholbare Aufgaben des maschinellen Lernens in einer vollständig verwalteten Infrastruktur definieren und ausführen.

Mit dem Data Science-Modell-Deployment-Feature können Data Scientists trainierte Modelle als vollständig verwaltete HTTP-Endpunkte bereitstellen, die Vorhersagen in Echtzeit bereitstellen, Erkenntnisse in Prozesse und Anwendungen einfließen lassen und es dem Unternehmen ermöglichen, auf relevante Ereignisse zu reagieren, sobald sie auftreten.

Oracle Machine Learning bietet leistungsstarke Funktionen für maschinelles Lernen, die eng in Oracle Autonomous AI Database integriert sind und Unterstützung für Python und AutoML bieten. Es unterstützt Modelle mit Open-Source- und skalierbaren datenbankinternen Algorithmen, die Datenvorbereitung und -bewegung reduzieren. AutoML hilft Data Scientists, die Amortisierungszeit der Initiativen für maschinelles Lernen des Unternehmens zu verkürzen, indem es die automatische Algorithmusauswahl, das adaptive Datensampling, die automatische Featureauswahl und die automatische Modelloptimierung verwendet. Mit Oracle Machine Learning-Services, die in Oracle Autonomous AI Lakehouse verfügbar sind, können Sie nicht nur Modelle verwalten, sondern diese Modelle auch als REST-Endpunkte bereitstellen, um Echtzeitvorhersagen im Unternehmen zu demokratisieren, damit Unternehmen auf relevante Ereignisse reagieren können, wenn sie auftreten, und nicht nach der Tatsache.

KI-Services

Oracle Cloud Infrastructure AI Services-Services bieten eine Reihe an einsatzbereiten KI-Services, mit denen eine Reihe von Anwendungsfällen unterstützt werden können, von der Textanalyse bis zur vorausschauenden Wartung. Diese Services verfügen über vordefinierte, fein abgestimmte Modelle, die Sie mithilfe von APIs in Datenpipelines, Analysen und Anwendungen integrieren können.

Die Oracle Cloud Infrastructure Anomaly Detection bietet zahlreiche Tools, mit denen unerwünschte Ereignisse oder Beobachtungen in Geschäftsdaten in Echtzeit identifiziert werden können, damit Sie Aktionen zur Vermeidung von Geschäftsunterbrechungen ergreifen können.

Oracle Cloud Infrastructure Language führt umfangreiche Textanalysen in großem Maßstab durch. Mit vortrainierten und benutzerdefinierten Modellen können Entwickler unstrukturierten Text verarbeiten und Erkenntnisse ohne Data Science-Kenntnisse gewinnen. Vorgeschulte Modelle unterstützen Sentimentanalyse, Schlüsselphrase-Extraktion, Textklassifizierung und Named Entity Recognition. Sie können auch benutzerdefinierte Modelle für die Erkennung benannter Entitys und die Textklassifizierung mit domänenspezifischen Datasets trainieren. Mit dem Übersetzungsservice können Sie Text in 21 verschiedene Sprachen übersetzen.

Oracle Cloud Infrastructure Speech nutzt die Leistungsfähigkeit gesprochener Sprache, indem es Ihnen ermöglicht, Mediendateien mit menschlicher Sprache einfach in hochpräzise Texttranskriptionen zu konvertieren. Mit OCI Speech können Sie Kundenserviceanrufe transkribieren, die Untertitelerstellung automatisieren und Metadaten für Medienassets generieren, um ein vollständig durchsuchbares Archiv zu erstellen.

Oracle Cloud Infrastructure Vision führt Bilderkennungs- und Dokumentanalyseaufgaben aus, wie das Klassifizieren von Bildern, das Erkennen von Gesichtern, das Extrahieren von Text und das Erkennen von Tabellen. Sie können vortrainierte Modelle nutzen oder ganz einfach benutzerdefinierte Vision-Modelle für branchenspezifische und kundenspezifische Szenarien erstellen. OCI Vision ist ein vollständig verwalteter, mehrmandantenfähiger, nativer Cloud-Service, der bei allen gängigen Computer Vision-Aufgaben hilft.

Oracle Cloud Infrastructure Document Understanding führt Dokumentanalyseaufgaben aus, wie das Extrahieren von Text und das Erkennen von Tabellen. Der OCI Document Understanding-Service ist ein vollständig verwalteter, mehrmandantenfähiger, nativer Cloud-Service, der bei allen gängigen Dokumentanalyseaufgaben hilft.

Datenanreicherung

Die Datenanreicherung kann die Daten verbessern, mit denen Modelle für maschinelles Lernen trainiert werden, um bessere und genauere Vorhersageergebnisse zu erzielen.

Mit Oracle Cloud Infrastructure Data Labeling können Sie Datasets erstellen und durchsuchen, Datensätze (Text oder Bilder) anzeigen und Labels zum Erstellen von KI/ML-Modellen anwenden. Der Service bietet auch interaktive Benutzeroberflächen, die für den Etikettierungsprozess entwickelt wurden. Nachdem Datensätze beschriftet wurden, kann das Dataset als zeilenbegrenztes JSON zur Verwendung in der KI/ML-Modellentwicklung exportiert werden.

API

Mit der API-Schicht können Sie die von Data Science und Oracle Machine Learning abgeleitete Intelligenz in Anwendungen, Geschäftsprozesse und Dinge integrieren, um deren Betrieb und Funktion zu beeinflussen und zu verbessern. Der API-Layer bietet eine sichere Nutzung der von Data Science bereitgestellten Modelle für Oracle Machine Learning-REST-Endpunkte und die Möglichkeit, das System zu steuern, um die Verfügbarkeit von Laufzeitumgebungen sicherzustellen. Sie können Funktionen auch nutzen, um nach Bedarf zusätzliche Logik auszuführen.

Mit Oracle Cloud Infrastructure API Gateway können Sie APIs mit privaten Endpunkten veröffentlichen, auf die über Ihr Netzwerk zugegriffen werden kann. Außerdem können Sie APIs mit öffentlichen IP-Adressen angeben, wenn Internettraffic akzeptiert werden soll. Die Endpunkte unterstützen API-Validierung, Anforderungs- und Antworttransformation, CORS, Authentifizierung und Autorisierung sowie Anforderungsbegrenzung. Es ermöglicht API-Beobachtbarkeit, die Nutzung zu überwachen und SLAs zu garantieren. Nutzungspläne können auch verwendet werden, um die API-Consumer und API-Clients zu überwachen und zu verwalten, die auf APIs zugreifen, und um verschiedene Zugriffsebenen für verschiedene Kunden einzurichten, um die Datennutzung zu verfolgen, die mit APIs verbraucht wird. Nutzungspläne sind ein wichtiges Feature zur Unterstützung der Datenmonetarisierung.

Oracle Cloud Infrastructure Functions ist eine vollständig verwaltete, mehrmandantenfähige, hochskalierbare, On-Demand-Funktionen-as-a-Service-Plattform. Sie basiert auf Oracle Cloud Infrastructure der Unternehmensklasse und wird von der Fn Project Open Source Engine unterstützt.

Oracle REST Data Services (ORDS) ist eine Java-Anwendung, mit der Entwickler mit SQL- und Datenbankkenntnissen REST-APIs für Oracle Database entwickeln können. Jeder Anwendungsentwickler kann diese APIs aus jeder Sprachumgebung verwenden, ohne Clienttreiber zu installieren und zu verwalten, genauso wie er mit REST, der am häufigsten verwendeten API-Technologie, auf andere externe Services zugreift. ORDS wird als vollständig verwaltetes Feature in Oracle Autonomous AI Lakehouse bereitgestellt und kann verwendet werden, um Lakehouse-Informationen bereitzustellen, indem APIs für Datenkonsumenten verwendet werden.

Data Governance

Oracle Cloud Infrastructure Data Catalog bietet einen Überblick darüber, wo sich technische Assets wie Metadaten und entsprechende Attribute befinden, und bietet die Möglichkeit, ein Geschäftsglossar zu verwalten, das diesen technischen Metadaten zugeordnet ist. Oracle Cloud Infrastructure Data Catalog kann auch Metadaten für Oracle Autonomous AI Lakehouse Warehouse bereitstellen, um die Erstellung externer Tabellen im Data Warehouse zu erleichtern.

Datensicherheit

Die Datensicherheit ist entscheidend für die Erforschung und Nutzung von Lakehouse-Daten in vollem Umfang. Durch die Nutzung eines Zero-Trust-Sicherheitsmodells mit Defense-in-Depth- und RBAC-Funktionen und die Sicherstellung der Einhaltung strengster Vorschriften bietet die Datensicherheit vorbeugende, erkennbare und korrigierende Sicherheitskontrollen, um sicherzustellen, dass Datenexfiltration und -verletzungen verhindert werden.

Oracle Data Safe ist ein vollständig integrierter Oracle Cloud-Service, der sich auf die Datensicherheit konzentriert. Er bietet ein vollständiges und integriertes Funktionsset zum Schutz sensibler und regulierter Daten in Oracle Cloud-Datenbanken wie Oracle Autonomous AI Lakehouse. Zu den Features gehören Sicherheitsbewertung, Benutzerbewertung, Datenerkennung, Datenmaskierung und Aktivitätsauditing.

Oracle Cloud Infrastructure Audit bietet Einblick in Aktivitäten im Zusammenhang mit Oracle Cloud Infrastructure-(OCI-)Ressourcen und -Mandanten. Mit Auditlogereignissen können Sie Sicherheitsaudits durchführen, um die Nutzung von und Änderungen an OCI-Ressourcen zu verfolgen und die Einhaltung der Standards und Vorschriften zu gewährleisten.

Oracle Cloud Infrastructure Logging bietet eine hoch skalierbare und vollständig verwaltete zentrale Schnittstelle für alle Logs im Mandanten, einschließlich Auditlogs. Mit OCI Logging können Sie von allen OCI-Ressourcen auf Logs zugreifen, sodass Sie diese aktivieren, verwalten und durchsuchen können.

Oracle Cloud Infrastructure Vault ist ein Verschlüsselungsverwaltungsservice, der Verschlüsselungsschlüssel und Secrets für den sichere Zugriff auf Ressourcen speichert oder verwaltet. Ermöglicht die Verwendung von vom Kunden verwalteten Schlüsseln für Oracle Autonomous AI Lakehouse und Data Lake-Verschlüsselung, um den Datenschutz im Ruhezustand zu erhöhen. Sie ermöglicht es Secrets, Services und Benutzerzugangsdaten sicher zu speichern, um Ihren Sicherheitsstatus zu verbessern und sicherzustellen, dass Zugangsdaten nicht gefährdet und unangemessen verwendet werden.

Physische Architektur

Die physische Architektur für diese Datenplattform unterstützt Folgendes:

Oracle Autonomous AI Lakehouse bezieht Daten aus den föderierten Datenquellen mit von Oracle verwalteten heterogenen Konnektivitätsfeatures
Oracle Autonomous AI Lakehouse verwendet Zieldatenbanken, auf die über das öffentliche Internet zugegriffen werden kann, die konfiguriert sind und eingehende SSL-/TLS-Verbindungen zulassen, sodass von Oracle verwaltete heterogene Konnektivität Daten sicher verbinden und abfragen kann
Oracle Autonomous AI Lakehouse liest Daten aus Databricks mit Datenfreigaben
Auf Databricks-Datenfreigaben kann über das öffentliche Internet zugegriffen werden, sie werden jedoch mit Zugangsdaten gesichert, die von Databricks bereitgestellt werden
Daten aus AWS S3, Azure Blob und Google Cloud Storage werden je nach Anwendungsfall und Anforderungen entweder mit externen Tabellen föderiert und gelesen oder in Oracle Autonomous AI Lakehouse kopiert.
Daten aus nicht föderierten Datenquellen werden mithilfe von Mikrobatches und Dateien aus relationalen und nicht relationalen Datenquellen, die nicht föderiert sind, sicher aufgenommen
Daten werden unter Verwendung einer Kombination aus Oracle Cloud Infrastructure Data Integration und Oracle Cloud Infrastructure Data Flow verarbeitet
Daten werden in Oracle Autonomous AI Lakehouse und Oracle Cloud Infrastructure Object Storage gespeichert und nach Qualität und Wert organisiert
Oracle Autonomous AI Lakehouse dient Warehouse-, Lake- und föderierten Daten sicher an Verbraucher
Oracle Analytics Cloud zeigt Geschäftsbenutzern mithilfe von Visualisierungen Daten an.
Oracle Analytics Cloud wird mit dem Oracle Cloud Infrastructure Load Balancer bereitgestellt, der von Oracle Cloud Infrastructure Web Application Firewall (WAF) gesichert wird, um Zugriff über das Internet bereitzustellen
Oracle Cloud Infrastructure Data Science wird zum Erstellen, Trainieren und Bereitstellen von Modellen für maschinelles Lernen (ML) verwendet
Oracle Cloud Infrastructure API Gateway wird zur Steuerung der Data Science-ML-Modellbereitstellungen verwendet
Oracle Cloud Infrastructure Data Catalog sammelt Metadaten aus Oracle Autonomous AI Lakehouse und Objektspeicher
Oracle Cloud Infrastructure Bastion wird von Administratoren zum Verwalten von Private-Cloud-Ressourcen verwendet

Das folgende Diagramm veranschaulicht die Architektur:

Beschreibung von data-platform-federation-physical.png folgt

Beschreibung der Abbildung data-platform-federation-physical.png

data-platform-federation-physical-oracle-1.zip#GUID-3A90BC57-5F07-494F-B23D-7E50E7D1ED7A

Das Design für die physische Architektur:

Nutzt 2 VCNs, eines für Hub und ein anderes für die Workload selbst
On-Premise-Konnektivität nutzt Oracle Cloud Infrastructure FastConnect und Oracle Cloud Infrastructure Site-to-Site VPN für Redundanz
Der gesamte eingehende Traffic von On Premise und vom Internet wird zuerst an das Hub-VCN und dann an das Workload-VCN weitergeleitet
Alle Daten sind während der Übertragung und im Ruhezustand sicher
Services werden mit privaten Endpunkten bereitgestellt, um den Sicherheitsstatus zu erhöhen
Das VCN ist in mehrere private Subnetze unterteilt, um den Sicherheitsstatus zu erhöhen
Lake-Daten werden im Objektspeicher in mehrere Buckets unterteilt, wobei eine Medaillon-Architektur genutzt wird
Auf föderierte Datenquellen und Cloud-Speicher wird über öffentliche Konnektivität und das an das Workload-VCN angehängte NAT-Gateway zugegriffen

Mögliche Designverbesserungen, die in dieser Bereitstellung aus Gründen der Einfachheit nicht dargestellt werden, sind:

Nutzen Sie die vom Kunden verwaltete heterogene Konnektivität mit einem Oracle Database Gateway, um über private Konnektivität eine Verbindung zu föderierten Datenquellen herzustellen
Nutzung einer vollständigen CIS-konformen Landezone
Nutzen Sie eine Netzwerkfirewall, um die allgemeine Sicherheitslage zu verbessern, indem Sie den gesamten Traffic prüfen und Policys durchsetzen

Empfehlungen

Verwenden Sie die folgenden Empfehlungen als Ausgangspunkt, um Daten aus heterogenen Datenquellen für Geschäftsanalysen und maschinelles Lernen zu verwenden.

Ihre Anforderungen können von der hier beschriebenen Architektur abweichen.

Oracle Autonomous AI Lakehouse

Diese Architektur verwendet Oracle Autonomous AI Lakehouse auf einer gemeinsam genutzten Infrastruktur.

Verwenden Sie Materialized Views, um die Performance beim Zugriff auf föderierte Daten zu erhöhen.
Aktualisieren Sie die Materialized Views mit der erforderlichen Häufigkeit, um zu verhindern, dass föderierte Daten blockiert werden.
Sie sollten Ansichten erstellen, um Daten abzufragen, indem Sie Datenbanklinks aus föderierten Quellen verwenden, damit diese Ansichten in Oracle Cloud Infrastructure Data Catalog gesammelt und katalogisiert werden, um die Data Governance zu verbessern.
Speichern Sie die Zugangsdaten der föderierten Datenquelle in einem Secret in Oracle Cloud Infrastructure Vault, um den Sicherheitsstatus zu erhöhen.
Verwenden Sie die Sicherheitsfeatures der autonomen KI-Datenbank, wie Verdeckung (dynamische Datenmaskierung), in Ansichten, die föderierte Daten darstellen, um die Datensicherheit zu erhöhen.
Verwenden Sie die Datenfreigabe, um föderierte Daten aus heterogenen Datenquellen zu konsumieren, die mit dem offenen Delta Sharing-Protokoll kompatibel sind.
Nutzen Sie die Datenfreigabe, um kuratierte Daten an Verbraucher weiterzugeben, die mit dem offenen Delta Sharing-Protokoll kompatibel sind.
Ziehen Sie die Verwendung einer vom Kunden verwalteten heterogenen Konnektivität mit einem Oracle Database Gateway in Betracht, um eine Verbindung zu föderierten Datenquellen mit privater Konnektivität herzustellen, für die Sie erhöhte Sicherheit, geringere Latenz oder beides benötigen.

Oracle Analytics Cloud

Diese Architektur nutzt Oracle Analytics Cloud (OAC) für die Bereitstellung erweiterter Analysen für Endbenutzer.

Ziehen Sie in Betracht, die zahlreichen Datenquellen von OAC zur Ergänzung der föderierten Datenquellen zu verwenden, die von Oracle Autonomous AI Lakehouse verwendet werden.
Verbinden Sie Datenquellen, die in OAC auf Oracle Autonomous AI Lakehouse erforderlich sind, um die Performance, das Caching, die Verarbeitung von Offload zur Serving Engine und die Vereinfachung der analytischen semantischen Schicht zu steigern.

Beachten Sie, dass diese Architektur auf einer Data Lakehouse-Referenzarchitektur basiert, einschließlich der Empfehlungen, die für Ihre Architektur gelten. Im Abschnitt "Mehr entdecken" finden Sie einen Link zur Referenzarchitektur und zu den Ressourcen des Lakehouse.

Hinweise

Berücksichtigen Sie beim Verbinden von Daten für die Analyse die folgenden Implementierungsoptionen.

Anleitung	Empfohlen	Andere Optionen	Begründung
Datenraffination	Oracle Cloud Infrastructure Data Integration	Oracle Data Integrator Oracle Autonomous Database – Datentransformationen	Oracle Cloud Infrastructure Data Integration bietet eine cloudnative, serverlose, vollständig verwaltete ETL-Plattform, die skalierbar und kosteneffizient ist.
Datenpersistenz	Oracle Autonomous AI Lakehouse Oracle Cloud Infrastructure Object Storage	Oracle Exadata Database Service	Oracle Autonomous AI Lakehouse ist eine benutzerfreundliche, vollständig autonome Datenbank, die elastisch skalierbar ist, schnelle Abfrageperformance liefert und keine Datenbankadministration erfordert. Es bietet auch direkten Zugriff auf die Daten aus externen oder hybriden partitionierten Objektspeicher-Tabellen. Oracle Cloud Infrastructure Object Storage speichert unbegrenzt Daten im Raw-Format.
Datenverarbeitung	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure Data Flow	Drittanbietertools	Oracle Cloud Infrastructure Data Integration bietet eine cloudnative, serverlose, vollständig verwaltete ETL-Plattform, die skalierbar und kosteneffektiv ist. Oracle Cloud Infrastructure Data Flow bietet eine serverlose Spark-Umgebung, um Daten in großem Umfang mit einem nutzungsabhängigen, extrem elastischen Modell zu verarbeiten.
Zugriff und Interpretation	Oracle Analytics Cloud Oracle Cloud Infrastructure Data Science Oracle Machine Learning Oracle Cloud Infrastructure-KI-Services	Drittanbietertools	Oracle Analytics Cloud ist vollständig verwaltet und eng in die kuratierten Daten in Oracle Autonomous AI Lakehouse integriert. Data Science ist eine vollständig verwaltete Selfservice-Plattform, auf der Data Science-Teams Modelle für maschinelles Lernen (ML) in Oracle Cloud Infrastructure erstellen, trainieren und verwalten können. Der Data Science-Service bietet Infrastruktur- und Data-Science-Tools wie AutoML und Modellbereitstellungsfunktionen. Oracle Machine Learning ist eine vollständig verwaltete Self-Service-Plattform für Data Science, die mit Oracle Autonomous AI Lakehouse verfügbar ist und die Verarbeitungsleistung des Warehouse nutzt, um ML-Modelle in großem Maßstab zu erstellen, zu trainieren, zu testen und bereitzustellen, ohne dass die Daten außerhalb des Warehouse verschoben werden müssen. Oracle Cloud Infrastructure-KI-Services sind eine Reihe von Services, die vordefinierte Modelle bereitstellen, die speziell für die Ausführung von Aufgaben wie Inferenzierung potenzieller Anomalien oder das Erkennen von Stimmungen entwickelt und trainiert wurden.

Mehr erfahren

Erfahren Sie mehr über die Features dieser Architektur und verwandte Architekturen.

Bestätigungen

Author: José Cruz

Contributors: Robert Lies