Datenplattform - Data Lakehouse

Funktionsarchitektur

Diese Architektur kombiniert die Fähigkeiten eines Data Lakes und eines Data Warehouse mit einer modernen Data Lakehouse-Plattform, die Streamingdaten und andere Datentypen aus einer Vielzahl von Unternehmensdatenressourcen verarbeitet. Verwenden Sie diese Architektur, um die Daten für Geschäftsanalysen, maschinelles Lernen, Datenservices und Datenprodukte zu nutzen.

Eine Data Lakehouse-Architektur kombiniert die Funktionen von Data Lake und Data Warehouse, um die betriebliche Effizienz zu steigern und erweiterte Funktionen bereitzustellen, die Folgendes ermöglichen:

Nahtlose Daten- und Informationsnutzung, ohne sie über den Data Lake und das Data Warehouse replizieren zu müssen
Diverse Unterstützung von Datentypen in einer erweiterten Multimodell- und mehrsprachigen Architektur
Governance und feingranulierte Datensicherheit, die ein Zero-Trust-Sicherheitsmodell nutzt
Die Möglichkeit, Speicher- und Compute-Ressourcen vollständig zu entkoppeln und nur die jeweils erforderlichen Ressourcen zu nutzen
Die Möglichkeit, mehrere Rechen-Engines, einschließlich Open-Source-Engines, nutzen zu können, um dieselben Daten für verschiedene Anwendungsfälle zu verarbeiten und so maximale Datenwiederholung, Liquidität und Nutzung zu erzielen
Die Fähigkeit, native Oracle Cloud Infrastructure-(OCI-)Services zu nutzen, die von Oracle verwaltet werden und den Betriebsaufwand reduzieren
Bessere Cloud-Ökonomie mit Autoscaling zur Anpassung der Cloud-Ressourceninfrastruktur an den tatsächlichen Bedarf
Modularität, sodass die Servicenutzung von der Groß-/Kleinschreibung gesteuert wird
Interoperabilität mit allen Systemen oder Clouds, die offenen Standards entsprechen
Unterstützung für verschiedene Anwendungsfälle, darunter Streaming, Analysen, Data Science und maschinelles Lernen
Unterstützung für verschiedene Architekturansätze, von einem zentralen Lakehouse bis hin zu einem dezentralen Daten-Mesh

Das folgende Diagramm veranschaulicht die Funktionsarchitektur.

Beschreibung von lakehouse-functional.png folgt

Beschreibung der Abbildung lakehouse-functional.png

Lakehouse-funktional-oracle.zip

Die Architektur konzentriert sich auf die folgenden logischen Geschäftsbereiche:

Aufnahme, Transformieren
Erfasst und verfeinert die Daten für jede der Datenschichten in der Architektur.
Beibehalten, Kurieren, Erstellen
Erleichtert den Zugriff auf und die Navigation der Daten, um die aktuelle Geschäftsansicht anzuzeigen. Bei relationalen Technologien können Daten logisch oder physisch in einfachen relationalen, longitudinalen, dimensionalen oder OLAP-Formularen strukturiert sein. Bei nicht relationalen Daten enthält dieser Layer einen oder mehrere Datenpools, entweder aus einem Analyseprozess oder aus Daten, die für eine bestimmte analytische Aufgabe optimiert sind.
Analysieren, Lernen, vorhersagen
Führt die logische Geschäftsansicht der Daten für Consumer aus. Diese Abstraktion ermöglicht agile Ansätze für Entwicklung, Migration zur Zielarchitektur und Bereitstellung einer einzelnen Berichtsebene aus mehreren föderierten Quellen.

Die Architektur verfügt über die folgenden funktionalen Komponenten:

Batchaufnahme
Die Batchaufnahme ist nützlich für Daten, die nicht in Echtzeit aufgenommen werden können oder für die Echtzeitaufnahme zu kostspielig sind. Außerdem ist es wichtig, Daten in zuverlässige und vertrauenswürdige Informationen umzuwandeln, die für den regelmäßigen Verbrauch kuratiert und persistiert werden können. Sie können die folgenden Services zusammen oder unabhängig verwenden, um einen hochflexiblen und effektiven Datenintegrations- und Transformationsworkflow zu erreichen.
- Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser, cloud-nativer Service, der Daten aus einer Vielzahl von Datenquellen in Oracle Cloud Infrastructure-Zielservices, wie Autonomous Data Warehouse und Oracle Cloud Infrastructure Object Storage, extrahiert, lädt, transformiert, bereinigt und neu ausbildet. ETL (Extract Transform Load) nutzt die vollständig verwaltete Scale-out-Verarbeitung in Spark. ELT (Extract Load Transform) nutzt vollständige SQL-Push-Down-Funktionen von Autonomous Data Warehouse, um die Datenverschiebung zu minimieren und die Time-to-Value für neu aufgenommene Daten zu verbessern. Benutzer entwerfen Datenintegrationsprozesse mit einer intuitiven, kodlosen Benutzeroberfläche, die Integrationsabläufe optimiert. So werden die effizienteste Engine und Orchestrierung generiert und die Ausführungsumgebung automatisch zugewiesen und skaliert. Oracle Cloud Infrastructure Data Integration bietet interaktive Exploration und Datenvorbereitung. Außerdem können Data Engineers sich vor Schemaabweichungen schützen, indem sie Regeln zur Verarbeitung von Schemaänderungen definieren.
- Oracle Data Integrator bietet eine umfassende Datenintegration von High-Volume- und High-Performance-Batch-Loads über ereignisgesteuerte Trickle-Feed-Integrationsprozesse bis zu SOA-fähigen Datenservices. Ein deklarativer Designansatz stellt eine schnellere, einfachere Entwicklung und Wartung sicher und bietet einen einzigartigen Ansatz für die Extrahierung von Lasttransformationen (ELT), der die höchste Performance für Datentransformations- und Validierungsprozesse gewährleistet. Oracle-Datentransformationen verwenden eine Weboberfläche, um die Konfiguration und Ausführung von ELT zu vereinfachen und Benutzern beim Erstellen und Planen von Daten und Arbeitsabläufen mit einem deklarativen Designansatz zu helfen.
- Oracle Data Transforms ermöglichen ELT für ausgewählte unterstützte Technologien und vereinfachen die Konfiguration und Ausführung von Datenpipelines mithilfe einer Webbenutzeroberfläche, über die Benutzer Datenflüsse und Workflows deklarativ erstellen und planen können. Oracle Data Transforms sind als vollständig verwaltete Umgebung in Oracle Autonomous Data Warehouse (ADW) verfügbar, um Daten aus mehreren Datenquellen in eine ADW-Instanz zu laden und zu transformieren.
Je nach Anwendungsfall können diese Komponenten unabhängig oder zusammen verwendet werden, um eine hochflexible und leistungsstarke Datenintegration und -transformation zu erreichen.
Echtzeitaufnahme

Oracle Cloud Infrastructure GoldenGate ist ein vollständig verwalteter Service, mit dem Daten aus On-Premise- oder Cloud-Quellen aufgenommen werden können. Sie nutzt die GoldenGate-CDC-Technologie für eine nicht aufdringliche und effiziente Datenerfassung und -bereitstellung an Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage oder Oracle Cloud Infrastructure Streaming in Echtzeit und skalierbar, um relevante Informationen so schnell wie möglich Verbrauchern zur Verfügung zu stellen.
Massentransfer
Mit der Massentransferfunktion können Sie große Batch-Datenmengen mit verschiedenen Methoden verschieben. Für große Data Lakehouses wird Oracle Cloud Infrastructure FastConnect und Data Transfer Services empfohlen.
- Mit Oracle Cloud Infrastructure FastConnect können Sie ganz einfach eine dedizierte, private Verbindung zwischen Ihrem Data Center und Oracle Cloud Infrastructure erstellen. FastConnect bietet Optionen mit höherer Bandbreite und eine zuverlässigere Netzwerkerfahrung im Vergleich zu internetbasierten Verbindungen.
- Mit der Oracle Cloud Infrastructure-Befehlszeilenschnittstelle (CLI) können Sie die Datenübertragung von On Premise zu OCI mit dem Private Circuit von Oracle Cloud Infrastructure FastConnect ausführen und automatisieren. Mit OCI-SDKs können Sie Code schreiben, um Daten und Dateien aus On Premise oder aus anderen Clouds in Oracle Cloud Infrastructure Object Storage zu kopieren. Dabei können Sie unter Verwendung einer Vielzahl von Programmiersprachen wie Python, Java oder einiger Go-to-Namen arbeiten. Mit REST-APIs können Sie OCI-Services wie das Verschieben von Daten in den Objektspeicher mit der Object Storage Service-API verbinden und kontrollieren.
- Storage Gateway ist ein Cloud-Speichergateway, mit dem On-Premise-Anwendungen mit OCI verbunden werden können. Anwendungen können Daten in ein Colocation NFS-Ziel schreiben, das diese Dateien in OCI Object Storage hochlädt, ohne dass Änderungen an den REST-APIs erforderlich sind.
- Oracle Cloud Infrastructure Data Transfer ist ein Offline-Datenmigrationsservice, mit dem Sie Datasets in Petabyte-Größe sicher von Ihrem Data Center nach Oracle Cloud Infrastructure Object Storage oder Archive Storage verschieben können. Das Verschieben von Daten in die Cloud über das öffentliche Internet ist nicht immer praktikabel, weil hohe Netzwerkkosten, unzuverlässige Netzwerkverbindung, lange Übertragungszeiten und Sicherheitsprobleme auftreten. Mit Data Transfer Service können Sie diese Herausforderungen bewältigen und Daten wesentlich schneller in die Cloud migrieren. Datenübertragung ist über Datenträger oder Appliance verfügbar. Die Wahl zwischen den anderen hängt meist von der Datenmenge ab, wobei Data Transfer Appliance größere Datasets für jede Appliance unterstützt.
Streamingaufnahme
Die Streamingaufnahme wird durch die Verwendung von nativen OCI-Services unterstützt, mit denen Sie große Datasets in Echtzeit von zahlreichen Datenproduzenten aufnehmen können. Die Streaming-Aufnahme persistiert und synchronisiert die Daten im Objektspeicher, der zum Kern des Data Lakehouses gehört. Durch die Synchronisierung von Daten in Object Storage können Sie historische Daten speichern, die kuratiert und weiter transformiert werden können, um wertvolle Erkenntnisse zu gewinnen.
- Oracle Cloud Infrastructure Streaming bietet eine komplett verwaltete, skalierbare und dauerhafte Speicherlösung zur Aufnahme kontinuierlicher Datenstreams mit hohem Volumen, die Sie in Echtzeit konsumieren und verarbeiten können. Streaming kann für Messaging, High-Volume-Anwendungslogs, betriebliche Telemetrie, Clickstream-Webdaten oder andere Anwendungsfälle für Publish-Subscribe-Messagingmodelle verwendet werden, bei denen kontinuierlich und nacheinander Daten erzeugt und verarbeitet werden. Daten werden mit Oracle Cloud Infrastructure Object Storage synchronisiert und können kuratiert und weiter transformiert werden, um wertvolle Erkenntnisse zu gewinnen.
- Oracle Cloud Infrastructure Service Connector Hub ist eine Cloud-Nachrichtenbusplattform, die eine zentrale Stelle zum Beschreiben, Ausführen und Überwachen der Datenverschiebung zwischen Services in Oracle Cloud Infrastructure bietet. Für diese bestimmte Referenzarchitektur werden Daten aus Oracle Cloud Infrastructure-Streaming in Oracle Cloud Infrastructure Object Storage verschoben, um die Raw- und vorbereiteten Daten in dem Data Lakehouse-Persistenzlayer beizubehalten.
Streamingverarbeitung

Die Streamingverarbeitung bereichert Streamingdaten, erkennt Ereignismuster und erstellt eine andere Gruppe von Streams, die im Data Lakehouse persistiert werden.

GoldenGate Stream Analytics (GGSA) verarbeitet und analysiert große Echtzeitinformationen mithilfe ausgefeilter Korrelationsmuster, Datenanreicherung und maschinellem Lernen. Benutzer können Echtzeitdaten über Live-Diagramme, Karten, Visualisierungen explorieren und Streamingpipelines ohne manuelle Codierung grafisch erstellen. Diese Pipelines werden in einer skalierbaren und hochverfügbaren, geclusterten Big Data-Umgebung mit Spark ausgeführt, die in die kontinuierliche Abfrage-Engine von Oracle integriert ist und kritische Echtzeit-Anwendungsfälle moderner Unternehmen berücksichtigt.

GoldenGate Stream Analytics kann das mit Oracle Cloud Infrastructure Big Data Service bereitgestellte Spark-Cluster nutzen, um Streams hoch skalierbar und resilient zu verarbeiten.
Open-Source-Ökosystem
Sie können das Open-Source-Ökosystem verwenden:
- Für die Batch- und Stream-Verarbeitung mit mehreren gängigen Open-Source-Engines wie Hadoop, Spark, Flink oder Trino
- Mit Oracle Cloud Infrastructure Streaming sowohl als Producer als auch als Consumer
- Mit Oracle Cloud Infrastructure Object Storage können Daten dauerhaft gespeichert und Daten konsumiert werden
Sie können Oracle Cloud Infrastructure Object Storage als Data Lake verwenden, um Datasets, die Sie zu unterschiedlichen Zeiten zwischen den verschiedenen Oracle Cloud Infrastructure-Services verwenden möchten, dauerhaft zu persistieren.
Oracle Big Data Cloud stellt vollständig konfigurierte, sichere, hochverfügbare und dedizierte Hadoop-, Spark- oder Flink-Cluster unter anderen Technologien bereit, bedarfsgesteuert. Skalieren Sie das Cluster entsprechend Ihren Big Data- und Analyse-Workloads, indem Sie eine Reihe von Oracle Cloud Infrastructure-Compute-Ausprägungen verwenden, die alles unterstützen - von kleinen Test- und Entwicklungsclustern bis hin zu großen Produktionsclustern. Passen Sie den Geschäftsbedarf schnell an, und optimieren Sie die Kosten, indem Sie Konfigurationen zur automatischen Skalierung nutzen, unabhängig davon, ob sie auf Metriken oder nach Plan basieren. Nutzen Sie Clusterprofile, um optimale Cluster für eine bestimmte Workload oder Technologie zu erstellen.
Batchverarbeitung
Die Batchverarbeitung transformiert große Datasets, die im Data Lakehouse gespeichert sind. Bei der Batchverarbeitung werden native Oracle Cloud Infrastructure-Services verwendet, die nahtlos in Oracle Cloud Infrastructure Object Storage integriert werden können. Außerdem können Sie kuratierte Daten für Anwendungsfälle wie Datenaggregation und -anreicherung, Data Warehouse-Aufnahme sowie skalierbare Verwendung von maschinellem Lernen und KI-Daten erstellen.
- Oracle Cloud Infrastructure Data Integration, oben beschrieben, ist ein vollständig verwalteter, serverloser, cloud-nativer Service, der Daten aus einer Vielzahl von Datenquellen in Oracle Cloud Infrastructure-Zielservices wie Autonomous Data Warehouse und Oracle Cloud Infrastructure Object Storage extrahiert, lädt, transformiert, bereinigt und neu formuliert.
- Oracle Cloud Infrastructure Data Flow ist ein vollständig verwalteter Big Data-Service, mit dem Sie Apache Spark-Anwendungen ausführen können, ohne die Infrastruktur bereitstellen oder verwalten zu müssen. Sie können Big-Data- und KI-Anwendungen schneller bereitstellen, da Sie sich auf Ihre Anwendungen konzentrieren können, ohne Vorgänge verwalten zu müssen. Datenflussanwendungen sind wiederverwendbare Vorlagen, die aus einer Spark-Anwendung und ihren Abhängigkeiten, Standardparametern und einer Standardressourcenspezifikation zur Laufzeit bestehen.
Wird bereitgestellt
Oracle Autonomous Data Warehouse ist ein selbststeuernder, selbstsichernder und selbstreparierender Datenbankservice, der für Data Warehousing-Workloads optimiert ist. Sie müssen keine Hardware konfigurieren oder verwalten oder Software installieren. Oracle Cloud Infrastructure verwaltet das Erstellen der Datenbank sowie Backup, Patching, Upgrade und Optimierung der Datenbank.

Nach dem Provisioning können Sie die Anzahl der CPU-Cores oder die Speicherkapazität der Datenbank jederzeit skalieren, ohne dass sich dies auf Verfügbarkeit oder Performance auswirkt.

Oracle Autonomous Data Warehouse kann auch Daten, die sich im Objektspeicher befinden, als externe und hybride partitionierte Tabellen virtualisieren, sodass Sie Daten aus anderen Quellen mit den Warehouse-Daten verknüpfen und konsumieren können. Sie können historische Daten auch aus dem Warehouse in den Objektspeicher verschieben und sie dann nahtlos mit hybriden partitionierten Tabellen nutzen.

Oracle Autonomous Data Warehouse kann zuvor im Datenkatalog gespeicherte Metadaten zum Erstellen externer Tabellen verwenden und Metadatenaktualisierungen im Datenkatalog automatisch mit der Definition externer Tabellen synchronisieren, um Konsistenz aufrechtzuerhalten, das Management zu vereinfachen und den Aufwand zu reduzieren.

Analytische Views, ein Autonomous Database-Feature, bieten eine schnelle und effiziente Möglichkeit, analytische Abfragen von Daten zu erstellen, die in vorhandenen Datenbanktabellen und Views gespeichert sind. Analyse-Views organisieren Daten mit einem Dimensionsmodell. Sie ermöglichen das einfache Hinzufügen von Aggregationen und Berechnungen zu Datasets und das Anzeigen von Daten in Views, die mit relativ einfacher SQL abgefragt werden können. Mit diesem Feature können Sie ein Star- oder Snowflake-Schema mit intern und extern gespeicherten Daten semantisch direkt in ADW modellieren und die Nutzung des Modells mit SQL und einem beliebigen SQL-konformen Datenverbraucher ermöglichen.

Darüber hinaus kann Autonomous Data Lake Accelerator, eine Komponente von Autonomous Database, Objektspeicherdaten nahtlos konsumieren, die Verarbeitung skalieren, um schnelle Abfragen bereitzustellen, die Datenbank-Compute-Instanz bei Bedarf automatisch zu skalieren und die Auswirkungen auf die Datenbank-Workload zu reduzieren, indem Objektspeicherabfragen von der Datenbank-Compute-Instanz isoliert werden.
Cloud-Speicher
Oracle Cloud Infrastructure Object Storage ist eine internetbasierte, leistungsstarke Speicherplattform, die zuverlässige und kosteneffiziente Datendauerhaftigkeit bietet. Oracle Cloud Infrastructure Object Storage kann eine unbegrenzte Menge unstrukturierter Daten eines beliebigen Inhaltstyps speichern, einschließlich Analysedaten. Sie können Daten sicher und geschützt speichern oder direkt aus dem Internet oder aus der Cloud-Plattform abrufen. Mit mehreren Managementschnittstellen können Sie einfach klein anfangen und den Service nahtlos skalieren, ohne dass sich die Performance oder Servicezuverlässigkeit verschlechtert.

Oracle Cloud Infrastructure Object Storage kann auch als Cold Storage Layer für das Data Warehouse verwendet werden, indem Daten gespeichert werden, die selten verwendet werden, und dann nahtlos mit den neuesten Daten verknüpft werden, indem Hybridtabellen in Oracle Autonomous Data Warehouse verwendet werden.
Visualisieren und lernen
Oracle Analytics Cloud ist ein skalierbarer und sicherer Public-Cloud-Service, der umfassende Funktionen bereitstellt, mit denen Sie kollaborative Analysen für sich, Ihre Arbeitsgruppe und Ihr Unternehmen durchführen können. Es unterstützt Citizen Data Scientists, weiterführende Schulung von Business Analysts und die Ausführung von ML-Modellen. Modelle für maschinelles Lernen können auf dem Analyseservice oder direkt in Oracle Autonomous Data Warehouse als OML-eingebettete Modelle für große Batchvorhersagen ausgeführt werden, die Verarbeitungsleistung, Skalierbarkeit und Elastizität der Warehouse- und OCI-KI-Services wie Oracle Cloud Infrastructure Vision nutzen.

Mit Oracle Analytics Cloud erhalten Sie außerdem flexible Service-Management-Funktionen, darunter schnelles Setup, einfache Skalierung und Patching sowie automatisiertes Lifecycle Management.
Lernen und vorhersagen
- Data Science bietet Infrastruktur, Open-Source-Technologien, Bibliotheken, Packages und Data-Science-Tools, mit denen Data-Science-Teams Modelle für maschinelles Lernen (ML) in Oracle Cloud Infrastructure erstellen, trainieren und verwalten können. Der kollaborative und projektgesteuerte Workspace bietet eine durchgängige, kohärente User Experience und unterstützt den Lebenszyklus von Vorhersagemodellen. Mit Data Science können Data Scientists und Machine Learning Engineers Packages kostenlos direkt aus dem Anaconda Repository herunterladen und installieren und so mit einem kuratierten Data Science-Ökosystem aus Librarys für maschinelles Lernen Innovationen bei ihren Projekten ermöglichen.
  
  Mit dem Feature Data Science-Jobs können Data Scientists wiederholbare Aufgaben für maschinelles Lernen in einer vollständig verwalteten Infrastruktur definieren und ausführen.
  
  Mit dem Feature für das Data-Science-Modell-Deployment können Data Scientists trainierte Modelle als vollständig verwaltete HTTP-Endpunkte bereitstellen, die Vorhersagen in Echtzeit bereitstellen, Informationen in Prozesse und Anwendungen einfügen und dem Unternehmen ermöglichen, auf relevante Ereignisse zu reagieren, wenn sie auftreten.
- Oracle Machine Learning bietet leistungsstarke Funktionen für maschinelles Lernen, die eng in Autonomous Database integriert sind und Python und AutoML unterstützen. Es unterstützt Modelle mit Open-Source- und skalierbaren datenbankinternen Algorithmen, die Datenvorbereitung und -bewegung reduzieren. Mit AutoML können Data Scientists die Zeit bis zum Wert der Initiativen für maschinelles Lernen des Unternehmens verkürzen, indem automatische Algorithmusauswahl, adaptives Datensampling, automatische Featureauswahl und automatische Modelloptimierung verwendet werden. Mit Oracle Machine Learning-Services, die in Oracle Autonomous Data Warehouse verfügbar sind, können Sie nicht nur Modelle verwalten, sondern diese Modelle auch als REST-Endpunkte bereitstellen, um Echtzeitvorhersagen im Unternehmen zu demokratisieren, mit denen Unternehmen auf relevante Ereignisse reagieren können, wenn sie auftreten, und nicht danach.
KI-Services
Oracle Cloud Infrastructure-KI-Services bieten ein Set an einsatzbereiten KI-Services, mit denen eine Reihe von Anwendungsfällen unterstützt werden können, von der Textanalyse bis hin zur vorausschauenden Wartung. Diese Services verfügen über vordefinierte, fein abgestimmte Modelle, die Sie mit APIs in Datenpipelines, Analysen und Anwendungen integrieren können.
- Die Oracle Cloud Infrastructure-Anomalieerkennung bietet zahlreiche Tools, mit denen unerwünschte Ereignisse oder Beobachtungen in Geschäftsdaten in Echtzeit identifiziert werden können, damit Sie Maßnahmen ergreifen können, um Geschäftsunterbrechungen zu vermeiden.
- Oracle Cloud Infrastructure AI Language führt skalierbare ausgefeilte Textanalysen durch. Mit vorgefertigten und benutzerdefinierten Modellen können Entwickler unstrukturierten Text verarbeiten und Erkenntnisse ohne Data Science-Kenntnisse gewinnen. Vorgeschulte Modelle unterstützen die Sentimentanalyse, die Extraktion von Schlüsselphrasen, die Textklassifizierung und die Erkennung benannter Entitys. Sie können auch benutzerdefinierte Modelle für die Erkennung benannter Entitys und die Textklassifizierung mit domänenspezifischen Datasets trainieren. Mit dem Übersetzungsservice können Sie Text in 21 verschiedenen Sprachen übersetzen.
- Oracle Cloud Infrastructure Speech nutzt die Leistungsfähigkeit der gesprochenen Sprache, indem Sie Mediendateien, die menschliche Sprache enthalten, einfach in hochgenaue Texttranskriptionen konvertieren können. OCI Speech kann verwendet werden, um Kundenserviceaufrufe zu transkribieren, die Unteritling-Funktion zu automatisieren und Metadaten für Medienassets zu generieren, um ein vollständig suchbares Archiv zu erstellen.
- Oracle Cloud Infrastructure Vision führt Aufgaben zur Imageerkennung und Dokumentanalyse aus, wie das Klassifizieren von Bildern, das Erkennen und Anzeigen, das Extrahieren von Text und das Erkennen von Tabellen. Sie können vortrainierte Modelle nutzen oder ganz einfach benutzerdefinierte Vision-Modelle für branchenspezifische und kundenspezifische Szenarien erstellen. Vision Service ist ein vollständig verwalteter, mehrmandantenfähiger, nativer Cloud-Service, der bei allen gängigen Aufgaben der Computer Vision unterstützt.
- In Oracle Cloud Infrastructure Document Understanding werden Dokumentanalyseaufgaben wie das Extrahieren von Text und das Erkennen von Tabellen ausgeführt. Der OCI Document Understanding-Service ist ein vollständig verwalteter, mehrmandantenfähiger, nativer Cloud-Service, der bei allen gängigen Dokumentanalyseaufgaben hilft.
Datenanreicherung
Die Datenanreicherung kann die Daten verbessern, mit denen Modelle für maschinelles Lernen trainiert werden, um bessere und genauere Vorhersageergebnisse zu erzielen.
Mit Oracle Cloud Infrastructure Data Labeling können Sie Datasets erstellen und durchsuchen, Datensätze (Text oder Bilder) anzeigen und Labels zum Erstellen von KI-/ML-Modellen anwenden. Darüber hinaus bietet der Service interaktive Benutzeroberflächen, die Sie bei der Etikettierung unterstützen. Nachdem Datensätze beschriftet wurden, kann das Dataset als durch Zeilen getrennte JSON für die KI/ML-Modellentwicklung exportiert werden.
Suchen
Suchfunktionen können als ergänzende Funktion verwendet werden, um Endbenutzern Daten bereitzustellen, die vorab indizierte Betriebsanalysedaten erfordern und daher mit geringer Latenz bedient werden.
Die Oracle Cloud Infrastructure-Suche mit OpenSearch ist eine verteilte, vollständig verwaltete, wartungsfreie Volltextsuchmaschine. Mit OpenSearch können Sie große Datenmengen schnell mit schnellen Antwortzeiten speichern, suchen und analysieren. Der Service unterstützt die Open Source OpenSearch-APIs und die OpenSearch-Dashboards-Datenvisualisierung.
Streaminganalysen
Streaminganalysen bieten Dashboards mit Echtzeitanalysen von gestreamten Daten, die kontextualisiert mit kuratierten und Stammdaten im Data Lakehouse gespeichert sind, um relevante Muster zu erkennen, die dann Benutzern, Anwendungen und Dingen dienen können.

GoldenGate Stream Analytics verarbeitet und analysiert große Echtzeitinformationen mit hochentwickelten Korrelationsmustern, Datenanreicherung und maschinellem Lernen. Benutzer können Echtzeitdaten über Live-Diagramme, Karten, Visualisierungen explorieren und Streamingpipelines ohne manuelle Codierung grafisch erstellen. Diese Pipelines werden in einer skalierbaren und hochverfügbaren, geclusterten Big Data-Umgebung mit Spark ausgeführt, die in die kontinuierliche Abfrage-Engine von Oracle integriert ist und kritische Echtzeit-Anwendungsfälle moderner Unternehmen berücksichtigt. GoldenGate Stream Analytics kann das mit Oracle Cloud Infrastructure Big Data Service bereitgestellte Spark-Cluster nutzen, um Streams hoch skalierbar und resilient zu verarbeiten.
Streaming wird bereitgestellt
Daten und Informationen werden Verbrauchern bereitgestellt, indem Streams verwendet werden, die eine große Anzahl von Benutzern unterstützen, die gleichzeitig Informationen konsumieren, die nahezu in Echtzeit vorliegen und vom Streaminganalysesystem entkoppelt sind, um Resilienz und Skalierbarkeit zu erhöhen.

Oracle Cloud Infrastructure Streaming Service bietet eine komplett verwaltete, skalierbare und dauerhafte Speicherlösung zur Aufnahme kontinuierlicher Datenstreams mit hohem Volumen, die Sie in Echtzeit konsumieren und verarbeiten können. Streaming kann für Messaging, High-Volume-Anwendungslogs, betriebliche Telemetrie, Clickstream-Webdaten oder andere Anwendungsfälle für Publish-Subscribe-Messagingmodelle verwendet werden, bei denen kontinuierlich und nacheinander Daten erzeugt und verarbeitet werden.
API
Mit der API-Schicht können Sie die von Data Science und Oracle Machine Learning abgeleitete Intelligenz in Anwendungen, Geschäftsprozesse und Dinge integrieren und verbessern, um deren Betrieb und Funktion zu beeinflussen und zu verbessern. Die API-Schicht bietet eine sichere Nutzung der von Data Science bereitgestellten Modelle für Oracle Machine Learning-REST-Endpunkte und die Möglichkeit, das System zu steuern, um die Verfügbarkeit von Laufzeitumgebungen sicherzustellen. Sie können Funktionen auch nutzen, um bei Bedarf zusätzliche Logik auszuführen.
- Mit dem Oracle Cloud Infrastructure-API-Gateway können Sie APIs mit privaten Endpunkten veröffentlichen, auf die in Ihrem Netzwerk zugegriffen werden kann. Außerdem können Sie APIs mit öffentlichen IP-Adressen angeben, wenn sie Internettraffic akzeptieren sollen. Die Endpunkte unterstützen API-Validierung, Anforderungs- und Antworttransformation, CORS, Authentifizierung und Autorisierung sowie Anforderungsbegrenzung. Damit kann die API-Beobachtbarkeit die Nutzung überwachen und SLAs garantieren. Mit Nutzungsplänen können auch die API-Consumer und API-Clients überwacht und verwaltet werden, die auf APIs zugreifen, und verschiedene Zugriffstiers für verschiedene Kunden eingerichtet werden, um die Datennutzung zu verfolgen, die mit APIs verbraucht wird. Nutzungspläne sind ein wichtiges Feature zur Unterstützung der Datenmonetarisierung.
- Oracle Cloud Infrastructure Functions ist eine vollständig verwaltete, mehrmandantenfähige, hochskalierbare, bedarfsgesteuerte Functions-as-a-Service-Plattform. Sie basiert auf Oracle Cloud Infrastructure der Unternehmensklasse und wird von der Open-Source-Engine des Fn-Projekts unterstützt.
- Oracle REST Data Services (ORDS) ist eine Java-Anwendung, mit der Entwickler mit SQL- und Datenbankfähigkeiten REST-APIs für Oracle Database entwickeln können. Jeder Anwendungsentwickler kann diese APIs in jeder Sprachumgebung verwenden, ohne Clienttreiber zu installieren und zu verwalten. Auf dieselbe Weise wie er mit REST auf andere externe Services zugreift, der am häufigsten verwendeten API-Technologie. ORDS wird als vollständig verwaltete Funktion in ADW bereitgestellt und kann verwendet werden, um Lakehouse-Informationen mit APIs für Daten-Consumer bereitzustellen.
Data Governance
Der Oracle Cloud Infrastructure Data Catalog bietet einen Überblick darüber, wo technische Assets wie Metadaten und die jeweiligen Attribute gespeichert sind, und bietet die Möglichkeit, ein Geschäftsglossar zu verwalten, das diesen technischen Metadaten zugeordnet ist. Data Catalog kann auch Metadaten für Oracle Autonomous Data Warehouse bereitstellen, um die Erstellung externer Tabellen im Data Warehouse zu vereinfachen.
Datensicherheit

Datensicherheit ist von entscheidender Bedeutung, um Lakehouse-Daten vollständig zu untersuchen und zu verwenden. Unter Nutzung eines Zero-Trust-Sicherheitsmodells mit Defense-in-Depth- und RBAC-Funktionen und zur Gewährleistung der Compliance mit der striktesten Regulierung bietet Datensicherheit vorbeugende, Detektiv- und Korrektursicherheitskontrollen, um sicherzustellen, dass Datenexfiltration und Verletzungen vermieden werden.
- Oracle Data Safe ist ein vollständig integrierter Oracle Cloud-Service, der sich auf die Datensicherheit konzentriert. Der Service umfasst ein vollständiges und integriertes Set von Features zum Schutz sensibler und regulierter Daten in Oracle Cloud-Datenbanken, wie Oracle Autonomous Data Warehouse. Zu den Features gehören Sicherheitsbewertung, Benutzerbewertung, Datenerkennung, Datenmaskierung und Aktivitätsauditing.
- Oracle Cloud Infrastructure Audit bietet einen Einblick in Aktivitäten im Zusammenhang mit Oracle Cloud Infrastructure-(OCI-)Ressourcen und -Mandanten. Mit Auditlogereignissen können Sie Sicherheitsaudits verwenden, um die Verwendung von und Änderungen an OCI-Ressourcen zu verfolgen und die Einhaltung von Standards und Vorschriften zu gewährleisten.
- Oracle Cloud Infrastructure Logging stellt eine hochskalierbare und vollständig verwaltete einzelne Schnittstelle für alle Logs im Mandanten bereit, einschließlich Auditlogs. Mit OCI Logging können Sie auf Logs aus allen OCI-Ressourcen zugreifen, damit Sie sie aktivieren, verwalten und durchsuchen können.
- Oracle Cloud Infrastructure Vault ist ein Verschlüsselungsverwaltungsservice, der Verschlüsselungsschlüssel und Secrets für den sicheren Zugriff auf Ressourcen speichert und verwaltet. Ermöglicht, dass vom Kunden verwaltete Schlüssel für Oracle Autonomous Data Warehouse und Data-Lake-Verschlüsselung verwendet werden, um den Datenschutz im Ruhezustand zu erhöhen. Ermöglicht es Secrets, Services und Benutzerzugangsdaten sicher zu speichern, um Ihre Sicherheitslage zu verbessern und sicherzustellen, dass die Zugangsdaten nicht gefährdet und nicht ordnungsgemäß verwendet werden.

Physische Architektur

Die physische Architektur für dieses Data Lakehouse unterstützt Folgendes:

Daten werden sicher aufgenommen, indem Microbatch, Streaming, APIs und Dateien aus relationalen und nicht relationalen Datenquellen verwendet werden
Daten werden mit einer Kombination aus Oracle Cloud Infrastructure Data Integration und Oracle Cloud Infrastructure Data Flow verarbeitet
Daten werden in Oracle Autonomous Data Warehouse und Oracle Cloud Infrastructure Object Storage gespeichert und sind nach Qualität und Wert organisiert
Oracle Autonomous Data Warehouse bedient sichere Warehouse- und Lake-Datenservices für Verbraucher
Oracle Analytics Cloud stellt Geschäftsbenutzern Daten mithilfe von Visualisierungen zur Verfügung
Oracle Analytics Cloud wird mit Oracle Cloud Infrastructure Load Balancing bereitgestellt, das von Oracle Cloud Infrastructure Web Application Firewall (WAF) gesichert wird, um Zugriff über das Internet bereitzustellen
Oracle Cloud Infrastructure Data Science wird verwendet, um Modelle für maschinelles Lernen (ML) zu erstellen, zu trainieren und bereitzustellen
Oracle Cloud Infrastructure-API-Gateway wird verwendet, um die Data Science-ML-Modell-Deployments zu steuern
Oracle Cloud Infrastructure Data Catalog schützt Metadaten aus Oracle Autonomous Data Warehouse und Object Storage
Oracle Data Safe bewertet Risiken für Daten, implementiert und überwacht Sicherheitskontrollen, bewertet die Benutzersicherheit, überwacht die Benutzeraktivität und erfüllt die Anforderungen an die Datensicherheit
Oracle Cloud Infrastructure Bastion wird von Administratoren zur Verwaltung von Private Cloud-Ressourcen verwendet

Das folgende Diagramm veranschaulicht diese Referenzarchitektur.

Beschreibung von lakehouse-architecture.png folgt

Beschreibung der Abbildung lakehouse-architecture.png

Lakehouse-Architektur-oracle.zip

Das Design für die physische Architektur:

Nutzt 2 VCNs, eine für Hub und eine für die Workload selbst
On-Premise-Konnektivität nutzt Oracle Cloud Infrastructure FastConnect und Site-to-Site-VPN zur Redundanz
Der gesamte eingehende Datenverkehr von On Premise und aus dem Internet wird zuerst an das Hub-VCN und dann an das Workload-VCN weitergeleitet
Alle Daten sind bei der Übertragung und im Ruhezustand sicher
Services werden mit privaten Endpunkten bereitgestellt, um die Sicherheitslage zu erhöhen
Das VCN ist in mehrere private Subnetze getrennt, um die Sicherheitslage zu erhöhen
Lake-Daten werden in mehrere Buckets im Objektspeicher unter Verwendung der Medallion-Architektur unterteilt

Mögliche Konstruktionsverbesserungen, die nicht in dieser Bereitstellung dargestellt sind, sind der Einfachheit halber:

Nutzung einer vollständigen CIS-konformen Landing Zone
Nutzen Sie eine Netzwerkfirewall, um die allgemeine Sicherheitslage zu verbessern, indem Sie den gesamten Traffic prüfen und Policys durchsetzen

Empfehlungen

Verwenden Sie die folgenden Empfehlungen als Ausgangspunkt für die Verarbeitung von Streamingdaten und einer Vielzahl von Unternehmensdatenressourcen für Geschäftsanalysen und maschinelles Lernen.

Ihre Anforderungen können von der hier beschriebenen Architektur abweichen.

Oracle Autonomous Data Warehouse
Diese Architektur verwendet Oracle Autonomous Data Warehouse auf einer gemeinsamen Infrastruktur.
- Aktivieren Sie Autoscaling, um den Datenbank-Workloads die bis zu dreifache Verarbeitungsleistung zu bieten.
- Sie können Oracle Autonomous Data Warehouse in einer dedizierten Infrastruktur verwenden, wenn die Selfservice-Datenbankfunktion in einer Private Database Cloud-Umgebung in der Public Cloud ausgeführt werden soll.
- Sie sollten das hybride partitionierte Tabellenfeature von Autonomous Data Warehouse verwenden, um Partitionen von Daten in Oracle Cloud Infrastructure Object Storage zu verschieben und diese Benutzern und Anwendungen transparent zu bedienen. Wir empfehlen, dieses Feature für Daten zu verwenden, die nicht häufig verwendet werden und für die Sie nicht dieselbe Performance wie für Daten benötigen, die in Autonomous Data Warehouse gespeichert sind.
- Sie sollten das Feature für externe Tabellen verwenden, um in Oracle Cloud Infrastructure Object Storage gespeicherte Daten in Echtzeit zu konsumieren, ohne sie in Autonomous Data Warehouse replizieren zu müssen. Dieses Feature verbindet Datasets, die außerhalb von Autonomous Data Warehouse kuratiert sind, transparent und nahtlos mit Daten, die sich in Autonomous Data Warehouse befinden, unabhängig vom Format (Parkett, Avro, Orc, Json, CSV usw.).
- Sie sollten Autonomous Data Lake Accelerator verwenden, wenn Sie Objektspeicherdaten nutzen, um Benutzern eine verbesserte und schnellere Erfahrung zu bieten, die Daten zwischen dem Data Warehouse und dem Data Lake konsumieren und verknüpfen.
- Ziehen Sie die Verwendung von Analyse-Views in Betracht, um das DW-Star- oder Snowflake-Grundschema semantisch direkt in ADW zu modellieren, sodass granulare Daten automatisch aggregiert werden, ohne dass sie vorab aggregiert werden müssen. Das semantische Modell wird verwendet, indem SQL konsistent mit jedem SQL-konformen Client verwendet wird, einschließlich Oracle Analytics Cloud. So stellen Sie Fakten und KPIs sicher werden unabhängig vom Client konsistent bereitgestellt. Alle Daten können unabhängig davon, ob sie in ADW oder Object Storage gespeichert sind, im semantischen Modell verwendet werden. Dadurch wird diese Funktion zu einer perfekten semantischen Modellierungsschicht für eine Lakehouse-Architektur, in der Fakten und Dimensionen sowohl das DW als auch den Lake durchlaufen können.
- Erwägen Sie die Verwendung von vom Kunden verwalteten Schlüsseln, die den Vault-Service nutzen, wenn aufgrund von Unternehmens- oder Regelungsrichtlinien eine vollständige Kontrolle über ADW-Verschlüsselungsschlüssel erforderlich ist.
- Sie sollten Database Vault in ADW verwenden, um zu verhindern, dass nicht autorisierte privilegierte Benutzer auf sensible Daten zugreifen können, und so Datenexfiltration und Datenverletzungen verhindern.
- Sie sollten Autonomous Data Guard verwenden, um einen Geschäftskontinuitätsplan zu unterstützen, indem Sie Daten auf einer Standbyinstanz entweder in derselben Region oder in einer anderen Region einrichten und replizieren.
- Ziehen Sie die Verwendung der dynamischen Datenmaskierung mit Data Redaction in Betracht, um Benutzern je nach Rolle maskierte Daten bereitzustellen und somit einen angemessenen Datenzugriff zu gewährleisten, ohne dass Daten dupliziert und statische Maskierung erforderlich ist.
Objektspeicher/Data Lake
Diese Architektur verwendet Oracle Cloud Infrastructure Object Storage, einen extrem skalierbaren und dauerhaften Cloud-Speicher, als Lake Storage.
- Sie sollten Ihren See über verschiedene Buckets organisieren, indem Sie eine Medaillonarchitektur (Bronze, Silber, Gold) oder eine andere Partitionierungslogik nutzen, um Daten basierend auf ihrer Qualität und Anreicherung zu trennen, feingranulierte Sicherheit für Verbraucher, die Daten lesen, durchzusetzen und verschiedene Lebenszyklusmanagement-Policys auf die verschiedenen Ebenen anzuwenden.
- Sie sollten verschiedene Objektspeicher-Tiers und Lebenszyklus-Policys verwenden, um die Kosten für die skalierbare Speicherung von Seedaten zu optimieren.
- Ziehen Sie die Verwendung von vom Kunden verwalteten Schlüsseln in Betracht, indem Sie den Vault-Service nutzen, wenn aufgrund von Unternehmens- oder Regelungsrichtlinien eine vollständige Kontrolle der Object Storage-Verschlüsselungsschlüssel erforderlich ist.
- Sie sollten die Object Storage-Replikation verwenden, um einen Geschäftskontinuitätsplan zu unterstützen, indem Sie die Bucket-Replikation in einer anderen Region einrichten. Da Object Storage extrem langlebig ist und mehrere Kopien desselben Objekts in einer Region für das Recovery in derselben Regions-Bucket-Replikation aufbewahrt werden, ist dies nicht erforderlich.
Oracle Machine Learning und Oracle Cloud Infrastructure Data Science
Diese Architektur nutzt Oracle Machine Learning und Oracle Cloud Infrastructure Data Science, um Vorhersagen in Echtzeit für Mitarbeiter und Anwendungen auszuführen und bereitzustellen.
- Sie sollten AutoML in OCI Data Science oder Oracle Machine Learning verwenden, um die Entwicklung von ML-Modellen zu beschleunigen.
- Erwägen Sie die Verwendung von Open Neural Networks Exchange (ONNX) für Interoperabilität. ONNX 3. Parteimodelle können entweder in OML bereitgestellt und als REST-Endpunkt oder in OCI Data Science bereitgestellt und als HTTP-Endpunkt angegeben werden.
- Speichern Sie das Modell in OCI Data Science als ONNX, und importieren Sie es in OCI GoldenGate Stream Analytics, wenn Scoring und Vorhersage in einer Echtzeit-Datenpipeline ausgeführt werden müssen, um zeitnahe Vorhersagen zu erhalten, die Geschäftsergebnisse in Echtzeit fördern können.
- Sie sollten OCI Data Science Conda-Umgebungen verwenden, um Python-Abhängigkeiten in Jupyter-Notizbuchsessions besser zu verwalten und zu verpacken. Nutzen Sie das kuratierte Repository von Anaconda für Packages in OCI Data Science, um Ihre bevorzugten Open-Source-Tools zum Erstellen, Trainieren und Bereitstellen von Modellen zu verwenden.
- Ziehen Sie die Verwendung von OCI Data Flow innerhalb der Data Science Jupyter-Umgebung in Betracht, um eine explorative Datenanalyse, Datenprofilerstellung und Datenvorbereitung in großem Maßstab unter Nutzung der Spark-Verarbeitung durchzuführen.
- Mit Data Labeling können Sie Daten wie Bilder, Text oder Dokumente labeln und ML-Modelle trainieren, die auf OCI Data Science oder OCI AI Services basieren, und so die Genauigkeit von Vorhersagen verbessern.
- Sie sollten ein API-Gateway bereitstellen, um die Nutzung des bereitgestellten Modells zu sichern und zu steuern, wenn Echtzeitvorhersagen von Partnern und externen Entitys genutzt werden.
Oracle Cloud Infrastructure Data Integration
Diese Architektur unterstützt mit Oracle Cloud Infrastructure Data Integration die deklarative Entwicklung von ETL- und Datenpipeline ohne Code oder Low-Code.
- Mit Oracle Cloud Infrastructure Data Integration können Sie Oracle Cloud Infrastructure Data Flow-Anwendungsausführungen koordinieren und planen. Außerdem können Sie deklarative ETL mit benutzerdefinierter Spark-Codelogik kombinieren und abgleichen. Mit Funktionen aus Oracle Cloud Infrastructure Data Integration können Sie die Funktionen von Datenpipelines weiter erweitern.
- Sie sollten SQL-Pushdown für Transformationen verwenden, die ADW als Ziel haben, um einen ELT-Ansatz zu verwenden, der effizienter, leistungsfähiger und sicherer ist als ETL.
- Sie sollten zulassen, dass OCI Data Integration die Schemaabweichung für Datenquellen verarbeitet, um resilientere und zukunftssichere Datenpipelines zu erhalten, die Änderungen an dem Schema der Datenquellen aufrechterhalten.
Oracle Cloud Infrastructure Data Flow
Diese Architektur unterstützt mit Oracle Cloud Infrastructure Data Flow große Spark- und Spark-Streamingprozesse, ohne dass permanente Cluster benötigt und verwaltet werden müssen.
- Sie können Oracle Cloud Infrastructure Data Catalog als Hive-Metastore für Oracle Cloud Infrastructure Data Flow verwenden, um Schemadefinitionen für Objekte in unstrukturierten und halbstrukturierten Datenassets wie Oracle Cloud Infrastructure Object Storage sicher zu speichern und abzurufen.
- Ziehen Sie die Verwendung von Delta Lake in OCI Data Flow in Betracht, wenn ACID-Transaktionen und die Vereinheitlichung von Streaming und Batchverarbeitung für Lake-Daten erforderlich sind.
Big Data Service
Diese Architektur nutzt Oracle Cloud Infrastructure Big Data Service, um hochverfügbare und skalierbare Cluster verschiedener Open-Source-Technologien wie Spark, Hadoop, Trino oder Flink bereitzustellen, mit denen Batch- und Streamingdaten verarbeitet werden können. Big Data Service persistiert Daten in HDFS, persistiert und liest Daten aus Oracle Cloud Infrastructure Object Storage und kann Datasets mit anderen Oracle Cloud Infrastructure-Services wie Oracle Cloud Infrastructure Data Flow und Oracle Autonomous Data Warehouse austauschen.
- Sie sollten die automatische Skalierung verwenden, um die Worker-Knoten basierend auf Metriken oder Zeitplänen automatisch horizontal oder vertikal zu skalieren, um die Kosten basierend auf dem Ressourcenbedarf kontinuierlich zu optimieren.
- Sie sollten den OCI-HDFS-Connector für Object Storage verwenden, um Daten in und aus Object Storage zu lesen und zu schreiben. So erhalten Sie einen Mechanismus zum Erstellen/Verwenden von Daten, die mit anderen OCI-Services gemeinsam verwendet werden, ohne sie replizieren und duplizieren zu müssen.
- Ziehen Sie die Verwendung von Delta Lake auf OCI BDS in Betracht, wenn ACID-Transaktionen und die Vereinheitlichung von Streaming und Batchverarbeitung für Lake-Daten erforderlich sind.
Oracle Cloud Infrastructure-Streaming
Diese Architektur nutzt Oracle Cloud Infrastructure Streaming, um Streamingdaten aus Quellen zu konsumieren und Verbrauchern Streamingdaten bereitzustellen.

Ziehen Sie den Einsatz von Oracle Cloud Infrastructure Service Connector Hub in Betracht, um Daten aus Oracle Cloud Infrastructure Streaming zu verschieben und in Oracle Cloud Infrastructure Object Storage zu persistieren, um weitere historische Datenanalysen zu unterstützen.
Oracle Analytics Cloud
Diese Architektur nutzt Oracle Analytics Cloud (OAC), um Endbenutzern erweiterte Analysen bereitzustellen.

Ziehen Sie die Nutzung der vordefinierten Integration in OCI AI Services (Language and Vision Models) und OML (beliebiges Modell) in Betracht, um Informationen in Datenflüsse und Visualisierungen einzubetten, die Endbenutzer konsumieren und so die KI- und ML-Nutzung demokratisieren.
KI-Services von Oracle Cloud Infrastructure
Diese Architektur kann Oracle Cloud Infrastructure-KI-Services nutzen, je nach den bereitgestellten Anwendungsfällen.
- Für Anwendungsfälle zur prädiktiven Wartung und Anomalieerkennung sollten Sie den Oracle Cloud Infrastructure Anomaly Detection-Service verwenden, mit dem Anomalien in einem multivariaten Dataset identifiziert werden können, indem Sie die Beziehung zwischen Signalen nutzen.
- Ziehen Sie die Verwendung von Data Labeling in Betracht, um Trainingsdaten zu beschriften, die zum Optimieren und Abrufen genauerer Vorhersagen für KI-Services wie Vision, Dokumentverständnis und Sprache verwendet werden.
API Gateway
Diese Architektur nutzt API Gateway, um Datenservices sicher bereitzustellen und Daten-Consumer in Echtzeit zu referenzieren.
- Sie sollten Oracle Cloud Infrastructure Functions verwenden, um Laufzeitlogik hinzuzufügen, die schließlich erforderlich ist, um bestimmte API-Verarbeitung zu unterstützen, die außerhalb des Geltungsbereichs der Datenverarbeitungs- und Zugriffs- und Interpretationsschichten liegt.
- Verwenden Sie Nutzungspläne, um den Abonnentenzugriff auf APIs zu verwalten, die API-Nutzung zu überwachen und zu verwalten, verschiedene Zugriffstiers für verschiedene Verbraucher einzurichten und die Datenmonetarisierung zu unterstützen, indem Sie Nutzungsmetriken verfolgen, die für ein externes Abrechnungssystem bereitgestellt werden können.
Oracle Cloud Infrastructure Data Catalog
Um eine vollständige und ganzheitliche End-to-End-Ansicht der auf der Plattform gespeicherten und fließenden Daten zu erhalten, sollten Sie das Harvesting nicht nur für Datenspeicher in Betracht ziehen, die die Datenpersistenzschicht unterstützen, sondern auch für die Quelldatenspeicher. Durch die Zuordnung dieser durch Harvesting erstellten technischen Metadaten zum Geschäftsglossar und die Anreicherung mit benutzerdefinierten Eigenschaften können Sie Geschäftskonzepte zuordnen und Sicherheits- und Zugriffsdefinitionen dokumentieren und verwalten.

Um die Erstellung externer Oracle Autonomous Data Warehouse-Tabellen zu erleichtern, mit denen in Oracle Cloud Infrastructure Object Storage gespeicherte Daten virtualisiert werden, nutzen Sie die Metadaten, die zuvor von Oracle Cloud Infrastructure Data Catalog erfasst wurden. Dies vereinfacht die Erstellung externer Tabellen, erzwingt die Konsistenz von Metadaten über Datenspeicher hinweg und ist weniger anfällig für menschliche Fehler.
Oracle Cloud Infrastructure Data Transfer Service
Verwenden Sie Oracle Cloud Infrastructure Data Transfer Service, wenn Sie Daten über das öffentliche Internet hochladen, nicht sinnvoll. Wir empfehlen Ihnen, Data Transfer zu verwenden, wenn das Hochladen von Daten über das öffentliche Internet länger als 1-2 Wochen dauert.
Data Safe und Audit
Wenn die Sicherheitslage durch die Verwendung von Auditing- und Alert-Funktionen erhöht wird, kann der Datenexfiltration verhindert und im Falle einer Datenverletzung eine forensische Analyse durchgeführt werden.

Sie sollten Data Safe für das Auditing von Aktivitäten im Data Warehouse verwenden und Audit-Service für das Auditing von Aktivitäten zum Speichern von Daten verwenden.

Sie sollten Data Safe zum Erkennen sensibler Daten in ADW verwenden und beim Erstellen von ADW-Klonen für Nicht-Produktionsumgebungen statisch maskieren und so Sicherheitsrisiken vermeiden.
Organisationsansatz
Diese Architektur ist flexibel und kann verschiedene Arten von Organisationsansätzen unterstützen, die von einem zentralisierten bis zu einem vollständig dezentralisierten Ansatz reichen und somit von jeder Organisation übernommen und verwendet werden können, die Wert aus ihren Daten extrahieren möchte.

Diese Architektur nutzt umfangreiche, feingranulierte Kontrollen für die Authentifizierung und Autorisierung mit OCI Identity and Access Management (IAM).

Ziehen Sie die Verwendung von IAM in Betracht, um die verschiedenen Geschäftsbereiche und Teams unter Verwendung des Lakehouse zu trennen, um das Eigentum an der Erstellung von Datenprodukten zu dezentralisieren und die Trennung von Datendomänen durchzusetzen, wenn Ihre Organisation einen dezentralen Organisationsansatz verfolgen möchte.

OCI bietet Automatisierung und Infrastruktur als Code als Schlüsselfunktionen für ein erfolgreiches Architektur-Deployment und nutzt Frameworks wie Terraform und Ansible.

Wenn Ihr Unternehmen einen dezentralen Ansatz verfolgt und Datendomänen unter diesem Ansatz implementiert, sollten Sie vordefinierte Terrassenformvorlagen und OCI Resource Manager nutzen, um Datendomänen schnell und konsistent in die Datenplattform einzubinden.

Überlegungen

Berücksichtigen Sie beim Erfassen, Verarbeiten und Kurieren von Anwendungsdaten für Analysen und maschinelles Lernen die folgenden Implementierungsoptionen.

Richtlinien	Empfohlen	Andere Optionen	Begründung
Datenrefinery	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure GoldenGate	Oracle Data Integrator Oracle Autonomous Database - Datentransformationen	Oracle Cloud Infrastructure Data Integration bietet eine cloud-native, serverlose, vollständig verwaltete ETL-Plattform, die skalierbar und kosteneffizient ist. Oracle Cloud Infrastructure GoldenGate bietet eine cloud-native, serverlose, vollständig verwaltete, nicht aufdringliche Datenreplikationsplattform, die skalierbar, kosteneffizient und in hybriden Umgebungen bereitgestellt werden kann.
Datenpersistenz	Oracle Autonomous Data Warehouse Oracle Cloud Infrastructure Object Storage	Oracle Exadata Database Service	Oracle Autonomous Data Warehouse ist eine einfach zu verwendende, vollständig autonome Datenbank, die elastisch skalierbar ist, schnelle Abfrageperformance liefert und keine Datenbankadministration erfordert. Sie bietet außerdem direkten Zugriff auf die Daten aus externen oder hybriden partitionierten Objektspeichertabellen. Oracle Cloud Infrastructure Object Storage speichert unbegrenzte Daten im Raw-Format.
Datenverarbeitung	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure Data Flow Oracle Cloud Infrastructure Big Data-Service	Tools von Drittanbietern	Oracle Cloud Infrastructure Data Integration bietet eine cloud-native, serverlose, vollständig verwaltete ETL-Plattform, die skalierbar und kosteneffektiv ist. Oracle Cloud Infrastructure Data Flow bietet eine serverlose Spark-Umgebung zur skalierbaren Verarbeitung von Daten mit einem nutzungsabhängigen, extrem elastischen Modell. Oracle Cloud Infrastructure Big Data Service bietet Hadoop-as-a-Service der Unternehmensklasse mit End-to-End-Sicherheit, hoher Performance sowie einfacher Verwaltung und Upgradefähigkeit.
Zugang & Interpretation	Oracle Analytics Cloud Oracle Cloud Infrastructure Data Science Oracle Machine Learning KI-Services von Oracle Cloud Infrastructure	Tools von Drittanbietern	Oracle Analytics Cloud ist vollständig verwaltet und eng in die kuratierten Daten in Oracle Autonomous Data Warehouse integriert. Data Science ist eine vollständig verwaltete Selfserviceplattform, mit der Data-Science-Teams Modelle für maschinelles Lernen (ML) in Oracle Cloud Infrastructure erstellen, trainieren und verwalten können. Der Data Science-Service stellt Infrastruktur- und Data Science-Tools wie AutoML und Modell-Deployment-Funktionen bereit. Oracle Machine Learning ist eine vollständig verwaltete Selfserviceplattform für Data Science, die in Oracle Autonomous Data Warehouse verfügbar ist und die Verarbeitungsleistung des Warehouse nutzt, um ML-Modelle nach Bedarf zu erstellen, zu trainieren, zu testen und bereitzustellen, ohne die Daten außerhalb des Warehouse verschieben zu müssen. Oracle Cloud Infrastructure AI-Services sind eine Gruppe von Services, die vordefinierte Modelle bereitstellen, die speziell für die Ausführung von Aufgaben wie der Referenzierung potenzieller Anomalien oder der Erkennung von Sentiment erstellt und trainiert wurden.

Bereitstellen

Der Terraform-Code für diese Referenzarchitektur ist in GitHub verfügbar. Sie können den Code mit nur einem Klick in Oracle Cloud Infrastructure Resource Manager abrufen, den Stack erstellen und bereitstellen. Alternativ können Sie den Code von GitHub auf Ihren Computer herunterladen, den Code anpassen und die Architektur mit der Terraform-CLI bereitstellen.

Mit Oracle Cloud Infrastructure Resource Manager bereitstellen:
1. Klicken Sie auf
  Wenn Sie noch nicht angemeldet sind, geben Sie die Mandanten- und Benutzerzugangsdaten ein.
2. Lesen und akzeptieren Sie die Vertragsbedingungen.
3. Wählen Sie die Region aus, in der Sie den Stack bereitstellen möchten.
4. Befolgen Sie die Anweisungen auf dem Bildschirm, um den Stack zu erstellen.
5. Nachdem Sie den Stack erstellt haben, klicken Sie auf Terraform-Aktionen, und wählen Sie Planen aus.
6. Warten Sie, bis der Job abgeschlossen ist, und prüfen Sie den Plan.
  Um Änderungen vorzunehmen, kehren Sie zur Seite "Stackdetails" zurück, klicken Sie auf Stack bearbeiten, und nehmen Sie die erforderlichen Änderungen vor. Führen Sie dann die Aktion Planen erneut aus.
7. Wenn keine weiteren Änderungen erforderlich sind, kehren Sie zur Seite "Stackdetails" zurück, klicken Sie auf Terraform-Aktionen, und wählen Sie Anwenden aus.
Mit der Terraform-CLI bereitstellen:
1. Gehen Sie zu GitHub.
2. Klonen Sie das Repository, oder laden Sie es auf den lokalen Rechner herunter.
3. Befolgen Sie die Anweisungen im Dokument README.

Mehr erfahren

Erfahren Sie mehr über die Features dieser Architektur und die zugehörigen Architekturen.

Bestätigungen

Author: José Cruz

Contributors: Larry Fumagalli, Ionel Panaitescu, Robert Lies

Änderungslog

In diesem Log werden wichtige Änderungen aufgeführt:

Juni 21, 2023

Anweisungen zum Deployment der Architektur mit Oracle Cloud Infrastructure Resource Manager hinzugefügt.
Der Link GitHub wurde aktualisiert.
Aktualisierte Architekturdiagramme.