Datenplattform - Data Lakehouses
Sie können Ereignisdaten und Streamingdaten effektiv aus dem Internet der Dinge (IoT) und aus Social-Media-Quellen erfassen und analysieren, aber wie korrelieren Sie sie mit dem breiten Spektrum an Unternehmensdatenressourcen, um Ihre Investitionen zu nutzen und die gewünschten Erkenntnisse zu gewinnen?
Nutzen Sie ein Cloud-Data Lakehouse, das die Fähigkeiten eines Data Lakes und eines Data Warehouse kombiniert, um eine breite Palette von Unternehmens- und Streamingdaten für Geschäftsanalysen und maschinelles Lernen zu verarbeiten.
Diese Referenzarchitektur positioniert die Technologielösung innerhalb des gesamten Geschäftskontextes, in dem strategische Absichten die Schaffung messbarer strategischer Ergebnisse vorantreiben. Diese Ergebnisse generieren neue strategische Absichten und liefern effektive kontinuierliche, datengesteuerte Geschäftsverbesserungen.
Mit einem Data Lake kann ein Unternehmen alle seine Daten in einer kosteneffektiven, elastischen Umgebung speichern und gleichzeitig die erforderlichen Verarbeitungs-, Persistenz- und Analyseservices bereitstellen, um neue Geschäftseinblicke zu gewinnen. Ein Data Lake speichert und kuratiert strukturierte und unstrukturierte Daten und bietet Methoden für die Organisation großer Mengen unterschiedlichster Daten aus mehreren Quellen.
Bei einem Data Warehouse führen Sie eine Datentransformation und Bereinigung durch, bevor Sie die Daten im Warehouse festschreiben. Mit einem Data Lake nehmen Sie Daten schnell auf und bereiten sie im Handumdrehen vor, wenn die Benutzer darauf zugreifen. Ein Data Lake unterstützt das betriebliche Reporting und die Geschäftsüberwachung, die einen sofortigen Zugriff auf Daten und flexible Analysen erfordern, um zu verstehen, was im Unternehmen passiert, während es stattfindet.
Funktionale Architektur
Sie können die Fähigkeiten eines Data Lakes und eines Data Warehouse kombinieren, um eine moderne Data Lakehouse-Plattform bereitzustellen, die Streaming und andere Datentypen aus einer breiten Palette von Unternehmensdatenressourcen verarbeitet, sodass Sie die Daten für Geschäftsanalysen, maschinelles Lernen, Datenservices und Datenprodukte nutzen können.
Eine Data Lakehouse-Architektur kombiniert die Funktionen von Data Lake und Data Warehouse, um die betriebliche Effizienz zu steigern und erweiterte Funktionen bereitzustellen, die Folgendes ermöglichen:
- Nahtlose Daten- und Informationsnutzung, ohne dass sie über den Data Lake und das Data Warehouse repliziert werden muss
- Diverse Datentypunterstützung in einer erweiterten Multimodell- und Mehrsprachenarchitektur
- Nahtlose Datenaufnahme von jedem Verbraucher mithilfe von Echtzeit-, Streaming-, Batch-, Anwendungsprogrammierschnittstellen (API) und Massenaufnahmemechanismen
- Kontinuierliche Intelligenzgewinnung aus Daten mithilfe von KI-, generativen KI- und ML-Services (KI)
- Die Möglichkeit, Informationen über API, Benutzeroberfläche, Streaming und Integrationsmechanismen für jeden Datenverbraucher bereitzustellen und bereitzustellen
- Governance und feingranulierte Datensicherheit, die ein Zero-Trust-Sicherheitsmodell nutzt
- Die Möglichkeit, Speicher- und Compute-Ressourcen vollständig zu entkoppeln und nur die benötigten Ressourcen zu einem beliebigen Zeitpunkt zu nutzen
- Die Möglichkeit, mehrere Compute-Engines, einschließlich Open-Source-Engines, zu nutzen, um dieselben Daten für verschiedene Anwendungsfälle zu verarbeiten und so maximale Datenwiederverwendung, Liquidität und Nutzung zu erreichen
- Die Möglichkeit, Daten mit verschiedenen offenen Datei- und Tabellenformaten im Data Lake zu speichern
- Die Möglichkeit, native Oracle Cloud Infrastructure-(OCI-)Services zu nutzen, die von Oracle verwaltet werden und den Betriebsaufwand reduzieren
- Bessere Cloud-Ökonomie durch automatische Skalierung, die Cloud-Ressourceninfrastruktur an den tatsächlichen Bedarf anpasst
- Modularität, sodass die Servicenutzung vom Anwendungsfall gesteuert wird
- Interoperabilität mit jedem System oder jeder Cloud, die offenen Standards entspricht
- Unterstützung für verschiedene Anwendungsfälle, einschließlich Streaming, Analysen, Data Science und maschinellem Lernen
- Unterstützung verschiedener Architekturansätze, von einem zentralen Lakehouse bis hin zu einem dezentralen Data Mesh
Das folgende Diagramm veranschaulicht die funktionale Architektur.
Lakehouse-Funktional-oracle-1.zip#GUID-43E61AD0-9E20-4DC0-BFB2-EFF8365A6694
Die Architektur konzentriert sich auf die folgenden logischen Bereiche:
- Verbinden, aufnehmen, transformieren
Verbindet sich mit Datenquellen, nimmt ihre Daten auf und verfeinert sie zur Verwendung in jeder der Datenschichten in der Architektur.
- Beibehalten, kuratieren, erstellen
Ermöglicht den Zugriff auf und die Navigation der Daten, um die aktuelle Geschäftsansicht anzuzeigen. Bei relationalen Technologien können Daten logisch oder physisch in einfachen relationalen, longitudinalen, dimensionalen oder OLAP-Formen strukturiert sein. Bei nicht-relationalen Daten enthält diese Schicht einen oder mehrere Datenpools, die entweder aus einem Analyseprozess oder für eine bestimmte analytische Aufgabe optimierte Daten ausgegeben werden.
- Analysieren, lernen, vorhersagen
Ruft die logische Geschäftsansicht der Daten für Consumer ab. Diese Abstraktion erleichtert agile Ansätze zur Entwicklung, Migration zur Zielarchitektur und die Bereitstellung einer einzelnen Berichtsebene aus mehreren föderierten Quellen.
Die Architektur verfügt über die folgenden funktionalen Komponenten:
- Batchaufnahme
Die Batchaufnahme ist nützlich für Daten, die nicht in Echtzeit aufgenommen werden können oder die zu kostspielig sind, um sich für die Echtzeitaufnahme anzupassen. Es ist auch wichtig, Daten in zuverlässige und vertrauenswürdige Informationen umzuwandeln, die kuratiert und für den regelmäßigen Verbrauch beibehalten werden können. Sie können die folgenden Services zusammen oder unabhängig voneinander nutzen, um einen hochflexiblen und effektiven Workflow für die Datenintegration und -transformation zu erreichen.
-
Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser Service zum Entwerfen und Ausführen von Datenpipelines. Es ermöglicht eine nahtlose Extraktion, Transformation und das Laden von Daten in OCI-Ziele wie Autonomous AI Lakehouse und OCI Object Storage. Benutzer können Integrationsabläufe über eine kodierte, intuitive Benutzeroberfläche erstellen, mit der Ausführungsumgebungen automatisch skaliert werden. Es unterstützt sowohl ETL mit Spark-basierter Verarbeitung als auch ELT mit SQL Pushdown für Performance und Effizienz. Der Service bietet auch Tools zur Datenaufbereitung und schützt vor Schemaabweichungen durch regelbasiertes Handling.
-
Oracle Data Integrator bietet umfassende Datenintegration: von Batch-Loads mit hohem Datenvolumen und hoher Performance über ereignisgesteuerte Trickle-Feed-Integrationsprozesse bin hin zu SOA-fähigen Datenservices. Ein deklarativer Designansatz sorgt für eine schnellere, einfachere Entwicklung und Wartung und bietet einen einzigartigen Ansatz zum Extrahieren von Lasttransformationen (ELT), mit dem ein Höchstmaß an Performance für Datentransformations- und Validierungsprozesse gewährleistet wird. Oracle-Datentransformationen verwenden eine Webschnittstelle, um die Konfiguration und Ausführung von ELT zu vereinfachen und Benutzern zu helfen, Daten und Arbeitsabläufe mit einem deklarativen Designansatz zu erstellen und zu planen.
-
Oracle Data Transforms ermöglichen ELT für ausgewählte unterstützte Technologien und vereinfachen die Konfiguration und Ausführung von Datenpipelines, indem eine Webbenutzeroberfläche verwendet wird, mit der Benutzer Datenflüsse und Workflows deklarativ erstellen und planen können. Oracle Data Transforms ist als vollständig verwaltete Umgebung in Oracle Autonomous AI Lakehouse verfügbar, um Daten aus mehreren Datenquellen in eine Oracle Autonomous AI Lakehouse-Instanz zu laden und zu transformieren.
Je nach Anwendungsfall können diese Komponenten unabhängig oder zusammen verwendet werden, um eine hochflexible und leistungsstarke Datenintegration und -transformation zu erreichen.
-
- API-basierte Aufnahme
Mit der API-basierten Aufnahme können Anwendungen und Systeme Ereignisdaten mithilfe von APIs oder Webhooks übertragen.
-
Oracle Integration ist eine vollständig verwaltete, vorkonfigurierte Umgebung, in der Sie Cloud- und On-Premise-Anwendungen integrieren, Geschäftsprozesse automatisieren und visuelle Anwendungen entwickeln können. Es verwendet einen SFTP-konformen Dateiserver zum Speichern und Abrufen von Dateien und ermöglicht den Austausch von Dokumenten mit Geschäftspartnern zwischen Unternehmen, indem Sie ein Portfolio von Hunderten von Adaptern und Rezepten für die Verbindung mit Oracle- und Drittanbieteranwendungen verwenden.
-
Mit Oracle Cloud Infrastructure API Gateway können Sie APIs mit privaten Endpunkten veröffentlichen, auf die über Ihr Netzwerk zugegriffen werden kann und die Sie bei Bedarf im öffentlichen Internet bereitstellen können. Die Endpunkte unterstützen API-Validierung, Anforderungs- und Antworttransformation, CORS, Authentifizierung und Autorisierung sowie Anforderungsbegrenzung.
Mit OCI API Gateway kann die API-Überwachung die Nutzung überwachen und SLAs garantieren. Nutzungspläne können auch verwendet werden, um API-Consumer und -Clients zu überwachen und zu verwalten sowie verschiedene API-Zugriffsstufen für verschiedene Kunden einzurichten. Nutzungspläne sind ein wichtiges Feature zur Unterstützung der Datenmonetarisierung.
Nutzungspläne unterstützen die Datenmonetarisierung, indem sie gestaffelte Nutzungspläne erstellen, um API-Nutzer und -Clients zu verwalten und ihre Datennutzung zu verfolgen.
-
Oracle Cloud Infrastructure Functions ist eine vollständig verwaltete, mehrmandantenfähige, hoch skalierbare Functions-as-a-Service-(FaaS-)Plattform (On-Demand). Sie wird von der Open Source-Engine Fn Project unterstützt. Mit OCI Functions können Sie Ihren Code bereitstellen, direkt aufrufen oder auch als Reaktion auf Ereignisse auslösen. OCI Functions verwendet Docker-Container, die in Oracle Cloud Infrastructure Registry gehostet werden.
-
Oracle REST Data Services (ORDS) ist eine Java-Anwendung, mit der Entwickler mit SQL- und Datenbankkenntnissen REST-APIs für Oracle Database entwickeln können. Jeder Anwendungsentwickler kann diese APIs aus jeder Sprachumgebung verwenden, ohne Clienttreiber auf die gleiche Weise zu installieren und zu verwalten, wie er mit REST, der am häufigsten verwendeten API-Technologie, auf andere externe Services zugreift.
ORDS wird als vollständig verwaltetes Feature in Oracle Autonomous AI Lakehouse bereitgestellt und kann verwendet werden, um Lakehouse-Informationen bereitzustellen, indem APIs für Datenkonsumenten verwendet werden.
-
-
Aufnahme in Echtzeit
Oracle Cloud Infrastructure GoldenGate ist ein vollständig verwalteter Service, der die Datenaufnahme aus Quellen ermöglicht, die sich On-Premises oder in einer beliebigen Cloud befinden. Es nutzt die GoldenGate-CDC-Technologie für eine nicht aufdringliche und effiziente Datenerfassung und -bereitstellung an Oracle Autonomous AI Lakehouse, Oracle Cloud Infrastructure Object Storage oder Oracle Cloud Infrastructure Streaming in Echtzeit und in großem Maßstab, um relevante Informationen den Verbrauchern so schnell wie möglich zur Verfügung zu stellen.
- Massentransfer
Mit der Massenübertragung können Sie große Batch-Datenmengen mit verschiedenen Methoden verschieben. Für große Data Lakehouses empfehlen wir Oracle Cloud Infrastructure FastConnect- und Data Transfer-Services.
-
Oracle Cloud Infrastructure FastConnect erstellt eine dedizierte, private Verbindung zwischen Ihrem Data Center und OCI. FastConnect bietet Optionen höherer Bandbreite und ein zuverlässigeres Netzwerk als bei internetbasierten Verbindungen.
- Mit der Oracle Cloud Infrastructure-(OCI-)Befehlszeilenschnittstelle (CLI) können Sie die Übertragung von Daten von On Premise zu OCI ausführen und automatisieren, indem Sie den privaten Circuit von Oracle Cloud Infrastructure FastConnect nutzen. Mit OCI-SDKs können Sie Code schreiben, um Daten und Dateien von On-Premises oder aus anderen Clouds in Oracle Cloud Infrastructure Object Storage zu kopieren oder zu synchronisieren. Dabei werden eine Vielzahl von Programmiersprachen wie Python, Java oder Go-to-Name verwendet. Mit REST-APIs können Sie eine Schnittstelle zu OCI-Services herstellen und diese steuern, z.B. Daten mit der Object Storage Service-API in den Objektspeicher verschieben.
- Oracle Cloud Infrastructure Data Transfer ist ein Offlinedatenmigrationsservice, mit dem Sie Datasets in Petabyte-Größe sicher von Ihrem Data Center in Oracle Cloud Infrastructure Object Storage oder Archive Storage verschieben können. Aufgrund von hohen Netzwerkkosten, unzuverlässigen Netzwerkverbindungen, langen Übertragungszeiten und Sicherheitsbedenken ist es nicht immer möglich oder sinnvoll, Daten über das öffentliche Internet in die Cloud zu verschieben. Mit Data Transfer Service können Sie diese Herausforderungen bewältigen und Daten wesentlich schneller in die Cloud migrieren. Die Datenübertragung ist entweder über Datenträger oder Appliance verfügbar. Die Auswahl von einem über dem anderen hängt hauptsächlich von der Datenmenge ab, wobei Data Transfer Appliance größere Datasets für jede Appliance unterstützt.
-
- Streaming aufnehmen
Die Streamingaufnahme wird durch die Verwendung von OCI-nativen Services unterstützt, die eine Echtzeitaufnahme großer Datasets von einem breiten Set von Datenproduzenten ermöglichen. Die Streaming-Aufnahme persistiert und synchronisiert die Daten im Objektspeicher, der das Herzstück des Data Lakehouse ist. Durch die Synchronisierung von Daten mit dem Objektspeicher können Sie historische Daten speichern, die kuratiert und weiter transformiert werden können, um wertvolle Erkenntnisse zu gewinnen.
-
Oracle Cloud Infrastructure Streaming bietet eine komplett verwaltete, skalierbare und dauerhafte Speicherlösung zur Aufnahme kontinuierlicher Datenstreams mit hohem Volumen, die Sie in Echtzeit konsumieren und verarbeiten können. Streaming kann für Messaging, Anwendungslogs mit hohem Volumen, betriebliche Telemetrie, Clickstream-Webdaten oder andere Anwendungsbereiche für Publish/Subscribe-Messagingmodelle verwendet wird, in denen Daten kontinuierlich und sequenziell erzeugt und verarbeitet werden. Daten werden mit Oracle Cloud Infrastructure Object Storage synchronisiert und können kuratiert und weiter transformiert werden, um wertvolle Erkenntnisse zu gewinnen.
-
Oracle Cloud Infrastructure Queue ist ein vollständig verwalteter Serverless-Service, mit welchem Systeme entkoppelt und asynchrone Vorgänge aktiviert werden. Queue verarbeitet Transaktionsdaten mit hohem Volumen, die unabhängig verarbeitete Nachrichten ohne Verlust oder Duplizierung erfordern.
-
Oracle Cloud Infrastructure Service Connector Hub ist eine Cloud-Nachrichtenbusplattform, die einen zentralen Einblick für das Beschreiben, Ausführen und Überwachen der Datenverschiebung zwischen Services in Oracle Cloud Infrastructure bietet. Für diese bestimmte Referenzarchitektur wird es verwendet, um Daten aus Oracle Cloud Infrastructure Streaming oder OCI Queue in Oracle Cloud Infrastructure Object Storage zu verschieben, um die Rohdaten und vorbereiteten Daten in der Data Lakehouse-Persistenzschicht zu persistieren.
-
-
Streamingverarbeitung
Die Streamingverarbeitung bereichert Streamingdaten, erkennt Ereignismuster und erstellt eine andere Gruppe von Streams, die im Data Lakehouse persistiert werden.
-
Oracle Cloud Infrastructure GoldenGate Stream Analytics ist ein vollständig verwalteter, skalierbarer Service, der mithilfe ausgefeilter Korrelationsmuster, Datenanreicherung und maschinellem Lernen umfangreiche Echtzeitinformationen verarbeitet und analysiert. Benutzer können Echtzeitdaten mithilfe von Live-Diagrammen, Karten und Visualisierungen untersuchen. Benutzer können Streaming-Pipelines ohne Handcodierung mit grafischen Tools erstellen.
-
Oracle Cloud Infrastructure Data Flow ist ein vollständig verwalteter Big-Data-Service, mit dem Sie Apache Spark- und Spark-Streaminganwendungen ausführen können, ohne Infrastruktur bereitstellen oder verwalten zu müssen. Damit können Sie Big-Data- und KI-Anwendungen schneller bereitstellen, da Sie sich auf Ihre Anwendungen konzentrieren können, ohne den Betrieb verwalten zu müssen. Datenflussanwendungen sind wiederverwendbare Vorlagen, die aus einer Spark-Anwendung und ihren Abhängigkeiten, Standardparametern und einer Spezifikation der Standardlaufzeitressourcen bestehen.
-
- Open-Source-Ökosystem
Sie können das Open-Source-Ökosystem verwenden:
- Für die Batch- und Streamverarbeitung mit mehreren gängigen Open-Source-Engines wie Hadoop, Spark, Flink oder Trino
- Mit Oracle Cloud Infrastructure Streaming sowohl als Produzent als auch als Verbraucher
- Mit Oracle Cloud Infrastructure Object Storage können Daten persistiert und Daten verwendet werden
Sie können Oracle Cloud Infrastructure Object Storage als Data Lake verwenden, um Datasets, die Sie zwischen den verschiedenen Oracle Cloud Infrastructure-Services gemeinsam verwenden möchten, zu unterschiedlichen Zeiten zu persistieren.
Big Data Service stellt unter anderem vollständig konfigurierte, sichere, hochverfügbare und dedizierte Hadoop-, Spark- oder Flink-Cluster auf Anforderung bereit. Passen Sie das Cluster entsprechend Ihren Big-Data und Analyse-Workloads an, indem Sie eine Reihe von Oracle Cloud Infrastructure-Compute-Ausprägungen verwenden, die alles unterstützen, von kleinen Test- und Entwicklungsclustern bis zu großen Produktionsclustern. Passen Sie sich schnell an den Geschäftsbedarf an, und optimieren Sie die Kosten, indem Sie Konfigurationen zur automatischen Skalierung nutzen, unabhängig davon, ob sie auf Metriken oder im Zeitplan basieren. Nutzen Sie Clusterprofile, um optimale Cluster für eine bestimmte Workload oder Technologie zu erstellen. - Batchverarbeitung
Die Batchverarbeitung transformiert große Datasets, die im Data Lakehouse gespeichert sind. Die Batchverarbeitung nutzt native Oracle Cloud Infrastructure-Services, die sich nahtlos in Oracle Cloud Infrastructure Object Storage integrieren lassen, und ermöglicht es Ihnen, kuratierte Daten für Anwendungsfälle wie Datenaggregation und -anreicherung, Data Warehouse-Aufnahme sowie skalierbare Nutzung von maschinellem Lernen und KI-Daten zu erstellen.
-
Oracle Cloud Infrastructure Data Integration, wie oben beschrieben, ist ein vollständig verwalteter, serverloser, Cloud-nativer Service, der Daten aus einer Vielzahl von Datenquellen in Oracle Cloud Infrastructure-Zielservices wie Autonomous AI Lakehouse und Oracle Cloud Infrastructure Object Storage extrahiert, lädt, transformiert, bereinigt und neu formt.
-
Oracle Cloud Infrastructure Data Flow ist ein vollständig verwalteter Big-Data-Service, mit dem Sie Apache Spark- und Spark-Streaminganwendungen ausführen können, ohne Infrastruktur bereitstellen oder verwalten zu müssen. Damit können Sie Big-Data- und KI-Anwendungen schneller bereitstellen, da Sie sich auf Ihre Anwendungen konzentrieren können, ohne den Betrieb verwalten zu müssen. Datenflussanwendungen sind wiederverwendbare Vorlagen, die aus einer Spark-Anwendung und ihren Abhängigkeiten, Standardparametern und einer Spezifikation der Standardlaufzeitressourcen bestehen.
-
Oracle Data Transforms ermöglichen Extract-Load-Transform (ELT) für ausgewählte unterstützte Technologien und vereinfachen die Konfiguration und Ausführung von Datenpipelines, indem eine Webbenutzeroberfläche verwendet wird, mit der Benutzer Datenflüsse und Arbeitsabläufe deklarativ erstellen und planen können. Oracle Data Transforms ist als vollständig verwaltete Umgebung in Oracle Autonomous AI Lakehouse verfügbar, um Daten aus mehreren Datenquellen in eine Oracle Autonomous AI Lakehouse-Instanz zu laden und zu transformieren.
Je nach Anwendungsfall können diese Komponenten unabhängig oder gemeinsam eingesetzt werden, um eine hochflexible und performante Datenverarbeitung zu erreichen.
-
- Service
Oracle Autonomous AI Lakehouse ist ein selbstverwaltender, selbstsichernder, selbstreparierender Datenbankservice, der für Data Warehousing-Workloads optimiert ist. Sie müssen weder Hardware konfigurieren oder verwalten noch Software installieren. OCI übernimmt das Erstellen, Sichern, Patchen, Upgraden und Optimieren der Datenbank.
Nach dem Provisioning können Sie die Anzahl der CPU-Cores oder die Speicherkapazität der Datenbank jederzeit skalieren, ohne dass sich dies auf Verfügbarkeit oder Performance auswirkt.
Oracle Autonomous AI Lakehouse kann auch Daten, die sich im Objektspeicher befinden, als externe und hybride partitionierte Tabellen virtualisieren, sodass Sie Daten, die aus anderen Quellen abgeleitet wurden, mit den Warehouse-Daten verknüpfen und nutzen können. Sie können historische Daten auch aus dem Warehouse in den Objektspeicher verschieben und dann mithilfe hybrider partitionierter Tabellen nahtlos konsumieren.
Oracle Autonomous AI Lakehouse kann zuvor im Datenkatalog gespeicherte Metadaten verwenden, um externe Tabellen zu erstellen, und Metadatenaktualisierungen im Datenkatalog automatisch mit der Definition externer Tabellen synchronisieren, um Konsistenz zu gewährleisten, die Verwaltung zu vereinfachen und den Aufwand zu reduzieren.
Vektoren werden in der Autonomous Database unterstützt, da es sich um eine Datenbank mit mehreren Modellen handelt, die mehrere Datentypen unterstützt, nämlich relationale, JSON-, räumliche und Diagramme. Mit dem Vektordatentyp können Sie Vektoreinbettungen laden und speichern sowie Vektorindizes erstellen, die dann für Retrieval Augmented Generation-(RAG-)Anwendungen in einer einzigen Cloud-Autonomous AI Lakehouse-Instanz verwendet werden können. Diese Multi-Modell-Funktion ermöglicht Analysen mit allen Datentypen, die in einer einzigen Abfrage verknüpft werden können. Dies reduziert die Komplexität und das Risiko, spezialisierte isolierte Datenbanken pro Datentyp zu haben, und gewährleistet gleichzeitig eine erhöhte Sicherheit, Zuverlässigkeit, Skalierbarkeit und einfache Analyse aller Daten.
Select AI, ein Autonomous AI Database-Feature, ermöglicht das Abfragen von Daten in natürlicher Sprache und verwendet LLMs, um den Eingabetext des Benutzers in Oracle SQL zu konvertieren. Select AI verarbeitet die Eingabeaufforderung in natürlicher Sprache, ergänzt die Eingabeaufforderung mit Metadaten und generiert dann eine SQL-Abfrage und führt sie aus.
Data Sharing, ein Autonomous AI Database-Feature, ermöglicht die sichere Bereitstellung und Nutzung von Daten und Metadaten von anderen Parteien, die eine autonome KI-Datenbank oder eine Delta-Sharing-konforme Technologie verwenden. Die Datenfreigabe erleichtert die nahtlose Nutzung von Daten von Freigabeprovidern, da Views die zugrunde liegenden gemeinsamen Tabellen abstrahieren. Darüber hinaus können Live-Shares, mit denen Empfänger Live- und frische Daten konsumieren können, verwendet werden, wenn sowohl der Provider als auch der Empfänger Autonomous AI Database verwenden.
Analyse-Views, ein Autonomous AI Database-Feature, bieten eine schnelle und effiziente Möglichkeit, analytische Abfragen von Daten zu erstellen, die in vorhandenen Datenbanktabellen und -Views gespeichert sind. Analyse-Views organisieren Daten mit einem Dimensionsmodell. Sie ermöglichen es Ihnen, ganz einfach Aggregationen und Berechnungen zu Datasets hinzuzufügen und Daten in Ansichten zu präsentieren, die mit relativ einfacher SQL abgefragt werden können. Mit diesem Feature können Sie ein Star- oder Snowflake-Schema semantisch direkt in Oracle Autonomous AI Lakehouse modellieren. Dabei werden intern und extern gespeicherte Daten verwendet. Außerdem können Sie das Modell mit SQL und einem beliebigen SQL-konformen Daten-Consumer nutzen.
Darüber hinaus kann Autonomous Data Lake Accelerator, eine Komponente der autonomen KI-Datenbank, Objektspeicherdaten nahtlos konsumieren, die Verarbeitung skalieren, um schnelle Abfragen bereitzustellen, die Datenbank-Compute-Instanz bei Bedarf automatisch skalieren und die Auswirkungen auf die Datenbank-Workload reduzieren, indem Objektspeicherabfragen von der Datenbank-Compute-Instanz isoliert werden.
- Cloud-Speicher
Oracle Cloud Infrastructure Object Storage ist eine internetbasierte, leistungsstarke Speicherplattform, die zuverlässige und kostengünstige Dauerhaftigkeit für Daten bietet. Oracle Cloud Infrastructure Object Storage kann eine unbegrenzte Menge unstrukturierter Daten eines beliebigen Inhaltstyps speichern. Hierzu zählen Analysedaten. Sie können Daten sicher und geschützt direkt aus dem Internet oder aus der Cloud-Plattform speichern oder abrufen. Über mehrere Managementschnittstellen können Sie problemlos klein anfangen und nahtlos skalieren, ohne dass sich die Leistung oder die Servicezuverlässigkeit verschlechtert.
Oracle Cloud Infrastructure Object Storage kann auch als Cold-Storage-Layer für das Data Warehouse verwendet werden, indem selten verwendete Daten gespeichert und dann nahtlos mit den neuesten Daten verknüpft werden, indem Hybridtabellen in Oracle Autonomous AI Lakehouse verwendet werden.
Granulare Zugriffskontrolle auf Objektebene kann mit IAM-Policys für Objekte durchgesetzt werden. Dadurch wird die Datensicherheit für Data Lake-Direktzugriffe erhöht.
- Visualisieren und lernen
Oracle Analytics Cloud ist ein skalierbarer und sicherer Public-Cloud-Service, der umfassende Funktionen bietet, mit denen Sie kollaborative Analysen für Sie, Ihre Arbeitsgruppe und Ihr Unternehmen durchführen und durchführen. Es unterstützt Citizen Data Scientists, erweiterte Business Analysts-Schulungen und die Ausführung von ML-Modellen. Modelle für maschinelles Lernen können im Analyseservice oder direkt in Oracle Autonomous AI Lakehouse als OML-eingebettete Modelle für groß angelegte Batchvorhersagen ausgeführt werden, bei denen die Verarbeitungsleistung, Skalierbarkeit und Elastizität der Warehouse- und OCI-KI-Services wie Oracle Cloud Infrastructure Vision genutzt werden.
Mit Oracle Analytics Cloud erhalten Sie außerdem flexible Service-Management-Funktionen wie schnelles Setup, einfache Skalierung und Patching sowie automatisiertes Lebenszyklusmanagement.
-
Lernen und vorhersagen
-
Data Science bietet Infrastruktur, Open-Source-Technologien, Bibliotheken, Packages und Data-Science-Tools, mit denen Data-Science-Teams Modelle für maschinelles Lernen (ML) in Oracle Cloud Infrastructure erstellen, trainieren und verwalten können. Der kollaborative und projektgesteuerte Workspace bietet eine durchgängig einheitliche Benutzererfahrung und unterstützt den Lebenszyklus von Vorhersagemodellen.
Mit dem Data Science-Jobfeature können Data Scientists wiederholbare Aufgaben des maschinellen Lernens in einer vollständig verwalteten Infrastruktur definieren und ausführen.
Mit dem Data Science-Modell-Deployment-Feature können Data Scientists trainierte Modelle als vollständig verwaltete HTTP-Endpunkte bereitstellen, die Vorhersagen in Echtzeit bereitstellen, Informationen in Prozesse und Anwendungen einfließen lassen und es dem Unternehmen ermöglichen, auf relevante Ereignisse zu reagieren, sobald sie auftreten.
-
Oracle Machine Learning bietet leistungsstarke Funktionen für maschinelles Lernen, die eng in die autonome KI-Datenbank integriert sind und Unterstützung für Python und AutoML bieten. Es unterstützt Modelle mit Open-Source- und skalierbaren datenbankinternen Algorithmen, die Datenvorbereitung und -bewegung reduzieren. AutoML hilft Data Scientists, die Amortisierungszeit der Initiativen für maschinelles Lernen des Unternehmens zu verkürzen, indem es die automatische Algorithmusauswahl, das adaptive Datensampling, die automatische Featureauswahl und die automatische Modelloptimierung verwendet. Mit Oracle Machine Learning-Services, die in Oracle Autonomous AI Lakehouse verfügbar sind, können Sie nicht nur Modelle verwalten, sondern diese Modelle auch als REST-Endpunkte bereitstellen, um Echtzeitvorhersagen innerhalb des Unternehmens zu demokratisieren, damit Unternehmen auf relevante Ereignisse reagieren können, wenn sie auftreten, und nicht nach der Tatsache.
-
- KI- und generative KI-Services
Oracle Cloud Infrastructure-KI-Services bieten eine Reihe an einsatzbereiten KI-Services, mit denen eine Reihe von Anwendungsfällen unterstützt werden können, von der Textanalyse bis zur vorausschauenden Wartung. Diese Services verfügen über vordefinierte, fein abgestimmte Modelle, die Sie mithilfe von APIs in Datenpipelines, Analysen und Anwendungen integrieren können.
-
Oracle Cloud Infrastructure Language führt ausgefeilte Textanalysen und Übersetzungen in großem Maßstab durch. Mit vortrainierten und benutzerdefinierten Modellen können Entwickler unstrukturierten Text verarbeiten und Erkenntnisse ohne Data Science-Kenntnisse gewinnen. Stimmungsanalyse, Extraktion von Schlüsselphrasen, Textklassifizierung, Erkennung benannter Entitys und Erkennung von personenbezogenen Daten im Text ausführen. Passen Sie Modelle für domänenspezifische Aufgaben an und übersetzen Sie mühelos Text in verschiedene Sprachen. Oracle Cloud Infrastructure Language unterstützt auch Dokumentübersetzungen und asynchrone Jobs für die effiziente Verarbeitung von Workloads mit großem Volumen.
- Oracle Cloud Infrastructure Speech nutzt die Leistungsfähigkeit gesprochener Sprache, indem es Ihnen ermöglicht, Mediendateien mit menschlicher Sprache einfach in hochpräzise Texttranskriptionen zu konvertieren. Mit OCI Speech können Sie Kundenserviceanrufe transkribieren, die Untertitelerstellung automatisieren und Metadaten für Medienassets generieren, um ein vollständig durchsuchbares Archiv zu erstellen. OCI Speech unterstützt Batch- und Live-Transkriptionsjobs.
-
Oracle Cloud Infrastructure Vision ist ein KI-Service, mit dem Bildanalysen in großem Maßstab basierend auf Deep Learning durchgeführt werden können. OCI Vision führt Bilderkennungs- und Videoanalyseaufgaben aus, wie das Klassifizieren von Bildern, das Erkennen von Objekten und Gesichtern und das Extrahieren von Text. Sie können vortrainierte Modelle nutzen oder ganz einfach benutzerdefinierte Vision-Modelle für branchenspezifische und kundenspezifische Szenarien erstellen. OCI Vision ist ein vollständig verwalteter, mehrmandantenfähiger, nativer Cloud-Service, der bei allen gängigen Computer-Vision-Aufgaben hilft. Mit vordefinierten Modellen, die out-of-the-box verfügbar sind, können Entwickler ganz einfach Bilderkennung und Texterkennung in ihre Anwendungen ohne Machine Learning-(ML-)Expertise integrieren.
- Oracle Cloud Infrastructure Document Understanding führt Dokumentklassifizierungs- und Dokumentanalyseaufgaben aus, wie das Extrahieren von Text, Schlüsselwerten und Tabellen. OCI Document Understanding ist ein vollständig verwalteter, mehrmandantenfähiger, nativer Cloud-Service, der bei allen gängigen Dokumentanalyseaufgaben hilft.
- Oracle Cloud Infrastructure Generative AI ist eine vollständig verwaltete KI, die eine Reihe hochmoderner, anpassbarer großer Sprachmodelle (LLMs) bereitstellt, die eine breite Palette an Anwendungsfällen abdecken, einschließlich Chat, Textgenerierung, Zusammenfassung und Texteinbettungen. Verwenden Sie den Playground, um die einsatzbereiten vortrainierten Modelle sofort zu nutzen oder eigene optimierten benutzerdefinierte Modelle basierend auf Ihren eigenen Daten auf dedizierten KI-Clustern zu erstellen und zu hosten.
-
- Datenanreicherung
Die Datenanreicherung kann die Daten verbessern, mit denen Modelle für maschinelles Lernen trainiert werden, um bessere und genauere Vorhersageergebnisse zu erzielen.
Mit Oracle Cloud Infrastructure Data Labeling können Sie Datasets erstellen und durchsuchen, Datensätze (Text oder Bilder) anzeigen und Labels zum Erstellen von KI/ML-Modellen anwenden. Der Service bietet auch interaktive Benutzeroberflächen, die für den Etikettierungsprozess entwickelt wurden. Nachdem Datensätze beschriftet wurden, kann das Dataset als zeilenbegrenztes JSON zur Verwendung in der KI/ML-Modellentwicklung exportiert werden. - Suchen
Suchfunktionen können als ergänzende Funktion verwendet werden, um Endbenutzern Daten zur Verfügung zu stellen, die Betriebsanalysedaten benötigen, die vorab indiziert sind und daher mit geringer Latenz versorgt werden.
Oracle Cloud Infrastructure Search with OpenSearch ist eine verteilte, vollständig verwaltete, wartungsfreie Volltextsuchmaschine. Mit OpenSearch können Sie große Datenmengen mit schnellen Reaktionszeiten schnell speichern, suchen und analysieren. Der Service unterstützt Open-Source-OpenSearch-APIs und OpenSearch-Dashboards-Datenvisualisierung. - Streaminganalysen
Streaming-Analysen bieten Dashboards, die Echtzeitanalysen von gestreamten Daten bereitstellen, die mit kuratierten und im Data Lakehouse gespeicherten Stammdaten kontextualisiert werden, um interessante Muster zu erkennen, die dann Benutzern, Anwendungen und Dingen dienen können.
Oracle Cloud Infrastructure GoldenGate streamt Analyseprozesse und analysiert groß angelegte Echtzeitinformationen mithilfe ausgefeilter Korrelationsmuster, Datenanreicherung und maschinellem Lernen. Benutzer können Echtzeitdaten über Live-Diagramme, Karten, Visualisierungen untersuchen und Streaming-Pipelines ohne Handcodierung grafisch erstellen. Diese Pipelines werden in einem vollständig verwalteten und skalierbaren Service ausgeführt, um kritische Echtzeit-Anwendungsfälle moderner Unternehmen zu bewältigen.
- ETL/Rückschreiben stornieren
Reverse ETL, manchmal auch als Writeback bezeichnet, ermöglicht die Datenaktivierung in Betriebssystemen und -geräten, sodass aus Daten abgeleitete Informationen direkt in Anwendungen und Geräte zur Unterstützung von Geschäftsprozessen übertragen werden können.
Die Daten werden den Verbrauchern über mehrere Mechanismen bereitgestellt, und zwar durch die Verwendung von Streams und Queues, die eine große Gruppe von Verbrauchern unterstützen, die gleichzeitig Informationen abrufen, die sich in nahezu Echtzeit befinden und von den Daten entkoppelt sind. Streaming-Analysesystem, um Resilienz und Skalierbarkeit zu erhöhen, indem Anwendungen oder Datenintegration verwendet werden, um Daten mithilfe vordefinierter Adapter zu übertragen, oder indem serverlose Funktionen verwendet werden, um praktisch jeden Anwendungs- oder Geräteendpunkt aufzurufen.
-
Oracle Cloud Infrastructure Streaming-Service bietet eine komplett verwaltete, skalierbare und dauerhafte Speicherlösung für die Aufnahme kontinuierlicher Datenstreams mit hohem Volumen, die Sie in Echtzeit konsumieren und verarbeiten können. Streaming kann für Messaging, Anwendungslogs mit hohem Volumen, betriebliche Telemetrie, Clickstream-Webdaten oder andere Anwendungsbereiche für Publish/Subscribe-Messagingmodelle verwendet wird, in denen Daten kontinuierlich und sequenziell erzeugt und verarbeitet werden.
-
Oracle Cloud Infrastructure Queue ist ein vollständig verwalteter serverloser Service, mit denen Systeme entkoppelt und asynchrone Vorgänge aktiviert werden kann. Queue verarbeitet Transaktionsdaten mit hohem Volumen, die unabhängig verarbeitete Nachrichten ohne Verlust oder Duplizierung erfordern.
-
Oracle Integration ist eine vollständig verwaltete, vorkonfigurierte Umgebung, die es ermöglicht, Cloud- und On-Premise-Anwendungen zu integrieren, Geschäftsprozesse zu automatisieren, visuelle Anwendungen zu entwickeln, Dateien mit einem SFTP-konformen Dateiserver zu speichern und abzurufen und Geschäftsdokumente mit einem B2B-Geschäftspartner auszutauschen, der ein Portfolio aus Hunderten von Adaptern und Rezepten für die Verbindung mit Oracle- und Drittanbieteranwendungen verwendet.
-
Oracle Data Transforms ermöglichen ELT für ausgewählte unterstützte Technologien und vereinfachen die Konfiguration und Ausführung von Datenpipelines durch die Verwendung einer Webbenutzeroberfläche, mit der Benutzer Datenflüsse und Workflows deklarativ erstellen und planen können. Oracle Data Transforms ist als vollständig verwaltete Umgebung in Oracle Autonomous AI Lakehouse verfügbar, um Daten aus mehreren Datenquellen in eine Oracle Autonomous AI Lakehouse-Instanz zu laden und zu transformieren.
-
Oracle Cloud Infrastructure Functions ist eine vollständig verwaltete, mehrmandantenfähige, hochskalierbare, On-Demand-Funktionen-as-a-Service-Plattform. Sie basiert auf Oracle Cloud Infrastructure der Unternehmensklasse und wird von der Fn Project Open Source Engine unterstützt.
-
- API
Mit dem API-Layer können Sie die von Data Science und Oracle Machine Learning abgeleitete Intelligenz in Anwendungen, Geschäftsprozesse und Dinge einbinden, um deren Betrieb und Funktion zu beeinflussen und zu verbessern. Der API-Layer bietet eine sichere Nutzung der von Data Science bereitgestellten Modelle für Oracle Machine Learning-REST-Endpunkte und die Möglichkeit, das System zu steuern, um die Verfügbarkeit von Laufzeitumgebungen sicherzustellen. Sie können Funktionen auch nutzen, um nach Bedarf zusätzliche Logik auszuführen.
-
Mit dem Oracle Cloud Infrastructure-API-Gateway können Sie APIs mit privaten Endpunkten veröffentlichen, auf die über Ihr Netzwerk zugegriffen werden kann. Außerdem können Sie APIs mit öffentlichen IP-Adressen angeben, wenn Internettraffic akzeptiert werden soll. Die Endpunkte unterstützen API-Validierung, Anforderungs- und Antworttransformation, CORS, Authentifizierung und Autorisierung sowie Anforderungsbegrenzung. Es ermöglicht API-Beobachtbarkeit, die Nutzung zu überwachen und SLAs zu garantieren. Nutzungspläne können auch verwendet werden, um die API-Consumer und API-Clients zu überwachen und zu verwalten, die auf APIs zugreifen, und um verschiedene Zugriffsebenen für verschiedene Kunden einzurichten, um die Datennutzung zu verfolgen, die mit APIs verbraucht wird. Nutzungspläne sind ein wichtiges Feature zur Unterstützung der Datenmonetarisierung.
-
Oracle Cloud Infrastructure Functions ist eine vollständig verwaltete, mehrmandantenfähige, hochskalierbare, On-Demand-Funktionen-as-a-Service-Plattform. Sie basiert auf Oracle Cloud Infrastructure der Unternehmensklasse und wird von der Fn Project Open Source Engine unterstützt.
-
Oracle REST Data Services (ORDS) ist eine Java-Anwendung, mit der Entwickler mit SQL- und Datenbankkenntnissen REST-APIs für Oracle Database entwickeln können. Jeder Anwendungsentwickler kann diese APIs aus jeder Sprachumgebung verwenden, ohne Clienttreiber zu installieren und zu verwalten, genauso wie er mit REST, der am häufigsten verwendeten API-Technologie, auf andere externe Services zugreift. ORDS wird als vollständig verwaltetes Feature in Oracle Autonomous AI Lakehouse bereitgestellt und kann verwendet werden, um Lakehouse-Informationen bereitzustellen, indem APIs für Datenkonsumenten verwendet werden.
-
- Data Governance
Oracle Cloud Infrastructure Data Catalog bietet einen Überblick darüber, wo sich technische Assets wie Metadaten und entsprechende Attribute befinden, und bietet die Möglichkeit, ein Geschäftsglossar zu verwalten, das diesen technischen Metadaten zugeordnet ist. Data Catalog kann auch Metadaten für Oracle Autonomous AI Lakehouse bereitstellen, um die Erstellung externer Tabellen im Data Warehouse zu erleichtern.
-
Datensicherheit
Die Datensicherheit ist entscheidend für die Erforschung und Nutzung von Lakehouse-Daten in vollem Umfang. Durch die Nutzung eines Zero-Trust-Sicherheitsmodells mit Defense-in-Depth- und RBAC-Funktionen und die Sicherstellung der Einhaltung strengster Vorschriften bietet die Datensicherheit vorbeugende, erkennbare und korrigierende Sicherheitskontrollen, um sicherzustellen, dass Datenexfiltration und -verletzungen verhindert werden.
-
Oracle Data Safe ist ein vollständig integrierter Oracle Cloud-Service, der sich auf die Datensicherheit konzentriert. Er bietet ein vollständiges und integriertes Funktionsset zum Schutz sensibler und regulierter Daten in Oracle Cloud-Datenbanken wie Oracle Autonomous AI Lakehouse. Zu den Features gehören Sicherheitsbewertung, Benutzerbewertung, Datenerkennung, Datenmaskierung und Aktivitätsauditing.
-
Oracle Cloud Infrastructure Audit bietet Einblick in Aktivitäten im Zusammenhang mit Oracle Cloud Infrastructure-(OCI-)Ressourcen und -Mandanten. Mit Auditlogereignissen können Sie Sicherheitsaudits durchführen, um die Nutzung von und Änderungen an OCI-Ressourcen zu verfolgen und die Einhaltung der Standards und Vorschriften zu gewährleisten.
-
Oracle Cloud Infrastructure-Logging bietet eine hoch skalierbare und vollständig verwaltete zentrale Schnittstelle für alle Logs im Mandanten, einschließlich Auditlogs. Mit OCI Logging können Sie auf Logs aus allen OCI-Ressourcen zugreifen, sodass Sie sie aktivieren, verwalten und durchsuchen können.
-
Oracle Cloud Infrastructure Vault ist ein Verschlüsselungsverwaltungsservice, der Verschlüsselungsschlüssel und Secrets für den sichere Zugriff auf Ressourcen speichert oder verwaltet. Ermöglicht die Verwendung von vom Kunden verwalteten Schlüsseln für Oracle Autonomous AI Lakehouse und Data Lake-Verschlüsselung, um den Datenschutz im Ruhezustand zu erhöhen. Ermöglicht es Secrets, Services und Benutzerzugangsdaten sicher zu speichern, um Ihren Sicherheitsstatus zu verbessern und sicherzustellen, dass Zugangsdaten nicht gefährdet und unangemessen verwendet werden.
-
Physische Architektur
Die physische Architektur für dieses Data Lakehouse unterstützt Folgendes:
- Daten werden mithilfe von Mikrobatches, Streaming, APIs und Dateien aus relationalen und nicht relationalen Datenquellen sicher aufgenommen
- Daten werden mit einer Kombination aus Oracle Cloud Infrastructure Data Integration und Oracle Cloud Infrastructure Data Flow verarbeitet
- Daten werden in Oracle Autonomous AI Lakehouse und Oracle Cloud Infrastructure Object Storage gespeichert und nach Qualität und Wert organisiert
- Oracle Autonomous AI Lakehouse dient Warehouse- und Lake-Datenservices sicher für Verbraucher
- Oracle Analytics Cloud zeigt Geschäftsbenutzern mithilfe von Visualisierungen Daten an.
- Oracle Analytics Cloud wird mit Oracle Cloud Infrastructure Load Balancer bereitgestellt, der von Oracle Cloud Infrastructure Web Application Firewall (WAF) gesichert wird, um Zugriff über das Internet bereitzustellen
- Oracle Cloud Infrastructure Data Science wird zum Erstellen, Trainieren und Bereitstellen von Modellen für maschinelles Lernen (ML) verwendet
- Oracle Cloud Infrastructure API Gateway wird zur Steuerung der Data Science-ML-Modellbereitstellungen verwendet
- Oracle Cloud Infrastructure Data Catalog sammelt Metadaten aus Oracle Autonomous AI Lakehouse und Objektspeicher
- Oracle Data Safe wertet Risiken für Daten aus, implementiert und überwacht Sicherheitskontrollen, bewertet die Benutzersicherheit, überwacht Benutzeraktivitäten und erfüllt Complianceanforderungen für die Datensicherheit
- Oracle Cloud Infrastructure Bastion wird von Administratoren zum Verwalten von Private-Cloud-Ressourcen verwendet
Das folgende Diagramm veranschaulicht diese Referenzarchitektur.
Seehaus-Architektur-oracle-1.zip#GUID-EE46F831-C10F-432F-A664-D78609670EB6
Das Design für die physische Architektur:
- Nutzt 2 VCNs, eines für Hub und ein anderes für die Workload selbst
- On-Premise-Konnektivität nutzt sowohl Oracle Cloud Infrastructure FastConnect als auch Site-to-Site-VPN für Redundanz
- Der gesamte eingehende Traffic von On Premise und vom Internet wird zuerst an das Hub-VCN und dann an das Workload-VCN weitergeleitet
- Alle Daten sind während der Übertragung und im Ruhezustand sicher
- Services werden mit privaten Endpunkten bereitgestellt, um den Sicherheitsstatus zu erhöhen
- Das VCN ist in mehrere private Subnetze unterteilt, um den Sicherheitsstatus zu erhöhen
- Lake-Daten werden in mehrere Buckets im Objektspeicher unter Verwendung einer Medaillon-Architektur getrennt
Mögliche Designverbesserungen, die in dieser Bereitstellung aus Gründen der Einfachheit nicht dargestellt werden, sind:
- Nutzung einer vollständigen CIS-konformen Landezone
- Nutzen Sie eine Netzwerkfirewall, um die allgemeine Sicherheitslage zu verbessern, indem Sie den gesamten Traffic prüfen und Policys durchsetzen
Empfehlungen
Verwenden Sie die folgenden Empfehlungen als Ausgangspunkt für die Verarbeitung von Streamingdaten und einer breiten Palette von Unternehmensdatenressourcen für Geschäftsanalysen und maschinelles Lernen.
Ihre Anforderungen können von der hier beschriebenen Architektur abweichen.
- Oracle Autonomous AI Lakehouse
Diese Architektur verwendet Oracle Autonomous AI Lakehouse auf einer gemeinsam genutzten Infrastruktur.
- Aktivieren Sie die automatische Skalierung, um den Datenbank-Workloads die bis zu dreifache Verarbeitungsleistung zu verleihen.
- Sie sollten Oracle Autonomous AI Lakehouse in einer dedizierten Infrastruktur verwenden, wenn Sie die Selfservice-Datenbankfunktion in einer privaten Datenbank-Cloud-Umgebung in der Public Cloud ausführen möchten.
- Sie sollten das Feature für hybride partitionierte Tabellen von Autonomous AI Lakehouse verwenden, um Datenpartitionen in Oracle Cloud Infrastructure Object Storage zu verschieben und sie Benutzern und Anwendungen transparent zu dienen. Wir empfehlen, diese Funktion für Daten zu verwenden, die nicht häufig genutzt werden und für die Sie nicht dieselbe Performance benötigen wie für Daten, die in Autonomous AI Lakehouse gespeichert sind.
- Verwenden Sie das Feature "Externe Tabellen", um in Oracle Cloud Infrastructure Object Storage gespeicherte Daten in Echtzeit zu nutzen, ohne sie in Autonomous AI Lakehouse replizieren zu müssen. Diese Funktion verbindet Datensätze, die außerhalb von Autonomous AI Lakehouse kuratiert wurden, unabhängig vom Format (Parquet, Avro, Orc, Json, CSV usw.) transparent und nahtlos mit Daten, die sich in Autonomous AI Lakehouse befinden.
- Ziehen Sie die Verwendung des In-Memory-Datenbankfeatures in Betracht, um die Performance für Echtzeitanalysen und gemischte Workloads deutlich zu verbessern. Laden Sie Lakehouse-Daten in den Speicher, der mit geringer Latenz bedient werden muss und sich in internen, hybriden partitionierten oder externen Tabellen von Autonomous AI Lakehouse befindet.
- Ziehen Sie die Verwendung von Autonomous AI Lakehouse Accelerator in Betracht, wenn Sie Objektspeicherdaten nutzen, um Benutzern, die Daten zwischen dem Data Warehouse und dem Data Lake konsumieren und verbinden, eine verbesserte und schnellere Erfahrung zu bieten.
- Sie sollten Vektoreinbettungen in Autonomous AI Lakehouse neben anderen Datentypen wie relationalen Daten oder JSON-Daten speichern, um das Data Engineering und die Analyse aller Daten zu vereinfachen und RAG-Agents mit allen Daten effizient zu boden.
- Verwenden Sie Select AI als Beschleuniger, um einfaches und komplexes SQL zu erstellen, das in Data Engineering, Business Intelligence, Anwendungsentwicklung oder jeder Aufgabe verwendet werden kann, die SQL erstellen muss.
- Ziehen Sie die Verwendung von Select AI mit Low-Code-Anwendungen in Betracht, um die Anwendungsebene weiter zu vereinfachen.
- Verwenden Sie Analyseansichten, um das zugrunde liegende DW-Stern- oder Snowflake-Schema semantisch direkt in Autonomous AI Lakehouse zu modellieren, sodass granulare Daten automatisch aggregiert werden, ohne dass sie vorab aggregiert werden müssen. Das semantische Modell wird durch konsistente Verwendung von SQL mit jedem SQL-konformen Client, einschließlich Oracle Analytics Cloud, konsumiert, um sicherzustellen, dass Fakten und KPIs vorliegen unabhängig vom Client konsistent bedient werden. Alle Daten können im semantischen Modell verwendet werden, unabhängig davon, ob sie in Autonomous AI Lakehouse oder in OCI Object Storage gespeichert sind. Dadurch ist dieses Feature eine perfekte semantische Modellierungsschicht für eine Lakehouse-Architektur, in der Fakten und Dimensionen sowohl das DW als auch den Lake durchlaufen können.
- Ziehen Sie die Verwendung von vom Kunden verwalteten Schlüsseln unter Verwendung von OCI Vault in Betracht, wenn aufgrund von Unternehmens- oder Regulierungsrichtlinien eine vollständige Kontrolle über Autonomous AI Lakehouse-Verschlüsselungsschlüssel erforderlich ist.
- Ziehen Sie die Verwendung von Database Vault in Autonomous AI Lakehouse in Betracht, um zu verhindern, dass nicht autorisierte privilegierte Benutzer auf vertrauliche Daten zugreifen und so Datenexfiltration und Datenverletzungen verhindern.
- Sie sollten Oracle Autonomous Data Guard verwenden, um einen Geschäftskontinuitätsplan zu unterstützen, indem Sie Daten auf einer Standbyinstanz entweder in derselben Region oder in einer anderen Region einrichten und replizieren.
- Ziehen Sie die Verwendung der dynamischen Datenmaskierung mit Data Redaction in Betracht, um Benutzern je nach Rolle maskierte Daten bereitzustellen und somit einen angemessenen Datenzugriff zu gewährleisten, ohne dass Daten dupliziert und statisch maskiert werden müssen.
- Verwenden Sie Autonomous AI Lakehouse-Klone, um schnell andere transiente oder nicht transiente Umgebungen zu erstellen. Verwenden Sie aktualisierbare Klone, wenn die Zielumgebung über aktuelle Daten verfügen muss. Mit Oracle Data Safe können Sie sensible Daten in den Klonen statisch maskieren, um die Sicherheit zu erhöhen.
- Nutzen Sie Data Sharing als sichere und einfache Möglichkeit, Daten zu konsumieren und bereitzustellen, entweder mit anderen autonomen KI-Datenbankinstanzen oder mit einer beliebigen Delta Sharing-konformen Technologie.
- Sie sollten Live-Datenfreigabe zwischen Autonomous AI Database-Instanzen verwenden, um Daten in Echtzeit zu konsumieren und bereitzustellen.
- Verwenden Sie versionierte Datenfreigabe, um Daten mit Verbrauchern zu teilen. Dies vermeidet die Kosten für die Abfrage der Daten, da Daten von Verbrauchern und nicht vom Anbieter verarbeitet werden.
- Verwenden Sie im Voraus authentifizierte Anforderungs-URLs für schreibgeschützten, zeitgebundenen Datenzugriff auf Autonomous AI Lakehouse, um die gemeinsame Nutzung nicht sensibler Daten für Anwendungsfälle zu ermöglichen, in denen der Verbraucher Delta Sharing nicht unterstützt.
- Objektspeicher/Data Lake
Diese Architektur verwendet Oracle Cloud Infrastructure Object Storage, einen hoch skalierbaren und dauerhaften Cloud-Speicher, als Lake-Speicher.
- Sie sollten Ihren Lake über verschiedene Bucketsets hinweg organisieren, indem Sie eine Medaillon-Architektur (Bronze, Silber, Gold) oder eine andere Partitionierungslogik nutzen, um Daten basierend auf ihrer Qualität und Anreicherung zu trennen, eine fein granulierte Sicherheit für Verbraucher durchzusetzen, die Daten lesen, und verschiedene Lebenszyklusmanagement-Policys auf die verschiedenen Ebenen anzuwenden.
- Sie sollten verschiedene Object Storage-Tiers und Lebenszyklus-Policys verwenden, um die Kosten für die skalierbare Speicherung von Lake-Daten zu optimieren.
- Ziehen Sie die Verwendung von vom Kunden verwalteten Schlüsseln mithilfe des Vault-Service in Betracht, wenn aufgrund von Unternehmens- oder Regulierungsrichtlinien eine vollständige Kontrolle über OCI Object Storage-Verschlüsselungsschlüssel erforderlich ist.
- Sie sollten die OCI Object Storage-Replikation verwenden, um einen Geschäftskontinuitätsplan zu unterstützen, indem Sie die Bucket-Replikation in einer anderen Region einrichten. Da OCI Object Storage extrem langlebig ist und mehrere Kopien desselben Objekts in einer einzelnen Region für das Recovery in derselben Region verwaltet, ist keine Replikation des Regions-Buckets erforderlich.
- Sie sollten Oracle Cloud Infrastructure Identity and Access Management-(IAM-)Policys für Objekte verwenden, Objektnamen oder Muster verwenden und die Datensicherheit für Data Lake-Direktzugriffe erhöhen.
- Verwenden Sie private Endpunkte in OCI Object Storage, um einen sicheren und privaten Zugriff auf den Data Lake über das Datenplattform-VCN sicherzustellen.
- Verwenden Sie Netzwerkquellen und IAM-Policys, um sie zu referenzieren, um die IP-Adressen zu verwalten, die für den Zugriff auf die Data Lake-Buckets und -Objekte autorisiert sind.
- Verwenden Sie OCIFS, ein python-basiertes Utility, zum Mounten von OCI Object Storage-Buckets als Dateisysteme. So können Anwendungen unterstützt werden, die nur mit NFS arbeiten und Dateien in den Objektspeicher hochladen müssen.
- Oracle Machine Learning und Oracle Cloud Infrastructure Data Science
Diese Architektur nutzt Oracle Machine Learning und Oracle Cloud Infrastructure Data Science, um Vorhersagen in Echtzeit für Personen und Anwendungen auszuführen und bereitzustellen.
- Verwenden Sie AutoML in Oracle Cloud Infrastructure Data Science oder Oracle Machine Learning, um die Entwicklung von ML-Modellen zu beschleunigen.
- Nutzen Sie Open Neural Networks Exchange (ONNX) für die Interoperabilität. ONNX-3rd-Party-Modelle können entweder in OML bereitgestellt und als REST-Endpunkt oder in Data Science bereitgestellt und als HTTP-Endpunkt bereitgestellt werden.
- Speichern Sie das Modell in Data Science als ONNX, und importieren Sie es in OCI GoldenGate Stream Analytics, wenn Scoring und Vorhersage in einer Echtzeit-Datenpipeline ausgeführt werden müssen, um zeitnahere Vorhersagen zu erhalten, die Geschäftsergebnisse in Echtzeit fördern können.
- Verwenden Sie Data Science-Conda-Umgebungen für eine bessere Verwaltung und ein besseres Packaging von Python-Abhängigkeiten in Jupyter-Notizbuchsessions.
- Verwenden Sie Oracle Cloud Infrastructure Data Science-KI-Schnellaktionen, um Basismodelle in Data Science bereitzustellen, zu bewerten und zu optimieren. Arbeiten Sie mit kuratierten Open-Source-LLMs, die im Modell-Explorer verfügbar sind, oder bringen Sie Ihr eigenes Modell mit.
- Ziehen Sie die Verwendung von Data Science-KI-Operatoren mit niedrigem Code in Betracht, die im Accelerated Data Science Python-Package verfügbar sind, um schnell und effizient Prognosen, Anomalieerkennung oder Empfehlungsfunktionalität zu erstellen.
- Verwenden Sie Oracle Cloud Infrastructure Data Flow in der Jupyter-Umgebung von Data Science, um explorative Datenanalysen, Datenprofilerstellung und Datenvorbereitung in großem Maßstab mithilfe von Spark Scale-out-Verarbeitung durchzuführen.
- Ziehen Sie die Verwendung von Oracle Cloud Infrastructure Data Labeling in Betracht, um Daten wie Bilder, Text oder Dokumente zu beschriften und damit ML-Modelle zu trainieren, die auf Data Science oder Oracle Cloud Infrastructure AI Services basieren, und so die Genauigkeit von Vorhersagen zu verbessern.
- Sie sollten ein OCI-API-Gateway bereitstellen, um die Nutzung des bereitgestellten Modells zu sichern und zu steuern, wenn von Partnern und externen Entitäten Echtzeitvorhersagen verwendet werden.
- Oracle Cloud Infrastructure Data Integration
Diese Architektur unterstützt mit Oracle Cloud Infrastructure Data Integration deklarative und codefreie oder Low-Code-ETL- und Datenpipeline-Entwicklung.
- Mit Oracle Cloud Infrastructure Data Integration können Sie Oracle Cloud Infrastructure Data Flow-Anwendungsausführungen koordinieren und planen und deklaratives ETL mit benutzerdefinierter Spark-Codelogik mischen und abgleichen. Verwenden Sie Funktionen aus Oracle Cloud Infrastructure Data Integration, um die Funktionen von Datenpipelines weiter zu erweitern.
- Verwenden Sie SQL-Pushdown für Transformationen, bei denen Autonomous AI Lakehouse als Ziel verwendet wird, um einen ELT-Ansatz zu verwenden, der im Vergleich zu ETL effizienter, leistungsfähiger und sicherer ist.
- Erwägen Sie, dass OCI Data Integration die Schemaabweichung von Datenquellen verarbeiten kann, um robustere und zukunftssichere Datenpipelines zu erhalten, die Änderungen am Datenquellenschema unterstützen.
- Oracle Cloud Infrastructure Data Flow
Diese Architektur unterstützt mit Oracle Cloud Infrastructure Data Flow die groß angelegte Spark- und Spark-Streamingverarbeitung, ohne dass permanente Cluster erforderlich sind und verwaltet werden müssen.
- Verwenden Sie Oracle Cloud Infrastructure Data Catalog als Hive-Metastore für Oracle Cloud Infrastructure Data Flow, um Schemadefinitionen für Objekte in unstrukturierten und halbstrukturierten Datenassets wie Oracle Cloud Infrastructure Object Storage sicher zu speichern und abzurufen.
- Verwenden Sie Delta Lake in Data Flow, wenn ACID-Transaktionen und die Vereinheitlichung von Streaming und Batchverarbeitung für Lake-Daten erforderlich sind.
- Big Data Service
Diese Architektur nutzt Oracle Cloud Infrastructure Big Data Service, um hochverfügbare und skalierbare Cluster verschiedener Open-Source-Technologien wie Spark, Hadoop, Trino oder Flink bereitzustellen, die Batch- und Streamingdaten verarbeiten können. Big Data Service speichert Daten in HDFS, persistiert und liest Daten aus OCI Object Storage und kann Datasets mit anderen Oracle Cloud Infrastructure-Services wie Data Flow und Oracle Autonomous AI Lakehouse austauschen.
- Verwenden Sie Autoscaling, um die Worker-Knoten basierend auf Metriken oder Zeitplänen automatisch horizontal oder vertikal zu skalieren, um die Kosten basierend auf dem Ressourcenbedarf kontinuierlich zu optimieren.
- Verwenden Sie den OCI-HDFS-Connector für OCI Object Storage, um Daten in und aus OCI Object Storage zu lesen und zu schreiben. So erhalten Sie einen Mechanismus zum Erstellen/Verbrauchen von Daten, die mit anderen OCI-Services gemeinsam verwendet werden, ohne dass diese repliziert und dupliziert werden müssen.
- Ziehen Sie die Verwendung von Delta Lake auf OCI BDS in Betracht, wenn ACID-Transaktionen und die Vereinheitlichung von Streaming und Batchverarbeitung für Lake-Daten erforderlich sind.
- Wenn Sie andere Open-Source-Software verwenden müssen, sollten Sie Oracle Cloud Infrastructure Registry, Containerinstanzen oder Oracle Cloud Infrastructure Kubernetes Engine verwenden, um jede Open-Source-Software bereitzustellen, die containerisiert werden kann.
- Oracle Cloud Infrastructure-Streaming
Diese Architektur nutzt Oracle Cloud Infrastructure Streaming, um Streamingdaten aus Quellen zu konsumieren und Streamingdaten für Verbraucher bereitzustellen.
Ziehen Sie in Betracht, den Oracle Cloud Infrastructure Service Connector Hub zu nutzen, um Daten aus OCI Streaming zu verschieben und in OCI Object Storage zu persistieren, um weitere historische Datenanalysen zu unterstützen.
- Oracle Analytics Cloud
Diese Architektur nutzt Oracle Analytics Cloud (OAC) für die Bereitstellung erweiterter Analysen für Endbenutzer.
Ziehen Sie in Betracht, die vordefinierte Integration von OAC mit Oracle Cloud Infrastructure AI Services (Sprach- und Vision-Modelle) und OML (beliebiges Modell) zu nutzen, um Intelligenz in Datenflüsse und Visualisierungen einzubetten, die Endbenutzer konsumieren und somit den KI- und ML-Verbrauch zu demokratisieren.
- Oracle Cloud Infrastructure AI Services
Diese Architektur kann je nach den bereitgestellten Anwendungsfällen Oracle Cloud Infrastructure AI Services nutzen.
Ziehen Sie die Verwendung von OCI Data Labeling in Betracht, um Trainingsdaten zu kennzeichnen, mit denen Sie genauere Vorhersagen für Oracle Cloud Infrastructure AI Services wie OCI Vision, OCI Document Understanding und erhalten.
- Oracle Cloud Infrastructure Generative AI-Services
Diese Architektur kann je nach den bereitgestellten Anwendungsfällen Oracle Cloud Infrastructure Generative AI-Services nutzen.
- Verwenden Sie den On-Demand-Spielplatz und die APIs, die vortrainierte LLMs verwenden, um Textgenerierung, Unterhaltung, Datenextraktion, Zusammenfassung, Klassifizierung, Stilübertragung oder semantische Ähnlichkeit zu adressieren und generative KI schnell in Ihre Pipelines und Prozesse einzubetten.
- Ziehen Sie in Betracht, dedizierte KI-Cluster zu verwenden, um grundlegende LLMs effizient an Ihre Daten anzupassen und zu optimieren und so eine vollständige Isolation und Datensicherheit sicherzustellen.
- Ziehen Sie in Betracht, dedizierte KI-Cluster innerhalb verschiedener Teams im gesamten Unternehmen zu hosten, um Kosteneffizienz zu erzielen. Ein einzelnes Cluster kann zum Hosten mehrerer benutzerdefinierter Modelle verwendet werden, die alle mit unabhängigen Endpunkten bedient und mit dedizierten IAM-Policys gesichert werden können.
- OCI API Gateway
Diese Architektur nutzt OCI API Gateway, um Datenservices und Echtzeitinferenzierung für Datenkonsumenten sicher bereitzustellen.
- Verwenden Sie Oracle Cloud Infrastructure Functions, um Laufzeitlogik hinzuzufügen, die letztendlich zur Unterstützung bestimmter API-Verarbeitung erforderlich ist, die außerhalb des Geltungsbereichs der Datenverarbeitungs-, Zugriffs- und Interpretationsschichten liegt.
- Verwenden Sie Nutzungspläne, um den Abonnentenzugriff auf APIs zu verwalten, den API-Verbrauch zu überwachen und zu verwalten, verschiedene Zugriffsebenen für verschiedene Verbraucher einzurichten und die Datenmonetarisierung zu unterstützen, indem Sie Nutzungsmetriken verfolgen, die einem externen Abrechnungssystem zur Verfügung gestellt werden können.
- Oracle Cloud Infrastructure Data Catalog
Um eine vollständige und ganzheitliche End-to-End-Ansicht der auf der Plattform gespeicherten und fließenden Daten zu erhalten, sollten Sie nicht nur das Harvesting von Datenspeichern in Betracht ziehen, die die Datenpersistenzschicht unterstützen, sondern auch die Quelldatenspeicher. Durch die Zuordnung dieser durch Harvesting erstellten technischen Metadaten zum Geschäftsglossar und die Anreicherung mit benutzerdefinierten Eigenschaften können Sie Geschäftskonzepte zuordnen sowie Sicherheits- und Zugriffsdefinitionen dokumentieren und steuern.
- Um die Erstellung externer Oracle Autonomous AI Lakehouse-Tabellen zu erleichtern, die Daten virtualisieren, die in OCI Object Storage gespeichert sind, nutzen Sie die zuvor von Data Catalog erstellten Metadaten. Dies vereinfacht die Erstellung externer Tabellen, erzwingt die Konsistenz von Metadaten über Datenspeicher hinweg und ist weniger anfällig für menschliche Fehler.
- Verwenden Sie das Herkunfts-Tracking für Oracle Cloud Infrastructure Data Integration und Oracle Cloud Infrastructure Data Flow, um einen Überblick darüber zu erhalten, wie Daten aufgenommen, transformiert und gespeichert wurden. Für eine bessere Abdeckung verwenden Sie API-basierte Aufnahme, um das Open Framework von OpenLineage zu nutzen und die Herkunft für jede Quelle und jedes System zu verfolgen.
- Oracle Cloud Infrastructure Data Transfer-Service
Oracle Cloud Infrastructure Data Transfer-Service verwenden, wenn der Upload von Daten über öffentliche Internetverbindung nicht sinnvoll oder machbar ist. Wir empfehlen Ihnen, Data Transfer zu verwenden, wenn das Hochladen von Daten über das öffentliche Internet länger als 1-2 Wochen dauert.
- Data Safe und Audit
Durch die Erhöhung der Sicherheitslage mithilfe von Auditing- und Alert-Funktionen kann eine Datenexfiltration verhindert werden, und im Falle einer Datenverletzung können forensische Analysen durchgeführt werden.
- Sie sollten Oracle Data Safe verwenden, um Aktivitäten im Data Warehouse zu auditieren, und Oracle Cloud Infrastructure Audit verwenden, um den Traffic zu den Lake-Daten zu auditieren.
- Verwenden Sie Oracle Data Safe zur Erkennung vertraulicher Daten in Autonomous AI Lakehouse und zur statischen Maskierung, wenn Sie Autonomous AI Lakehouse-Klone für Nicht-Produktionsumgebungen erstellen. So werden Sicherheitsrisiken vermieden.
- Ziehen Sie in Betracht, die Oracle Data Safe-SQL-Firewall mit Autonomous AI Lakehouse zu verwenden, um die Datensicherheit zu erhöhen und vor Risiken wie SQL-Injection-Angriffen oder kompromittierten Accounts zu schützen.
- Bereitstellung und Automatisierung
Diese physische Architektur wird mit Infrastructure-as-Code-(IaC-)Automatisierung bereitgestellt, um die Ressourcen für die Bereitstellung eines Data Lakehouse zu erstellen
Mit Oracle Cloud Infrastructure Resource Manager können Sie Terraform-Stacks mit bereitstellbaren Cloud-Ressourcen erstellen, Infrastrukturkonfigurationen gemeinsam verwenden und verwalten sowie Dateien über mehrere Teams oder Plattformen hinweg angeben. Sie sollten Oracle Cloud Infrastructure Resource Manager verwenden, um Deployment-Stacks für die Erstellung von Nicht-Produktionsumgebungen zu erstellen, um neue Teams zu integrieren, die zusätzliche Services benötigen, und um konsistente IAM-Policys und Sicherheitsrichtlinien zu standardisieren und einzubetten, die den von der Organisation definierten Policys für Sicherheit und Governance entsprechen.
- Geschäftskontinuität
Diese Architektur beschreibt ein Deployment in einer einzelnen Region und kann zwei Regionen erweitern, um Disaster Recovery zu unterstützen und einen Business Continuity-Plan zu ermöglichen.
- Oracle Cloud Infrastructure Full Stack Disaster Recovery ist ein Disaster-Recovery-Orchestrierungs- und -Managementservice, der umfassende Disaster-Recovery-Funktionen für alle Layer eines Anwendungsstacks bereitstellt, darunter Infrastruktur, Middleware, Datenbank und Anwendung.
Ziehen Sie die Verwendung von OCI Full Stack Disaster Recovery in Betracht, um Switchover- und Failover-Pläne für das Data Lakehouse einzurichten, um Disaster Recovery-Aufgaben zu automatisieren und manuelle Schritte im Falle eines geplanten oder ungeplanten Übergangs zur Standbyregion zu reduzieren.
- Kostenoptimierung
Sie können die Kosten- und Nutzungsverfolgung von Oracle Cloud Infrastructure sowie Funktionen zur Kostenoptimierung verwenden, um Ihre Finanzvorgänge kontinuierlich zu unterstützen.
- Ziehen Sie die Verwendung von Kosten- und Nutzungsberichten in Betracht, um die Nutzung von Cloud-Ressourcen und die jeweiligen Kosten zu ermitteln und zu verfolgen. Nutzen Sie branchenübliche FOCUS-CSV-Kostenberichte, die für die Integration mit Finanzbetriebslösungen von 3rd Party erstellt werden.
- Sie sollten die Kostenanalyse verwenden, um die Kosten zu verfolgen, die verschiedenen Teams, Projekten und Umgebungen entstehen.
- Ziehen Sie die Verwendung von Kostenverfolgungstags in Betracht, um Cloud-Ressourcen für bestimmte Teams, Projekte oder Umgebungen zu taggen.
- Sie sollten Budgets verwenden, um variable Ausgabenlimits festzulegen, und Alerts festlegen, um Sie darüber zu informieren, wann Sie Ihr Budget für Projekt-, Team- oder Gesamtausgaben überschreiten können.
- Interoperabilität
Diese Architektur nutzt ausgiebige Branchenstandards, um mit der breiteren IT-Heterogenität jedes Unternehmens zu interagieren. So kann sie Daten für jede Anwendung, jedes System oder jede Person konsumieren und bereitstellen.
Die Architektur unterstützt offene Dateiformate wie Parquet oder Avro, sodass Daten in dem für jeden Anwendungsfall geeigneteren Format gespeichert werden können. Darüber hinaus unterstützt es offene Tabellenformate wie Iceberg und Delta Lake, um die Interoperabilität zwischen Oracle-Technologien und anderen 3rd-Party-Technologien sicherzustellen.- Ziehen Sie in Betracht, den Oracle Autonomous AI Lakehouse Iceberg-Support zu verwenden, um Iceberg-Tabellen zu lesen, die auf dem Data Lake persistiert wurden, und um sie den Verbrauchern zu dienen. Iceberg-Tabellen können entweder als externe Tabellen verwendet oder in Autonomous AI Lakehouse geladen werden.
- Verwenden Sie die Delta Lake Universal Format-Unterstützung für Data Flow, um Daten im Data Lake zu lesen, zu verarbeiten und zu persistieren. Die Verwendung von Delta Lake bei der Generierung von Metadaten für andere offene Tabellenformate wie Iceberg und Hudi ermöglicht es verschiedenen Verarbeitungs-Engines, dieselben Daten zu lesen.
- Organisationsansatz
Diese Architektur ist flexibel und kann verschiedene Arten von organisatorischen Ansätzen unterstützen, die von einem zentralisierten bis zu einem vollständig dezentralen Ansatz reichen und somit von jeder Organisation übernommen und verwendet werden können, die Wert aus ihren Daten ziehen möchte.
Diese Architektur nutzt ausführlich fein granulierte Kontrollen für die Authentifizierung und Autorisierung mit OCI Identity and Access Management (IAM).
Ziehen Sie in Betracht, IAM zu verwenden, um die verschiedenen Geschäftsbereiche und Teams zu trennen, die das Lakehouse verwenden, um das Eigentum an der Erstellung von Datenprodukten zu dezentralisieren und die Trennung von Datendomänen durchzusetzen, wenn Ihr Unternehmen einen dezentralen organisatorischen Ansatz verfolgen möchte.
OCI bietet Automatisierung und Infrastructure-as-Code als Schlüsselfunktionen für ein erfolgreiches Architektur-Deployment und nutzt dabei Frameworks wie Terraform und Ansible.
Wenn Ihr Unternehmen einen dezentralen Ansatz verfolgt und Datendomänen nach diesem Ansatz implementiert, sollten Sie vorgefertigte Terraform-Vorlagen und OCI Resource Manager nutzen, um Datendomänen schnell und konsistent in die Datenplattform zu integrieren.
Hinweise
Berücksichtigen Sie bei der Erfassung, Verarbeitung und Kuratierung von Anwendungsdaten für Analysen und maschinelles Lernen die folgenden Implementierungsoptionen.
| Anleitung | Empfohlen | Andere Optionen | Begründung |
|---|---|---|---|
| Datenraffination |
|
|
Oracle Cloud Infrastructure Data Integration bietet eine cloudnative, serverlose, vollständig verwaltete ETL-Plattform, die skalierbar und kosteneffizient ist. Oracle Cloud Infrastructure GoldenGate bietet eine cloudnative, serverlose, vollständig verwaltete, nicht aufdringliche Datenreplikationsplattform, die skalierbar, kosteneffizient und in hybriden Umgebungen bereitgestellt werden kann. |
| Datenpersistenz |
|
Oracle Exadata Database Service |
Oracle Autonomous AI Lakehouse ist eine benutzerfreundliche, vollständig autonome Datenbank, die elastisch skalierbar ist, schnelle Abfrageperformance liefert und keine Datenbankadministration erfordert. Es bietet auch direkten Zugriff auf die Daten aus externen oder hybriden partitionierten Objektspeicher-Tabellen. Oracle Cloud Infrastructure Object Storage speichert unbegrenzt Daten im Raw-Format. |
| Datenverarbeitung |
|
Drittanbietertools |
Oracle Cloud Infrastructure Data Integration bietet eine cloudnative, serverlose, vollständig verwaltete ETL-Plattform, die skalierbar und kosteneffektiv ist. Oracle Cloud Infrastructure Data Flow bietet eine serverlose Spark-Umgebung, um Daten in großem Umfang mit einem nutzungsabhängigen, extrem elastischen Modell zu verarbeiten. Oracle Cloud Infrastructure Big Data Service stellt Hadoop-as-a-Service der Unternehmensklasse mit End-to-End-Sicherheit, hoher Performance und einfacher Verwaltung sowie Upgradefähigkeit dar. |
| Zugriff und Interpretation |
|
Drittanbietertools |
Oracle Analytics Cloud ist vollständig verwaltet und eng in die kuratierten Daten in Oracle Autonomous AI Lakehouse integriert. Oracle Cloud Infrastructure Data Science ist eine vollständig verwaltete Selfservice-Plattform, auf der Data-Science-Teams Modelle für maschinelles Lernen (ML) in Oracle Cloud Infrastructure erstellen, trainieren und verwalten können, Data ScienceData Science bietet Infrastruktur- und Data Science-Tools wie AutoML- und Modellbereitstellungsfunktionen. Oracle Machine Learning ist eine vollständig verwaltete Self-Service-Plattform für Data Science, die mit Oracle Autonomous AI Lakehouse verfügbar ist und die Verarbeitungsleistung des Warehouse nutzt, um ML-Modelle in großem Maßstab zu erstellen, zu trainieren, zu testen und bereitzustellen, ohne dass die Daten außerhalb des Warehouse verschoben werden müssen. Oracle Cloud Infrastructure-KI-Services sind eine Reihe von Services, die vordefinierte Modelle bereitstellen, die speziell für die Ausführung von Aufgaben wie Inferenzierung potenzieller Anomalien oder das Erkennen von Stimmungen entwickelt und trainiert wurden. |
Stellen Sie
- Mit Oracle Cloud Infrastructure Resource Manager bereitstellen:
- Klicken Sie auf .

Wenn Sie noch nicht angemeldet sind, geben Sie den Mandanten und die Benutzerzugangsdaten ein.
- Überprüfen Sie die Geschäftsbedingungen und akzeptieren sie.
- Wählen Sie die Region aus, in der Sie den Stack bereitstellen möchten.
- Befolgen Sie die Anweisungen auf dem Bildschirm, um den Stack zu erstellen.
- Klicken Sie nach dem Erstellen des Stacks auf Terraform-Aktionen, und wählen Sie Planen aus.
- Warten Sie, bis der Job abgeschlossen ist, und prüfen Sie den Plan.
Um Änderungen vorzunehmen, kehren Sie zur Seite "Stackdetails" zurück, klicken Sie auf Stack bearbeiten, und nehmen Sie die erforderlichen Änderungen vor. Führen Sie dann die Aktion Planen erneut aus.
- Wenn keine weiteren Änderungen erforderlich sind, kehren Sie zur Seite "Stackdetails" zurück, klicken Sie auf Terraform-Aktionen, und wählen Sie Anwenden aus.
- Klicken Sie auf .
- Mit der Terraform-CLI bereitstellen:
- Gehen Sie zu GitHub.
- Klonen Sie das Repository, oder laden Sie es auf Ihren lokalen Computer herunter.
- Befolgen Sie die Anweisungen im Dokument
README.
Mehr erfahren
Erfahren Sie mehr über die Features dieser Architektur und verwandte Architekturen.
Bestätigungen
- Author: José Cruz
- Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies
Änderungslog
In diesem Log werden wichtige Änderungen aufgeführt:
| 28. Oktober 2024 |
|
| Juni 21, 2023 |
|


