Cloud Data Lake House – Unternehmens- und Streamingdaten für Analysen und maschinelles Lernen verarbeiten

Sie können Ereignisdaten und Streamingdaten effektiv aus dem Internet der Dinge (IoT) und Social Media-Quellen erfassen und analysieren. Aber wie korrelieren Sie sie mit den zahlreichen Unternehmensdatenressourcen, um Ihre Investition zu nutzen und die gewünschten Erkenntnisse zu gewinnen?

Nutzen Sie ein Cloud-Data-Lake-Haus, das die Fähigkeiten eines Data Lake und eines Data Warehouse kombiniert, um ein breites Spektrum an Unternehmens- und Streamingdaten für Geschäftsanalysen und maschinelles Lernen zu verarbeiten.

Diese Referenzarchitektur positioniert die Technologielösung im gesamten Geschäftskontext:



Mit einem Datenspeicher kann ein Unternehmen alle seine Daten in einer kosteneffizienten, elastischen Umgebung speichern und gleichzeitig die erforderlichen Verarbeitungs-, Persistenz- und Analyseservices bereitstellen, um neue Geschäftseinblicke zu gewinnen. Ein Datenspeicher speichert und kuratiert strukturierte und unstrukturierte Daten und bietet Methoden zur Organisation großer Datenmengen aus verschiedenen Quellen.

Mit einem Data Warehouse führen Sie Datentransformation und -bereinigung durch, bevor Sie die Daten im Warehouse speichern. Mit einem Datenspeicher nehmen Sie Daten schnell auf und bereiten sie im Handumdrehen vor, wenn die Benutzer darauf zugreifen. Ein Data Lake unterstützt Betriebsberichte und Geschäftsüberwachung, die sofortigen Zugriff auf Daten und flexible Analysen erfordern, um zu verstehen, was im Unternehmen geschieht, während es stattfindet.

In begrifflicher Hinsicht wird das Problem durch die Technologielösung wie folgt gelöst:



Architektur

Diese Architektur kombiniert die Fähigkeiten eines Data Lake und eines Data Warehouse, um eine moderne Data Lake House-Plattform bereitzustellen, die Streamingdaten und andere Datentypen aus einer Vielzahl von Unternehmensdatenressourcen verarbeitet. Verwenden Sie diese Architektur, um die Daten für Geschäftsanalysen, maschinelles Lernen und Datenservices zu nutzen.

Eine Data-Lake-Hausarchitektur kombiniert die Funktionen von Data Lake und Data Warehouse, um die betriebliche Effizienz zu steigern und erweiterte Funktionen bereitzustellen, die Folgendes ermöglichen:

  • Nahtlose Daten- und Informationsnutzung, ohne dass diese im Data Lake und Data Warehouse repliziert werden muss
  • Die Möglichkeit, Speicher- und Rechenressourcen vollständig zu entkoppeln und nur die Ressourcen zu einem beliebigen Zeitpunkt zu nutzen
  • Diverse Datentypunterstützung in einer verbesserten Multi-Model- und Mehrsprachig-Architektur
  • Verschiedene Anwendungsfälle wie Streaming, Analysen, Data Science und maschinelles Lernen

Das folgende Diagramm veranschaulicht diese Referenzarchitektur.

Beschreibung von cloud-data-lake-house-architecture.png folgt
Beschreibung der Abbildung cloud-data-lake-house-architecture.png

cloud-data-lake-house-architecture-oracle.zip

Die Architektur konzentriert sich auf die folgenden logischen Bereiche:

  • Data Raffery

    Erfasst und verfeinert die Daten für jede der Datenebenen in der Architektur. Die Form soll die Unterschiede bei den Verarbeitungskosten zum Speichern und Verfeinern von Daten auf jeder Ebene und zum Verschieben von Daten zwischen diesen veranschaulichen. Je enger die Form ist, desto weniger Raffinerieaufwand; da die Form breiter wird, steigt auch der Raffinerieaufwand.

  • Datenpersistenzplattform (beschichtete Informationsschicht)

    Ermöglicht den Zugriff auf und die Navigation der Daten, um die aktuelle und historische Geschäftsansicht anzuzeigen. Er enthält sowohl Rohdaten als auch granulare und aggregierte kuratierte Daten. Bei relationalen Technologien können Daten logisch oder physisch in einfachen relationalen, Längs-, Dimensions- oder OLAP-Formularen strukturiert sein. Bei nicht relationalen Daten enthält diese Schicht einen oder mehrere Datenpools, entweder aus einem Analyseprozess oder für eine bestimmte analytische Aufgabe optimierte Daten.

  • Zugriff und Interpretation

    Abstrahiert die logische Geschäftsansicht der Daten für die Verbraucher. Diese Abstraktion erleichtert agile Entwicklungsansätze, die Migration zur Zielarchitektur und das Provisioning einer einzelnen Berichtsschicht aus mehreren föderierten Quellen. Je schmaler die Form, desto weniger Aufwand für den Zugang und die Interpretation, da die Form breiter wird, steigt auch der Zugangs- und Interpretationsaufwand.

Die Architektur umfasst folgende Komponenten:

  • Batchaufnahme

    Die Batch-Aufnahme ist nützlich für Daten, die nicht in Echtzeit aufgenommen werden können oder zu kostspielig für die Anpassung für die Echtzeitaufnahme sind. Außerdem ist es wichtig, Daten in zuverlässige und vertrauenswürdige Informationen umzuwandeln, die für den regelmäßigen Verbrauch kuratiert und dauerhaft gespeichert werden können. Sie können die folgenden Services zusammen oder unabhängig verwenden, um einen hochflexiblen und effektiven Workflow zur Datenintegration und -transformation zu erreichen.

    • Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser, cloud-nativer Service, der Daten aus einer Vielzahl von Datenquellen extrahiert, lädt, transformiert, bereinigt und in Ziel-Oracle Cloud Infrastructure-Services wie Autonomous Data Warehouse und Oracle Cloud Infrastructure Object Storage umwandelt. ETL (Extract Transform Load) nutzt vollständig verwaltete Scale-out-Verarbeitung in Spark. ELT (Extract Load Transform) nutzt vollständige SQL-Push-Funktionen von Autonomous Data Warehouse, um die Datenverschiebung zu minimieren und die Amortisierungszeit für neu aufgenommene Daten zu verbessern. Benutzer entwickeln Datenintegrationsprozesse mithilfe einer intuitiven, unverschlüsselten Benutzeroberfläche, die Integrationsabläufe optimiert, um die effizienteste Engine und Orchestrierung zu generieren und die Ausführungsumgebung automatisch zuzuweisen und zu skalieren. Oracle Cloud Infrastructure Data Integration bietet interaktive Exploration und Datenvorbereitung und hilft Dateningenieuren dabei, sich vor Schemaabweichungen zu schützen, indem sie Regeln zur Verarbeitung von Schemaänderungen definieren.

    • Oracle Data Integrator bietet eine umfassende Datenintegration von Batch-Loads mit hohem Volumen und hoher Performance auf ereignisgesteuerte Integrationsprozesse zu SOA-fähigen Datenservices. Ein deklarativer Designansatz sorgt für schnellere, einfachere Entwicklung und Wartung und bietet einen einzigartigen Ansatz zum Extrahieren der Lasttransformation (ELT), der die größtmögliche Performance für Datentransformations- und Validierungsprozesse gewährleistet. Oracle-Datentransformationen nutzen eine Webbenutzeroberfläche, um die Konfiguration und Ausführung von ELT zu vereinfachen und Benutzer bei der Erstellung und Planung von Daten und Arbeitsabläufen mithilfe eines deklarativen Designansatzes zu unterstützen.

    Je nach Anwendungsfall können diese Komponenten unabhängig oder zusammen verwendet werden, um hochflexible und leistungsstarke Datenintegration und -transformation zu erreichen.

  • Aufnahme in Echtzeit

    Oracle Cloud Infrastructure GoldenGate ist ein vollständig verwalteter Service, mit dem Daten von Quellen, die sich vor Ort oder in jeder Cloud befinden, erfasst werden können. Dabei wird die GoldenGate CDC-Technologie für eine nicht aufdringliche und effiziente Erfassung von Daten und die Bereitstellung an Oracle Autonomous Data Warehouse in Echtzeit und skalierbar genutzt, um den Verbrauchern relevante Informationen so schnell wie möglich zur Verfügung zu stellen.

  • Bulk-Transfer

    Mit der Bulkübertragung können Sie große Datenmengen im Batch mit verschiedenen Methoden verschieben. Für große Data Lake-Häuser werden Oracle Cloud Infrastructure FastConnect- und Data Transfer-Services empfohlen.

    Oracle Cloud Infrastructure FastConnect bietet eine einfache Möglichkeit, eine dedizierte, private Verbindung zwischen Ihrem Data Center und Oracle Cloud Infrastructure zu erstellen. FastConnect bietet im Vergleich zu internetbasierten Verbindungen eine höhere Bandbreite an Optionen und eine zuverlässigere Netzwerkerfahrung.

    Mit der Befehlszeilenschnittstelle (CLI) von Oracle Cloud Infrastructure können Sie die Datenübertragung von On-Premises-Daten in Oracle Cloud Infrastructure ausführen und automatisieren, indem Sie den Private Circuit von FastConnect nutzen.

    Data Transfer ist ein Offline-Datenmigrationsservice, mit dem Sie Datasets in Petabyte-Ebene sicher von Ihrem Data Center zu Oracle Cloud Infrastructure Object Storage oder Archive Storage verschieben können. Aufgrund von hohen Netzwerkkosten, unzuverlässigen Netzwerkverbindungen, langen Übertragungszeiten und Sicherheitsbedenken ist es nicht immer möglich, Daten mit dem öffentlichen Internet in die Cloud zu verschieben. Mit Data Transfer Service können Sie die Herausforderungen zur Datenmigration deutlich reduzieren. Datenübertragung ist über Datenträger oder Appliance verfügbar. Die Auswahl zwischen den Daten hängt größtenteils von der Datengröße ab, wobei Data Transfer Appliance größere Datasets für jede Appliance unterstützt.

  • Streamingaufnahme

    Oracle Cloud Infrastructure Streaming Service bietet eine komplett verwaltete, skalierbare und dauerhafte Storage-Lösung, mit der Sie fortlaufende und hochvolumige Datenstreams aufnehmen können, die Sie in Echtzeit verwenden und verarbeiten können. Streaming kann für Messaging, High-Volume-Anwendungslogs, betriebliche Telemetrie, Web-Click-Stream-Daten oder andere Anwendungsfälle für das Publish-Subscribe-Nachrichtenmodell verwendet werden, in denen Daten kontinuierlich und sequenziell erstellt und verarbeitet werden. Daten werden mit Oracle Cloud Infrastructure Object Storage synchronisiert und können kuratiert und weiter transformiert werden, um wertvolle Erkenntnisse zu gewinnen.

    Oracle Cloud Infrastructure Service Connector Hub ist eine Cloud-Nachrichtenbusplattform, die den Datenverkehr zwischen Services in Oracle Cloud Infrastructure beschreibt, ausführt und überwacht. Bei dieser spezifischen Referenzarchitektur werden Daten aus Oracle Cloud Infrastructure Streaming in Oracle Cloud Infrastructure Object Storage verschoben, um die Rohdaten und vorbereiteten Daten in die Persistenzschicht des Data Lake zu persistieren.

  • Streaming-Verarbeitung

    Die Streamingverarbeitung erweitert Streamingdaten, erkennt Ereignismuster und erstellt eine andere Gruppe von Streams, die im Data Lake House persistiert werden.

    GoldenGate Optimieren Sie Analyseprozesse und analysieren Sie umfassende Echtzeitinformationen, indem Sie hochentwickelte Korrelationsmuster, Datenanreicherung und maschinelles Lernen verwenden. Benutzer können Echtzeitdaten über Live-Diagramme, Karten, Visualisierungen untersuchen und Streaming-Pipelines grafisch ohne manuelle Codierung erstellen. Diese Pipelines werden in einer skalierbaren und hochverfügbaren geclusterten Big Data-Umgebung ausgeführt. Dabei wird Spark mit der kontinuierlichen Abfrage-Engine von Oracle integriert, um wichtige Anwendungsfälle moderner Unternehmen in Echtzeit zu behandeln.

    GoldenGate Stream Analytics kann das mit Oracle Cloud Infrastructure Big Data Service bereitgestellte Spark-Cluster nutzen, um Streams hoch skalierbar und zuverlässig zu verarbeiten.

  • Hadoop-Ökosystem
    Sie können das Hadoop-Ökosystem verwenden:
    • Für Batch- und Streamverarbeitung
    • Zur Ergänzung und Zusammenarbeit mit GoldenGate Stream Analytics nutzen Sie das Spark-Cluster Big Data Service, um Spark-Streamingjobs auszuführen
    • Mit Oracle Cloud Infrastructure Streaming sowohl als Produzent als auch als Consumer
    • Mit Oracle Cloud Infrastructure Object Storage können Daten dauerhaft gespeichert und Daten verbraucht werden.

    Sie können Oracle Cloud Infrastructure Object Storage als Datenspeicher verwenden, um Datasets dauerhaft zu speichern, die Sie zu unterschiedlichen Zeitpunkten zwischen den verschiedenen Oracle Cloud Infrastructure-Services freigeben möchten.

    Big Data Service stellt vollständig konfigurierte, sichere, hoch verfügbare und dedizierte Hadoop- und Spark-Cluster auf Anforderung bereit. Skalieren Sie das Cluster entsprechend Ihren Big-Data- und Analyse-Workloads mit einer Reihe von Oracle Cloud Infrastructure-Compute-Ausprägungen, die kleine Test- und Entwicklungscluster unterstützen, auf große Produktionscluster.

  • Batchverarbeitung

    Die Batchverarbeitung transformiert große Datasets, die im Data Lake House gespeichert sind. Bei der Batchverarbeitung werden native Oracle Cloud Infrastructure-Services verwendet, die nahtlos in Oracle Cloud Infrastructure Object Storage integriert werden. Außerdem können Sie kuratierte Daten für Anwendungsfälle wie Datenaggregation und -anreicherung, Data Warehouse-Aufnahme sowie skalierbare Nutzung von maschinellem Lernen und KI-Daten erstellen.

    Oracle Cloud Infrastructure Data Integration, oben beschrieben, ist ein vollständig verwalteter, serverloser Cloud-nativer Service, der Daten aus einer Vielzahl von Datenquellen extrahiert, lädt, transformiert, bereinigt und in Ziel-Oracle Cloud Infrastructure-Services, wie Autonomous Data Warehouse und Oracle Cloud Infrastructure Object Storage, neu gestaltet.

    Oracle Cloud Infrastructure Data Flow ist ein vollständig verwalteter Big-Data-Service, mit dem Sie Apache Spark-Anwendungen ausführen können, ohne die Infrastruktur bereitstellen oder verwalten zu müssen. Damit können Sie Big Data- und KI-Anwendungen schneller bereitstellen, da Sie sich auf Ihre Anwendungen konzentrieren können, ohne Vorgänge verwalten zu müssen. Datenflussanwendungen sind wiederverwendbare Vorlagen, die aus einer Spark-Anwendung und ihren Abhängigkeiten, Standardparametern und einer Spezifikation von Standardlaufzeitressourcen bestehen.

  • Portion

    Oracle Autonomous Data Warehouse ist ein selbststeuernder, selbstsichernder, selbstreparierender Datenbankservice, der für Data Warehousing-Workloads optimiert ist. Sie müssen keine Hardware konfigurieren oder verwalten und keine Software installieren. Oracle Cloud Infrastructure behandelt das Erstellen der Datenbank sowie das Backup, Patching, Upgrade und Tuning der Datenbank.

    Nach dem Provisioning können Sie die Anzahl der CPU-Cores oder die Speicherkapazität der Datenbank jederzeit skalieren, ohne dass sich die Verfügbarkeit oder Performance beeinträchtigt.

    Oracle Autonomous Data Warehouse kann auch Daten im Objektspeicher als externe und hybride partitionierte Tabellen virtualisieren, sodass Sie Daten aus anderen Quellen mit den Warehouse-Daten verknüpfen und konsumieren können. Sie können historische Daten auch aus dem Warehouse in den Objektspeicher verschieben und diese dann nahtlos über hybride partitionierte Tabellen verbrauchen.

    Oracle Autonomous Data Warehouse kann zuvor im Data Catalog gespeicherte Metadaten zum Erstellen externer Tabellen verwenden und Metadatenaktualisierungen im Data Catalog automatisch mit der Definition externer Tabellen synchronisieren, um die Konsistenz zu wahren, die Verwaltung zu vereinfachen und den Aufwand zu reduzieren.

    Darüber hinaus kann Autonomous Data Lake Accelerator, eine Komponente von Autonomous Database, Objektspeicherdaten nahtlos verbrauchen, die Verarbeitung für schnelle Abfragen skalieren, die Datenbank-Compute-Instanz bei Bedarf automatisch skalieren und die Auswirkungen auf die Datenbank-Workload reduzieren, indem Objektspeicherabfragen von der Datenbank-Compute-Instanz isoliert werden.

  • Cloud-Speicher

    Oracle Cloud Infrastructure Object Storage ist eine internetbasierte, leistungsstarke Speicherplattform, die zuverlässige und kostengünstige Dauerhaftigkeit von Daten bietet. Oracle Cloud Infrastructure Object Storage kann eine unbegrenzte Menge an unstrukturierten Daten eines beliebigen Inhaltstyps speichern, einschließlich Analysedaten. Sie können Daten sicher und sicher direkt aus dem Internet oder aus der Cloud-Plattform speichern oder abrufen. Mit mehreren Managementschnittstellen können Sie ganz einfach klein anfangen und nahtlos skalieren, ohne dass es zu einer Beeinträchtigung der Performance oder Servicezuverlässigkeit kommt.

    Oracle Cloud Infrastructure Object Storage kann auch als Cold Storage-Schicht für das Data Warehouse verwendet werden, indem Daten gespeichert werden, die selten verwendet werden, und anschließend mithilfe von Hybridtabellen in Oracle Autonomous Data Warehouse nahtlos mit den neuesten Daten verknüpft werden.

  • Visualisieren und lernen

    Oracle Analytics Cloud ist ein skalierbarer und sicherer Public-Cloud-Service, mit dem Sie umfassende Funktionen zum Erkunden und Ausführen von gemeinsamen Analysen für sich, Ihre Arbeitsgruppe und Ihr Unternehmen bereitstellen können. Sie unterstützt Citizen Data Scientists, fortschrittliche Business Analysts-Schulungen und ML-Modelle. Modelle für maschinelles Lernen können im Analyseservice oder direkt in Oracle Autonomous Data Warehouse als OML-eingebettete Modelle für Batch-Vorhersagen mit großem Umfang ausgeführt werden, die die Verarbeitungsleistung, Skalierbarkeit und Elastizität des Warehouse nutzen.

    Mit Oracle Analytics Cloud erhalten Sie außerdem flexible Servicemanagementfunktionen, wie schnelles Setup, einfache Skalierung und Patching sowie automatisiertes Lebenszyklusmanagement.

  • Lernen und voraussagen

    Data Science bietet Infrastruktur, Open-Source-Technologien, Bibliotheken, Packages und Datenanalysetools, mit denen Data-Science-Teams Modelle für maschinelles Lernen (ML) in Oracle Cloud Infrastructure erstellen, trainieren und verwalten können. Der kollaborative und projektgesteuerte Workspace bietet eine einheitliche End-to-End-Benutzeroberfläche und unterstützt den Lebenszyklus von Vorhersagemodellen.

    Mit dem Feature "Data Science-Modell-Deployment" können Datenanalysten trainierte Modelle als vollständig verwaltete HTTP-Endpunkte bereitstellen, die Prognosen in Echtzeit bereitstellen, Intelligenz in Prozesse und Anwendungen einbinden und es dem Unternehmen ermöglichen, auf relevante Ereignisse zu reagieren, während sie auftreten.

    Oracle Machine Learning bietet leistungsstarke Funktionen für maschinelles Lernen, die eng in Oracle Autonomous Database integriert sind und Python und AutoML unterstützen. Es unterstützt Modelle mit Open Source- und skalierbaren datenbankinternen Algorithmen, die die Datenvorbereitung und -verschiebung reduzieren. AutoML unterstützt Datenanalysten dabei, die Amortisierungszeit der Initiativen zum maschinellen Lernen des Unternehmens zu verkürzen, indem sie die automatische Algorithmusauswahl, die adaptive Datenentnahme, die automatische Funktionsauswahl und die automatische Modelloptimierung verwenden. Mit Oracle Machine Learning-Services, die in Oracle Autonomous Data Warehouse verfügbar sind, können Sie Modelle nicht nur verwalten, sondern auch diese Modelle als REST-Endpunkte bereitstellen, um Echtzeitvorhersagen innerhalb des Unternehmens zu demokratisieren, sodass Unternehmen auf relevante Ereignisse reagieren können, wenn sie auftreten, und nicht erst nach der Tatsache.

  • KI-Services

    Oracle Cloud Infrastructure AI-Services stellen ein Set von einsatzbereiten AI-Services bereit, mit denen Sie eine Reihe von Anwendungsfällen von der Textanalyse bis zur vorausschauenden Wartung unterstützen können. Diese Services verfügen über vordefinierte, fein abgestimmte Modelle, die Sie mit APIs in Datenpipelines, Analysen und Anwendungen integrieren können.

    Die Anomalieerkennung von Oracle Cloud Infrastructure bietet zahlreiche Tools, um unerwünschte Ereignisse oder Beobachtungen in Geschäftsdaten in Echtzeit zu identifizieren. So können Sie Maßnahmen ergreifen, um Geschäftsunterbrechungen zu vermeiden.

    Oracle Cloud Infrastructure AI-Sprachdienste stellen die Funktionen für künstliche Intelligenz und maschinelles Lernen bereit, um die Sprache in unstrukturiertem Text zu erkennen. Darüber hinaus bietet sie weitere Tools, mit denen Sie weitere Einblicke in Textdaten erhalten können.

  • Streaminganalysen

    Streaming-Analysen bieten Dashboards, die Echtzeitanalysen von gestreamten Daten bereitstellen, die kontextualisiert mit kuratierten und Stammdaten sind, die im Data Lake House gespeichert sind, um interessante Muster zu erkennen, die dann für Benutzer, Anwendungen und Dinge verwendet werden können.

    GoldenGate Optimieren Sie Analyseprozesse und analysieren Sie umfassende Echtzeitinformationen, indem Sie hochentwickelte Korrelationsmuster, Anreicherung und maschinelles Lernen verwenden. Benutzer können Echtzeitdaten über Live-Diagramme, Karten, Visualisierungen untersuchen und Streaming-Pipelines grafisch ohne manuelle Codierung erstellen. Diese Pipelines werden in einer skalierbaren und hochverfügbaren geclusterten Big Data-Umgebung ausgeführt. Dabei wird Spark mit der kontinuierlichen Abfrage-Engine von Oracle integriert, um wichtige Anwendungsfälle moderner Unternehmen in Echtzeit zu behandeln.

    GoldenGate Stream Analytics kann das mit Big Data Service bereitgestellte Spark-Cluster nutzen, um Streams hoch skalierbar und zuverlässig zu verarbeiten.

  • Streaming Serving

    Daten und Informationen werden Verbrauchern bereitgestellt, indem Streams verwendet werden, die eine große Anzahl von Benutzern unterstützen, die gleichzeitig Informationen konsumieren, die sich in nahezu Echtzeit befinden und vom Streaminganalysesystem abgekoppelt werden, um Resilienz und Skalierbarkeit zu verbessern.

    Oracle Cloud Infrastructure Streaming Service bietet eine komplett verwaltete, skalierbare und dauerhafte Storage-Lösung, mit der Sie fortlaufende und hochvolumige Datenstreams aufnehmen können, die Sie in Echtzeit verwenden und verarbeiten können. Streaming kann für Messaging, High-Volume-Anwendungslogs, betriebliche Telemetrie, Web-Click-Stream-Daten oder andere Anwendungsfälle für das Publish-Subscribe-Nachrichtenmodell verwendet werden, in denen Daten kontinuierlich und sequenziell erstellt und verarbeitet werden.

  • API

    Mit der API-Schicht können Sie die von Data Science und Oracle Machine Learning abgeleitete Intelligenz in Anwendungen, Geschäftsprozesse und Dinge integrieren, um deren Betrieb und Funktion zu beeinflussen und zu verbessern. Die API-Schicht bietet eine sichere Nutzung der von Data Science bereitgestellten Modelle für Oracle Machine Learning-REST-Endpunkte und die Möglichkeit, das System zu steuern, um die Verfügbarkeit von Laufzeitumgebungen sicherzustellen. Sie können auch Funktionen nutzen, um bei Bedarf zusätzliche Logik auszuführen.

    Mit Oracle API Gateway können Sie APIs mit privaten Endpunkten veröffentlichen, auf die Sie über Ihr Netzwerk zugreifen können, und die Sie mit öffentlichen IP-Adressen anzeigen können, wenn Internettraffic akzeptiert werden soll. Die Endpunkte unterstützen API-Validierung, Anforderungs- und Antworttransformation, CORS, Authentifizierung und Autorisierung sowie Anforderungsbeschränkung.

    Oracle Functions ist eine vollständig verwaltete, mehrmandantenfähige, hochskalierbare, On-Demand-Funktionen als Service-Plattform. Sie basiert auf Oracle Cloud Infrastructure für Unternehmen und wird von der Open-Source-Engine Fn Project unterstützt.

  • Governance

    Oracle Cloud Infrastructure Data Catalog bietet einen Überblick darüber, wo sich technische Assets wie Metadaten und die zugehörigen Attribute befinden, und bietet die Möglichkeit, ein Geschäftsglossar zu verwalten, das diesen technischen Metadaten zugeordnet ist. Data Catalog kann auch Metadaten für Oracle Autonomous Data Warehouse bereitstellen, um die Erstellung externer Tabellen im Data Warehouse zu vereinfachen.

Empfehlungen

Verwenden Sie die folgenden Empfehlungen als Ausgangspunkt für die Verarbeitung von Streamingdaten und eine breite Palette von Unternehmensdatenressourcen für Geschäftsanalysen und maschinelles Lernen.

Ihre Anforderungen können sich von der hier beschriebenen Architektur unterscheiden.

  • Oracle Autonomous Data Warehouse

    Diese Architektur verwendet Oracle Autonomous Data Warehouse auf einer gemeinsamen Infrastruktur. Aktivieren Sie die automatische Skalierung, um Datenbank-Workloads bis zu dem Dreifachen der Verarbeitungsleistung zu ermöglichen.

    Sie sollten Oracle Autonomous Data Warehouse in einer dedizierten Infrastruktur verwenden, wenn Sie möchten, dass die Selfservice-Datenbankfunktion in einer privaten Datenbank-Cloud-Umgebung in der Public Cloud ausgeführt wird.

    Sie sollten die hybride partitionierte Tabellenfunktion von Autonomous Data Warehouse verwenden, um Partitionen von Daten in Oracle Cloud Infrastructure Object Storage zu verschieben und transparent für Benutzer und Anwendungen bereitzustellen. Wir empfehlen, dieses Feature für Daten zu verwenden, die nicht häufig verwendet werden und für die Sie nicht dieselbe Performance benötigen wie für Daten, die in Autonomous Data Warehouse gespeichert sind.

    Sie sollten die externe Tabellenfunktion verwenden, um in Oracle Cloud Infrastructure Object Storage gespeicherte Daten in Echtzeit zu konsumieren, ohne sie in Autonomous Data Warehouse replizieren zu müssen. Diese Funktion verknüpft Datensätze, die außerhalb von Autonomous Data Warehouse kuratiert werden, transparent und nahtlos, unabhängig vom Format (Parquet, Avro, orc, json, csv usw.) mit Daten im Autonomous Data Warehouse.

    Ziehen Sie die Verwendung von Autonomous Data Lake Accelerator in Erwägung, wenn Sie Objektspeicherdaten konsumieren. So erhalten Sie eine bessere und schnellere Benutzererfahrung, die Daten zwischen dem Data Warehouse und dem Data Lake konsumieren und verknüpfen.

  • Oracle Machine Learning- und Oracle Cloud Infrastructure Data Science-Modellbereitstellung

    Diese Architektur nutzt Oracle Machine Learning und Oracle Cloud Infrastructure Data Science, um Prognosen in Echtzeit für Personen und Anwendungen auszuführen und bereitzustellen.

    Sie sollten ein API-Gateway bereitstellen, um den Verbrauch des bereitgestellten Modells zu sichern und zu steuern, wenn Echtzeitprognosen von Partnern und externen Entitys genutzt werden.

  • Oracle Cloud Infrastructure Data Integration

    Diese Architektur unterstützt mit Oracle Cloud Infrastructure Data Integration deklarative und nicht-codefähige oder Low-Code-ETL- und Daten-Pipeline-Entwicklung.

    Mit Oracle Cloud Infrastructure Data Integration können Sie die Ausführungen der Oracle Cloud Infrastructure Data Flow-Anwendung koordinieren und planen und deklarative ETL mit benutzerdefinierter Spark-Codelogik mischen und abgleichen. Verwenden Sie Funktionen aus Oracle Cloud Infrastructure Data Integration, um die Funktionen von Datenpipelines weiter zu erweitern.

  • Oracle Cloud Infrastructure Data Flow

    Diese Architektur verwendet Oracle Cloud Infrastructure Data Flow zur Unterstützung einer umfangreichen Spark-Verarbeitung, ohne dass permanente Cluster benötigt und verwaltet werden müssen.

    Sie sollten Oracle Cloud Infrastructure Data Catalog als Hive-Metastore für Oracle Cloud Infrastructure Data Flow verwenden, um Schemadefinitionen für Objekte in unstrukturierten und halbstrukturierten Datenassets wie Oracle Cloud Infrastructure Object Storage sicher zu speichern und abzurufen.

  • Big Data Service

    Diese Architektur nutzt Oracle Cloud Infrastructure Big Data Service, um ein hochverfügbares und skalierbares Spark-Cluster bereitzustellen, das Batch- und Streamingdaten verarbeiten kann. Big Data Service persistiert Daten in HDFS, persistiert und liest Daten aus Oracle Cloud Infrastructure Object Storage und kann Datasets mit anderen Oracle Cloud Infrastructure-Services wie Oracle Cloud Infrastructure Data Flow und Oracle Autonomous Data Warehouse austauschen.

    Sie sollten das Big Data Service-Spark-Cluster verwenden, um die Oracle Stream Analytics-Pipelineausführung bereitzustellen.

  • Oracle Cloud Infrastructure Streaming

    Diese Architektur nutzt Oracle Cloud Infrastructure Streaming, um Streamingdaten aus Quellen zu konsumieren und Streamingdaten für Consumer bereitzustellen.

    Ziehen Sie es in Erwägung, Oracle Cloud Infrastructure Service Connector Hub zu nutzen, um Daten aus Oracle Cloud Infrastructure Streaming zu verschieben und in Oracle Cloud Infrastructure Object Storage dauerhaft zu speichern, um weitere historische Datenanalysen zu unterstützen.

  • Oracle Cloud Infrastructure AI-Services

    Diese Architektur kann je nach bereitgestellten Anwendungsfällen Oracle Cloud Infrastructure AI-Services nutzen.

    Für Anwendungsfälle bei vorausschauender Instandhaltung und Anomalieerkennung sollten Sie den Oracle Cloud Infrastructure-Anomalie-Erkennungsservice verwenden, mit dem Anomalien in einem multivariaten Dataset identifiziert werden können, indem Sie die Beziehung zwischen Signalen nutzen.

  • API Gateway

    Diese Architektur nutzt API Gateway zur sicheren Bereitstellung von Datenservices und Echtzeit-Inferenzen für Daten-Consumer.

    Sie sollten Oracle Functions verwenden, um eventuell erforderliche Laufzeitlogik hinzuzufügen, um eine bestimmte API-Verarbeitung zu unterstützen, die außerhalb des Geltungsbereichs der Datenverarbeitungs- und Zugriffs- und Interpretationsschichten liegt.

  • Datenkatalog

    Um eine vollständige und ganzheitliche End-to-End-Ansicht der auf der Plattform gespeicherten und fließenden Daten zu erhalten, sollten Sie nicht nur die Datenspeicher für die Datenpersistenzschicht, sondern auch die Quelldatenspeicher ein Harvesting in Erwägung ziehen. Durch die Zuordnung dieser erfassten technischen Metadaten zum Geschäftsglossar und die Anreicherung mit benutzerdefinierten Eigenschaften können Sie Geschäftskonzepte zuordnen und Sicherheits- und Zugriffsdefinitionen dokumentieren und steuern.

    Um die Erstellung externer Oracle Autonomous Data Warehouse-Tabellen zu vereinfachen, die Daten in Oracle Cloud Infrastructure Object Storage virtualisieren, verwenden Sie die Metadaten, die zuvor von Oracle Cloud Infrastructure Data Catalog geerntet wurden. Dies vereinfacht die Erstellung externer Tabellen, erzwingt die Konsistenz von Metadaten in allen Datenspeichern und ist weniger anfällig für menschliche Fehler.

  • Oracle Cloud Infrastructure Data Transfer Service

    Verwenden Sie Oracle Cloud Infrastructure Data Transfer Service, wenn der Upload von Daten über das öffentliche Internet nicht sinnvoll oder machbar ist. Wir empfehlen, Data Transfer zu verwenden, wenn das Hochladen von Daten über das öffentliche Internet länger als 1-2 Wochen dauert.

Überlegungen

Berücksichtigen Sie bei der Verarbeitung von Streamingdaten und einer Vielzahl von Unternehmensdatenressourcen für Geschäftsanalysen und maschinelles Lernen diese Implementierungsoptionen.

Richtlinien Data Refinery Datenpersistenzplattform Datenverarbeitungsplattform Access & Interpretation
Empfohlen
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure GoldenGate
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
  • Oracle Cloud Infrastructure Big Data Service
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Oracle Cloud Infrastructure AI-Services
Andere Optionen
  • Oracle Data Integrator
  • Oracle Autonomous Database Data Transforms
Oracle Database Exadata Cloud Service Drittanbieterwerkzeuge Drittanbieterwerkzeuge
Begründung

Oracle Cloud Infrastructure Data Integration stellt eine cloud-native, serverlose, vollständig verwaltete ETL-Plattform bereit, die skalierbar und kostengünstig ist.

Oracle Cloud Infrastructure GoldenGate bietet eine cloud-native, serverlose, vollständig verwaltete, nicht ansprechende Datenreplikationsplattform, die skalierbar und kosteneffizient ist und in hybriden Umgebungen bereitgestellt werden kann.

Oracle Autonomous Data Warehouse ist eine benutzerfreundliche, vollständig autonome Datenbank, die elastisch skaliert, schnelle Abfrageperformance bereitstellt und keine Datenbankadministration erfordert. Sie bietet auch direkten Zugriff auf die Daten aus dem Objektspeicher über externe Tabellen.

Oracle Cloud Infrastructure Object Storage speichert unbegrenzte Daten im Rohformat.

Oracle Cloud Infrastructure Data Integration stellt eine cloud-native, serverlose, vollständig verwaltete ETL-Plattform bereit, die skalierbar und kostengünstig ist.

Oracle Cloud Infrastructure Data Flow bietet eine serverlose Spark-Umgebung zur skalierbaren Verarbeitung von Daten mit einem nutzungsbasierten, extrem elastischen Modell.

Oracle Cloud Infrastructure Big Data Service stellt Hadoop als Service für Unternehmen bereit, mit End-to-End-Sicherheit, hoher Performance sowie einfacher Verwaltung und Upgradefähigkeit.

Oracle Analytics Cloud wird vollständig verwaltet und eng in die Sicherungsschicht (Oracle Autonomous Data Warehouse) integriert.

Data Science ist eine vollständig verwaltete Selfservice-Plattform, auf der Data Science-Teams Modelle für maschinelles Lernen (ML) in Oracle Cloud Infrastructure erstellen, trainieren und verwalten können. Der Data Science-Service stellt Infrastruktur- und Datenanalysetools bereit.

Oracle Machine Learning ist eine vollständig verwaltete Selfservice-Plattform für Data Science, die mit Oracle Autonomous Data Warehouse verfügbar ist und die Verarbeitungsleistung des Warehouse nutzt, um ML-Modelle skalierbar zu erstellen, zu trainieren, zu testen und bereitzustellen, ohne dass die Daten außerhalb des Warehouse verschoben werden müssen.

Oracle Cloud Infrastructure AI-Services sind ein Set von Services, die vordefinierte Modelle bereitstellen, die speziell für die Ausführung von Aufgaben wie das Festlegen potenzieller Anomalien oder das Erkennen von Gefühlen entwickelt wurden.

Bereitstellen

Der Terraform-Code für diese Referenzarchitektur ist auf GitHub verfügbar. Sie können den Code von GitHub auf Ihren Computer herunterladen, den Code anpassen und die Architektur mit der Terraform-CLI bereitstellen.

  1. Gehen Sie zu GitHub.
  2. Klonen Sie das Repository, oder laden Sie es auf Ihren lokalen Rechner herunter.
  3. Befolgen Sie die Anweisungen im Dokument README.

Änderungslog

In diesem Log werden nur die wesentlichen Änderungen aufgeführt: