Datenplattform - Data Warehouse mit komplexer Integration

Unternehmensanwendungsdaten werden häufig in mehreren Systemen im gesamten Unternehmen verteilt und können nicht einfach integriert und analysiert werden, um verwertbare Erkenntnisse zu gewinnen.

Diese Referenzarchitektur bietet ein Framework zur Anreicherung von Unternehmensanwendungsdaten mit Rohdaten aus anderen Quellen und zur Verwendung von Modellen für maschinelles Lernen, um Erkenntnisse und vorausschauende Einblicke in Geschäftsprozesse zu gewinnen.

Diese Referenzarchitektur positioniert die Technologielösung im gesamten Geschäftskontext:



Während Abteilungen Daten aus mehreren Quellen in Data Marts konsolidieren, um gezielte Einblicke zu erhalten, muss sich das Enterprise Data Warehouse ändern und anpassen, um verfügbare Data Marts und andere strukturierte und unstrukturierte Quellen nutzen zu können.

Sie trennen Analyse-Workloads von Transaktions-Workloads und ermöglichen es einer Organisation, Daten aus unterschiedlichen Quellen zu konsolidieren. Dies erleichtert die Abfrage und Analyse historischer Daten in einem geschäftsorientierten Format, das Änderungen an Transaktionssystemen überleben kann. Die Nutzung von Warehoused Data für maschinelles Lernen und vorausschauende Analysen ist der Schlüssel zum Einbinden von Informationen in Geschäftsprozesse. Intelligente Geschäftsprozesse helfen bei der proaktiven Verwaltung wichtiger Geschäftsereignisse, wie der Empfehlung der richtigen Produkte im richtigen Kanal für die richtigen Kunden oder der Erkennung potenziell betrügerischer Ereignisse.

Architektur

Diese Architektur sammelt und kombiniert Anwendungsdaten für Analysen und maschinelles Lernen, um verwertbare Erkenntnisse zu liefern.



OCI-Polyglot-Architektur-oracle.zip

Das folgende Diagramm zeigt eine Zuordnung der oben genannten Architektur zu Services, die in Oracle Cloud Infrastructure (OCI) mit Best Practices bereitgestellt werden.



OCI-polyglot-physical-arch-oracle.zip

Die Architektur konzentriert sich auf die folgenden logischen Bereiche:

  • Aufnahme, Transformieren

    Erfasst und verfeinert die Daten für jede der Datenschichten in der Architektur.

  • Beibehalten, Kurieren, Erstellen

    Ermöglicht den Zugriff auf und die Navigation der Daten, um die aktuelle und historische Geschäftsansicht anzuzeigen. Er enthält sowohl Rohdaten als auch granulare und aggregierte kuratierte Daten. Bei relationalen Technologien können Daten logisch oder physisch in einfachen relationalen, Längs-, Dimensions- oder OLAP-Formularen strukturiert sein. Bei nicht relationalen Daten enthält diese Schicht einen oder mehrere Datenpools, entweder aus einem Analyseprozess oder für eine bestimmte analytische Aufgabe optimierte Daten.

  • Analysieren, Lernen, vorhersagen

    Führt die logische Geschäftsansicht der Daten für die Consumer aus. Diese Abstraktion ermöglicht agile Ansätze für Entwicklung, Migration zur Zielarchitektur und Bereitstellung einer einzelnen Berichtsebene aus mehreren föderierten Quellen.

Die Architektur umfasst folgende Komponenten:

  • Batchaufnahme

    Die Batch-Aufnahme ist nützlich für Daten, die nicht in Echtzeit aufgenommen werden können oder zu kostspielig für die Anpassung für die Echtzeitaufnahme sind. Außerdem ist es wichtig, Daten in zuverlässige und vertrauenswürdige Informationen umzuwandeln, die für den regelmäßigen Verbrauch kuratiert und dauerhaft gespeichert werden können. Sie können die folgenden Services zusammen oder unabhängig verwenden, um einen hochflexiblen und effektiven Workflow zur Datenintegration und -transformation zu erreichen.

    • Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser, cloud-nativer Service, der Daten aus einer Vielzahl von Datenquellen extrahiert, lädt, transformiert, bereinigt und in Ziel-Oracle Cloud Infrastructure-Services wie Autonomous Data Warehouse und Oracle Cloud Infrastructure Object Storage umwandelt. ETL (Extract Transform Load) nutzt vollständig verwaltete Scale-out-Verarbeitung in Spark. ELT (Extract Load Transform) nutzt vollständige SQL-Push-Funktionen von Autonomous Data Warehouse, um die Datenverschiebung zu minimieren und die Amortisierungszeit für neu aufgenommene Daten zu verbessern. Benutzer entwickeln Datenintegrationsprozesse mithilfe einer intuitiven, unverschlüsselten Benutzeroberfläche, die Integrationsabläufe optimiert, um die effizienteste Engine und Orchestrierung zu generieren und die Ausführungsumgebung automatisch zuzuweisen und zu skalieren. Oracle Cloud Infrastructure Data Integration bietet interaktive Exploration und Datenvorbereitung und hilft Dateningenieuren dabei, sich vor Schemaabweichungen zu schützen, indem sie Regeln zur Verarbeitung von Schemaänderungen definieren.

    • Oracle-Datentransformationen basieren auf dem Oracle Data Integrator-(ODI-)Integrationstool, das aus Oracle Autonomous Database-Datenbankaktionen (Data Studio) bereitgestellt werden kann. Es bietet eine vollständig vereinheitlichte Lösung zum Erstellen, Deployment und Verwalten von komplexen Data Warehouses oder als Teil von datenorientierten Architekturen in einer SOA- oder Business-Intelligence-Umgebung. Darüber hinaus werden alle Elemente der Datenintegration, der Datenverschiebung, der Datensynchronisierung, der Datenqualität und des Datenmanagements kombiniert, um sicherzustellen, dass Informationen über komplexe Systeme hinweg aktuell, korrekt und konsistent zur Verfügung stehen.

      Oracle Data Integrator bietet eine umfassende Datenintegration von Batch-Loads mit hohem Volumen und hoher Performance auf ereignisgesteuerte Integrationsprozesse zu SOA-fähigen Datenservices. Ein deklarativer Designansatz sorgt für schnellere, einfachere Entwicklung und Wartung und bietet einen einzigartigen Ansatz zum Extrahieren der Lasttransformation (ELT), der die größtmögliche Performance für Datentransformations- und Validierungsprozesse gewährleistet. Oracle-Datentransformationen nutzen eine Webbenutzeroberfläche, um die Konfiguration und Ausführung von ELT zu vereinfachen und Benutzer bei der Erstellung und Planung von Daten und Arbeitsabläufen mithilfe eines deklarativen Designansatzes zu unterstützen.

    Je nach Anwendungsfall können diese Komponenten unabhängig oder zusammen verwendet werden, um hochflexible und leistungsstarke Datenintegration und -transformation zu erreichen.

  • Aufnahme in Echtzeit

    Oracle Cloud Infrastructure GoldenGate ist ein vollständig verwalteter Service, mit dem Daten von Quellen, die sich vor Ort oder in jeder Cloud befinden, erfasst werden können. Dabei wird die GoldenGate CDC-Technologie für eine nicht aufdringliche und effiziente Erfassung von Daten und die Bereitstellung an Oracle Autonomous Data Warehouse in Echtzeit und skalierbar genutzt, um den Verbrauchern relevante Informationen so schnell wie möglich zur Verfügung zu stellen.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse ist ein selbststeuernder, selbstsichernder und selbstreparierender Datenbankservice, der für Data Warehousing-Workloads optimiert ist. Sie müssen keine Hardware konfigurieren oder verwalten und keine Software installieren. Oracle Cloud Infrastructure behandelt das Erstellen der Datenbank sowie das Backup, Patching, Upgrade und Tuning der Datenbank.

    Bulk- oder Cold-Storage-Daten, die sich im Objektspeicher befinden, können mit Warehouse-Daten als externe Tabellen und Hybrid-partitionierte Tabellen verknüpft werden.

    Autonomous Data Warehouse kann zuvor im Data Catalog gespeicherte Metadaten zum Erstellen externer Tabellen verwenden und Metadatenaktualisierungen im Data Catalog automatisch mit der Definition externer Tabellen synchronisieren, um die Konsistenz zu wahren, die Verwaltung zu vereinfachen und den Aufwand zu reduzieren.

    Darüber hinaus kann Data Lake Accelerator, eine Komponente von Oracle Autonomous Database, Objektspeicherdaten nahtlos konsumieren, die Verarbeitung skalieren, um schnelle Abfragen bereitzustellen, die Datenbank-Compute-Instanz bei Bedarf automatisch zu skalieren und die Auswirkungen auf die Datenbank-Workload zu reduzieren, indem Objektspeicherabfragen von der Datenbank-Compute-Instanz isoliert werden.

  • Objektspeicher

    Object Storage bietet schnellen Zugriff auf große Mengen strukturierter und unstrukturierter Daten eines beliebigen Inhaltstyps, einschließlich Datenbankbackups, Analysedaten und umfangreicher Inhalte wie Bilder und Videos. Sie können Daten sicher speichern und dann direkt aus dem Internet oder aus der Cloud-Plattform abrufen. Sie können den Speicher nahtlos skalieren, ohne dass es zu einer Beeinträchtigung der Performance oder Servicezuverlässigkeit kommt. Verwenden Sie den Standardspeicher für "heiße" Speicher, auf den Sie schnell, sofort und häufig zugreifen müssen. Verwenden Sie Archivspeicher für "kalten" Speicher, den Sie über lange Zeiträume beibehalten und selten oder nur selten zugreifen.

  • Analysen

    Oracle Analytics Cloud ist ein skalierbarer und sicherer Public-Cloud-Service, mit dem Sie umfassende Funktionen zum Erkunden und Ausführen von gemeinsamen Analysen für sich, Ihre Arbeitsgruppe und Ihr Unternehmen bereitstellen können. Sie unterstützt Citizen Data Scientists, fortschrittliche Business Analysts-Schulungen und ML-Modelle. Machine-Learning-Modelle können im Analyseservice oder direkt in Oracle Autonomous Data Warehouse als OML-eingebettete Modelle für große Batchprognosen ausgeführt werden, die die Verarbeitungsleistung, Skalierbarkeit und Elastizität des Warehouse nutzen.

    Mit Oracle Analytics Cloud erhalten Sie außerdem flexible Servicemanagementfunktionen, wie schnelles Setup, einfache Skalierung und Patching sowie automatisiertes Lebenszyklusmanagement.

  • Machine Learning

    Oracle Machine Learning bietet leistungsstarke Funktionen für maschinelles Lernen, die eng in Oracle Autonomous Database integriert sind und Python und AutoML unterstützen. Es unterstützt Modelle mit Open Source- und skalierbaren datenbankinternen Algorithmen, die die Datenvorbereitung und -verschiebung reduzieren. AutoML unterstützt Datenanalysten dabei, die Amortisierungszeit der Initiativen zum maschinellen Lernen des Unternehmens zu verkürzen, indem sie die automatische Algorithmusauswahl, die adaptive Datenentnahme, die automatische Funktionsauswahl und die automatische Modelloptimierung verwenden.

    Mit den Oracle Machine Learning-Services, die in Oracle Autonomous Data Warehouse verfügbar sind, können Sie Modelle nicht nur verwalten, sondern auch diese Modelle als REST-Endpunkte bereitstellen, um Echtzeitvorhersagen innerhalb des Unternehmens zu demokratisieren, sodass Unternehmen auf Ereignisse reagieren können, die relevant sind, wenn sie statt nach der Tatsache auftreten.

  • Data Science

    Data Science bietet Infrastruktur, Open-Source-Technologien, Bibliotheken, Packages und Datenanalysetools, mit denen Data-Science-Teams Modelle für maschinelles Lernen (ML) in Oracle Cloud Infrastructure erstellen, trainieren und verwalten können. Der kollaborative und projektgesteuerte Workspace bietet eine End-to-End-Benutzererfahrung und unterstützt den Lebenszyklus von Vorhersagemodellen.

    Mit dem Feature "Data Science-Modell-Deployment" können Datenanalysten trainierte Modelle als vollständig verwaltete HTTP-Endpunkte bereitstellen, die Vorhersagen in Echtzeit bereitstellen, Intelligenz in Prozesse und Anwendungen einbinden und es dem Unternehmen ermöglichen, auf relevante Ereignisse zu reagieren, während sie auftreten.

  • Datenkatalog

    Mit Oracle Cloud Infrastructure Data Catalog können Sie technische Assets wie Metadaten- und Metadatenattribute anzeigen und ein Geschäftsglossar verwalten, das diesen technischen Metadaten zugeordnet ist. Oracle Cloud Infrastructure Data Catalog stellt außerdem Metadaten für Autonomous Data Warehouse bereit, um die Erstellung externer Tabellen im Data Warehouse zu vereinfachen.

Empfehlungen

Verwenden Sie die folgenden Empfehlungen als Ausgangspunkt zum Erfassen und Kombinieren von Anwendungsdaten für Analysen und maschinelles Lernen.

Ihre Anforderungen können sich von der hier beschriebenen Architektur unterscheiden.

  • Oracle Autonomous Data Warehouse

    Diese Architektur verwendet Oracle Autonomous Data Warehouse auf einer gemeinsamen Infrastruktur. Aktivieren Sie die automatische Skalierung, um Datenbank-Workloads bis zu dem Dreifachen der Verarbeitungsleistung zu ermöglichen.

    Sie sollten Oracle Autonomous Data Warehouse in einer dedizierten Infrastruktur verwenden, wenn Sie möchten, dass die Selfservice-Datenbankfunktion in einer privaten Datenbank-Cloud-Umgebung in der Public Cloud ausgeführt wird.

    Sie sollten die Hybrid-Funktion für partitionierte Tabellen von Autonomous Data Warehouse für Daten verwenden, die nicht häufig genutzt werden und für die Sie nicht dieselbe Performance benötigen. Mit diesem Feature können Sie Datenpartitionen in den Objektspeicher verschieben und zur nahtlosen Bereitstellung mit Partitionen kombinieren, die in Autonomous Data Warehouse gespeichert sind.

    Sie sollten die Funktion "Externe Tabellen" verwenden, um die im Objektspeicher gespeicherten Daten in Echtzeit zu verbrauchen, ohne sie in Autonomous Data Warehouse zu replizieren. Auf diese Weise kann das Data Warehouse kuratierte Daten unabhängig vom Format (Parquet, Avro, orc, json, csv usw.) konsumieren.

    Ziehen Sie die Verwendung von Data Lake Accelerator in Betracht, wenn Sie Objektspeicherdaten konsumieren, um Benutzern eine verbesserte und schnellere Benutzererfahrung zu bieten, die Daten zwischen dem Data Warehouse und dem Data Lake konsumieren und verbinden.

  • Oracle Machine Learning- und Oracle Cloud Infrastructure Data Science-Modellbereitstellung

    Diese Architektur nutzt Oracle Machine Learning und Oracle Cloud Infrastructure Data Science, um Prognosen in Echtzeit auszuführen und damit Ergebnissen für Personen und Anwendungen bereitzustellen.

    Sie sollten ein API-Gateway bereitstellen, wenn Echtzeitprognosen von Partnern und externen Entitys konsumiert werden, um den Verbrauch des bereitgestellten Modells zu sichern und zu steuern.

  • Data Catalog

    Um eine vollständige und ganzheitliche End-to-End-Ansicht der auf der Plattform gespeicherten und fließenden Daten zu erhalten, sollten Sie nicht nur die Datenspeicher für die Datenpersistenzschicht, sondern auch die Quelldatenspeicher ein Harvesting in Erwägung ziehen. Durch die Zuordnung dieser erfassten technischen Metadaten zum Geschäftsglossar und die Anreicherung mit benutzerdefinierten Eigenschaften können Sie Geschäftskonzepte zuordnen und Sicherheits- und Zugriffsdefinitionen dokumentieren und steuern.

    Um die Erstellung externer Tabellen in Autonomous Data Warehouse zu vereinfachen, die im Objektspeicher gespeicherte Daten virtualisieren, verwenden Sie die zuvor in Oracle Cloud Infrastructure Data Catalog gespeicherten Metadaten. Dies vereinfacht die Erstellung externer Tabellen, erzwingt die Konsistenz von Metadaten in allen Datenspeichern und ist weniger anfällig für menschliche Fehler.

Überlegungen

Wenn Anwendungsdaten und Streamingereignisdaten für Analysen und maschinelles Lernen erfasst und kombiniert werden, sollten Sie die folgenden Implementierungsoptionen berücksichtigen.

Richtlinien Data Refinery Datenpersistenzplattform Access & Interpretation
Empfohlen
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure GoldenGate
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
Andere Optionen
  • Oracle Data Integrator
  • Oracle Autonomous Database Data Transforms
Oracle Exadata Database Service Drittanbieterwerkzeuge
Begründung

Oracle Cloud Infrastructure Data Integration stellt eine cloud-native, serverlose, vollständig verwaltete ETL-Plattform bereit, die skalierbar und kostengünstig ist.

Oracle Cloud Infrastructure GoldenGate bietet eine cloud-native, serverlose, vollständig verwaltete, nicht ansprechende Datenreplikationsplattform, die skalierbar und kosteneffizient ist und in hybriden Umgebungen bereitgestellt werden kann.

Oracle Autonomous Data Warehouse ist eine benutzerfreundliche, vollständig autonome Datenbank, die elastisch skalierbar ist, schnelle Abfrageperformance bereitstellt und keine Datenbankadministration erfordert. Sie bietet auch direkten Zugriff auf die Daten aus dem Objektspeicher mit externen oder hybriden partitionierten Tabellen.

Oracle Cloud Infrastructure Object Storage speichert unbegrenzte Daten im Rohformat.

Oracle Analytics Cloud ist eine vollständig verwaltete und eng in die kuratierten Daten in Oracle Autonomous Data Warehouse integriert.

Oracle Cloud Infrastructure Data Science ist eine vollständig verwaltete Selfservice-Plattform, auf der Data Science-Teams Modelle für maschinelles Lernen (ML) in Oracle Cloud Infrastructure erstellen, trainieren und verwalten können. Der Data-Science-Service stellt Infrastruktur- und Data-Science-Tools wie AutoML und Modell-Deployment-Funktionen bereit.

Oracle Machine Learning ist eine vollständig verwaltete Selfservice-Plattform für Data Science, die mit Autonomous Data Warehouse verfügbar ist und die Verarbeitungsleistung des Warehouse nutzt, um ML-Modelle skalierbar zu erstellen, zu trainieren, zu testen und bereitzustellen, ohne die Daten außerhalb des Warehouse zu verschieben.

Bereitstellen

Der Terraform-Code für diese Referenzarchitektur ist auf GitHub verfügbar. Sie können den Code mit nur einem Mausklick in Oracle Cloud Infrastructure Resource Manager abrufen, den Stack erstellen und bereitstellen. Alternativ können Sie den Code von GitHub auf Ihren Computer herunterladen, den Code anpassen und mit der Terraform-CLI bereitstellen.

  • Mit Oracle Cloud Infrastructure Resource Manager bereitstellen:
    1. Klicken Sie auf In Oracle Cloud bereitstellen

      Wenn Sie noch nicht angemeldet sind, geben Sie den Mandanten und die Benutzerzugangsdaten ein.

    2. Prüfen und akzeptieren Sie die Bedingungen.
    3. Wählen Sie die Region aus, in der Sie den Stack bereitstellen möchten.
    4. Befolgen Sie die Prompts und Anweisungen zum Erstellen des Stacks auf dem Bildschirm.
    5. Klicken Sie nach dem Erstellen des Stacks auf Terraform-Aktionen, und wählen Sie Planen aus.
    6. Warten Sie, bis der Job abgeschlossen ist, und prüfen Sie den Plan.

      Um Änderungen vorzunehmen, kehren Sie zur Seite "Stackdetails" zurück, klicken Sie auf Stack bearbeiten, und nehmen Sie die erforderlichen Änderungen vor. Führen Sie anschließend die Aktion Plan erneut aus.

    7. Wenn keine weiteren Änderungen erforderlich sind, kehren Sie zur Seite "Stackdetails" zurück, klicken Sie auf Terraform-Aktionen, und wählen Sie Anwenden aus.
  • Mit der Terraform-CLI bereitstellen:
    1. Gehen Sie zu GitHub.
    2. Laden Sie den Code herunter, oder klonen Sie ihn auf Ihrem lokalen Rechner.
    3. Folgen Sie den Anweisungen in der README.

Änderungslog

In diesem Log werden wichtige Änderungen aufgeführt: