Moderne App-Entwicklung – Big Data und Analysen
Designprinzipien
Verwenden Sie bei der Implementierung eines Big-Data- und Analysemusters die folgenden Designprinzipien für die moderne App-Entwicklung.
- Nutzen Sie vollständig verwaltete Services, um die Komplexität bei Anwendungsentwicklung, Laufzeiten und Datenmanagement zu reduzieren
Ihre Daten sind nur so wertvoll wie Ihre Fähigkeit, sie zu nutzen. Big-Data-Tools sind in der Open-Source-Community verbreitet und die meisten von ihnen wurden On Premise durch Open-Source-Projekte wie Hadoop, Spark und Hive übernommen.
Verwenden Sie Oracle Big Data Service, der alle gängigen Open-Source-Hadoop-Komponenten als verwalteten Service in Oracle Cloud bereitstellt. Verwenden Sie für Spark-Anwendungen Oracle Cloud Infrastructure Data Flow mit einer vollständig verwalteten, serverlosen, cloud-nativen Spark-Plattform. Durch die Verwendung dieser Services können Sie die neuesten Innovationen in der Open-Source-Community und die vorhandenen Fähigkeiten Ihres Teams nutzen, ohne sich um die Bindung von Anbietern kümmern zu müssen. Verwenden Sie weiterhin die Geschwindigkeit und den Wert von Open Source mit den nativen Premium-Funktionen von Oracle, wie externe Oracle Autonomous Data Warehouse-Tabellen und Oracle Cloud SQL.
Das Bereitstellen und Betreiben von Big Data-Services, insbesondere von Open-Source-Komponenten, kann sich exponentiell auf die Betriebskosten auswirken (OpEx). Beginnen Sie mit unseren verwalteten Hadoop-Angeboten oder PaaS-Services wie Data Flow, bevor Sie einen Do-it-yourself-(DIY-)Ansatz anwenden. Häufig sind verwaltete Open-Source-Services im Laufe der Zeit viel günstiger, wenn sie in OpEx Factoring enthalten.
- Automatisierung von Erstellung, Tests und Bereitstellung
DataOps ist wichtig, um sicherzustellen, dass Sie maximale Vorteile aus Ihren Big Data-Pipelines ziehen können. Mit dem Service Oracle Cloud Infrastructure Data Integration können Sie Daten aufnehmen, ETL-Verarbeitung und ELT-Pushdown implementieren und Pipelines für das Verbinden von Aufgaben in einer Sequenz oder parallel erstellen, um einen Prozess zu vereinfachen. Pipelines können verschiedene gängige Datenquellen innerhalb und außerhalb von Oracle Cloud enthalten. Mit den Planungsfunktionen der Datenintegration können Sie definieren, wann und wie oft jede Aufgabe ausgeführt werden soll. Verwenden Sie für Hadoop Distributed File System (HDFS)-basierte Data Lakes im Big Data Service Tools wie Oozie und Airflow, um End-to-End-Datenpipelines zu orchestrieren. Mit Oracle Database Cloud Service Management können Sie Datenbankjobs definieren, die für eine Gruppe von Datenbanken nach Zeitplan ausgeführt werden.
- Konvergierte Datenbanken mit vollständiger Unterstützung für alle Daten nutzen
Verwenden Sie die besten Tools, um die Konsolidierung von Daten zu vereinfachen, zu automatisieren und zu beschleunigen und so einen maximalen Geschäftswert zu erzielen. Wenn Sie Data Lakes für Oracle Cloud Infrastructure Data Science mit unstrukturierten, halbstrukturierten und strukturierten Daten erstellen, verwenden Sie den Object Storage-Service für Ihren Datenspeicher. Um HDFS- und Open-Source-Hadoop-Tools zu nutzen, verwenden Sie den Big Data Service, um Ihren Datenspeicher zu erstellen. Verwenden Sie für Data Warehouses, abteilungsbezogene Data Marts sowie Serving- und Präsentationsebenen mit strukturierten Daten Autonomous Data Warehouse, das für diese Szenarios optimiert ist. Autonomous Data Warehouse bietet außerdem Konnektivität zu Analysen, Business Intelligence und Reporting-Tools wie Oracle Analytics Cloud.
- Überwachung und Rückverfolgung von Instrumenten durchgängig
Big-Data-Apps umfassen in der Regel mehrere Services, die verschiedenen Anwendungs- und Geschäftsteams gehören. Beobachtbarkeitstools sind wichtig, um Einblicke in das Verhalten dieser inhärent verteilten Systeme zu gewinnen.
Überwachen Sie den Betriebszustand von End-to-End-Datenpipelines, indem alle Ihre Workloads Integritätsmetriken an Oracle Cloud Infrastructure Monitoring ausgeben. Definieren Sie benutzerdefinierte Metrikschwellenwerte für Alarme, und erhalten Sie Benachrichtigungen, oder ergreifen Sie Maßnahmen, wenn ein bestimmter Schwellenwert erreicht wird. Verwenden Sie OCI Logging für alle OCI-Servicelogs in Ihrem Mandanten und benutzerdefinierten Logs, die Sie von Ihren Datenanwendungen weiterleiten. Um Probleme zu beheben und die Performance zu optimieren, verwenden Sie OCI Database Management für Autonomous Data Warehouse, um den Datenbankstatus, durchschnittliche aktive Sessions, Alarme, CPU-Auslastung, Speicherauslastung, Flottendiagnose und Tuning anzuzeigen.
- Umfassender Ansatz zur Sicherung des Anwendungslebenszyklus implementieren
Planen Sie, Ihre Daten zu schützen. Verfolgen Sie alle Jobs, die Daten in den Data Lake einführen und daraus entfernen, Metadaten für die Datenherkunft führen und sicherstellen, dass die Zugriffskontroll-Policys aktualisiert werden. Verwenden Sie Data Catalog, um die Governance zu unterstützen.
Halten Sie das Least-Privilege-Prinzip ein, und stellen Sie sicher, dass Benutzer und Servicekonten nur über die minimal erforderlichen Berechtigungen zum Ausführen ihrer Aufgaben verfügen. Kontrollieren Sie mit Oracle Cloud Infrastructure Identity and Access Management, wer auf die Komponenten der Datenplattform zugreifen kann. Verwenden Sie die Multifaktor-Authentifizierung in Oracle Cloud Infrastructure Identity and Access Management, um eine starke Authentifizierung für Administratoren durchzusetzen. Speichern Sie sensible Informationen wie Kennwörter und Authentifizierungstoken im Oracle Cloud Infrastructure Vault-Service.
Konfigurieren Sie für den Big Data Service nur die erforderlichen Sicherheitsregeln zur Kontrolle des Netzwerks, und verwalten Sie die Datensicherheit im gesamten Hadoop-Cluster mit Apache Ranger. Mit Oracle Data Safe können Sie Ihre Daten in Autonomous Data Warehouse schützen. Verwenden Sie sichere Passwörter für Ihre Datenbanken. Erstellen Sie Datenbankressourcen in privaten Subnetzen, und verwenden Sie Sicherheitsgruppen oder Sicherheitslisten für virtuelle Cloud-Netzwerke (VCN), um die Netzwerkzugriffskontrolle für Datenbankinstanzen durchzusetzen. Geben Sie Datenbanklöschberechtigungen für eine Mindestanzahl an Oracle Cloud Infrastructure Identity and Access Management-Benutzern und -Gruppen an.
Um Ihre Datenquellen vor Sicherheitslücken zu schützen, geben Sie nur Zugangsdaten zu schreibgeschützten Accounts für die Services Data Catalog und Data Integration an.
Architektur

Beschreibung der Abbildung big-data-and-analytics.png
Diese Architektur verwendet die folgenden Datenquellen:
- Geschäftsanwendungen
- Geräte
- Endbenutzer
- Ereignisse
- Sensoren
- Alle digitalen Assets
Diese Architektur enthält die folgenden Komponenten im VCN:
- Virtual Cloud Network (VCN)
Ein VCN ist ein anpassbares, softwaredefiniertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten. Wie bei herkömmlichen Data Center-Netzwerken erhalten VCNs vollständige Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere nicht überlappende CIDR-Blöcke haben, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die für eine Region oder eine Availability-Domain gelten können. Jedes Subnetz besteht aus einem fortlaufenden Adressbereich, der sich nicht mit den anderen Subnetzen im VCN überschneidet. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz kann öffentlich oder privat sein.
- Datenintegration
Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser Cloud-Service, der Daten für Data Science und Analysen erfasst und transformiert. Mit dem modernen, nicht-codebasierten Datenflussdesigner von Oracle können Sie komplexe ETL und ELT in Data Lakes und Warehouses vereinfachen. Sie können einen der einsatzbereiten Operatoren verwenden, z.B. einen Join, ein Aggregat oder Ausdruck zur Ausprägung Ihrer Daten.
- Streaming
Der Oracle Cloud Infrastructure Streaming-Service bietet eine komplett verwaltete, skalierbare und dauerhafte Lösung zum Aufnehmen und Konsumieren von hochvolumigen Datenstreams in Echtzeit. Verwenden Sie Streaming für jeden Anwendungsfall, in dem Daten kontinuierlich und nacheinander in einem Publish-Subscribe-Messaging-Modell erstellt und verarbeitet werden. Beispiel: Messaging, Metrik- und Protokollaufnahme, Aufnahme von Web- oder mobilen Aktivitätsdaten sowie Verarbeitung von Infrastruktur- und Anwendungsereignissen.
- Oracle Big Data-Service
Oracle Big Data Service ist ein vollständig verwalteter, automatisierter Cloud-Service, der Cluster mit einer Hadoop-Umgebung bereitstellt. Big Data Service erleichtert es Kunden, Hadoop-Cluster jeder Größe bereitzustellen, und vereinfacht den Prozess, Hadoop-Cluster hochverfügbar und sicher zu machen.
- Oracle Autonomous Data Warehouse
Oracle Autonomous Data Warehouse ist ein selbststeuernder, selbstsichernder, selbstreparierender Datenbankservice, der für Data Warehousing-Workloads optimiert ist. Sie müssen keine Hardware konfigurieren oder verwalten und keine Software installieren. Oracle Cloud Infrastructure behandelt das Erstellen der Datenbank sowie das Backup, Patching, Upgrade und Tuning der Datenbank.
- Objektspeicher
Object Storage bietet schnellen Zugriff auf große Mengen strukturierter und unstrukturierter Daten eines beliebigen Inhaltstyps, einschließlich Datenbankbackups, Analysedaten und umfangreicher Inhalte wie Bilder und Videos. Sie können Daten sicher speichern und dann direkt aus dem Internet oder aus der Cloud-Plattform abrufen. Sie können den Speicher nahtlos skalieren, ohne dass es zu einer Beeinträchtigung der Performance oder Servicezuverlässigkeit kommt. Verwenden Sie den Standardspeicher für "heiße" Speicher, auf den Sie schnell, sofort und häufig zugreifen müssen. Verwenden Sie Archivspeicher für "kalten" Speicher, den Sie über lange Zeiträume beibehalten und selten oder nur selten zugreifen.
- Datenfluss
Oracle Cloud Infrastructure Data Flow ist eine vollständig verwaltete Spark-Analyseplattform auf PaaS-Ebene, mit der Sie Spark-Jobs in beliebiger Größe erstellen, bearbeiten und ausführen können, ohne dass Cluster, Operations-Teams oder hochspezielle Spark-Kenntnisse erforderlich sind. Da es serverlos ist, können Sie keine Infrastruktur bereitstellen oder verwalten. Der Service wird vollständig von REST-APIs gesteuert und ermöglicht Ihnen eine einfache Integration mit Apps oder Workflows.
- Oracle Analytics Cloud
Diese branchenführende Plattform für moderne Analysen in der Cloud ermöglicht Business Analysts und Kunden. Oracle Analytics Cloud bietet moderne KI-basierte Selfservice-Analysefunktionen für Datenvorbereitung, -erkennung und -visualisierung, intelligente Unternehmens- und On-Demand-Berichte zusammen mit erweiterten Analysen sowie Verarbeitung und -generierung in natürlicher Sprache. Ob Business Analyst, Data Engineer, Citizen Data Scientist, Abteilungsleiter, Domain-Experte oder Führungskraft - mit Oracle Analytics Cloud können Sie Daten in Erkenntnisse umwandeln.
- Analysen, ML und benutzerdefinierte Apps
Analyseservices, Oracle Machine Learning und benutzerdefinierte Anwendungen, die Big Data katalogisieren, vorbereiten, verarbeiten und analysieren.
- Data Catalog
Oracle Cloud Infrastructure Data Catalog ist eine vollständig verwaltete Selfservice-Lösung für Data Discovery und Governance für Ihre Unternehmensdaten. Sie bietet Data Engineers, Data Scientists, Data Stewards und Chief Data Officers eine zentrale kollaborative Umgebung zur Verwaltung der technischen, geschäftlichen und betrieblichen Metadaten der Organisation.
Mit diesem Architekturmuster können Sie alle Arten unstrukturierter, halbstrukturierter und unstrukturierter Daten mit einem modernen Data Lake House-Muster verwalten. Mit den Services Datenintegration und Streaming können Sie alle Datentypen in einem Object Storage-basierten Datenspeicher aufnehmen. Verwenden Sie Oracle Cloud Infrastructure Data Flow und Oracle Big Data Service für die Verarbeitung, verwenden Sie Oracle Cloud Infrastructure Data Catalog für die Katalogisierung, verwenden Sie Oracle Autonomous Data Warehouse als Serving Store, und verwenden Sie Oracle Analytics Cloud für Analysen und Business Intelligence.
Der folgende Prozess beschreibt den im Diagramm dargestellten Ablauf:
- Oracle Cloud Infrastructure-Datenintegration und Oracle Cloud Infrastructure-Streaming erfassen Daten aus verschiedenen Typen von Quellen. Der verwendete Service hängt davon ab, ob es sich bei den Daten um Batch-, Streaming- oder synchronisierte Datenbankdatensätze handelt und ob die Daten On Premise oder in der Cloud vorliegen.
- Daten können für gemeinsamen Zugriff durch Cloud-Services und für die Verarbeitung an Object Storage geliefert werden, bevor sie in Oracle Autonomous Data Warehouse oder Big Data Service gespeichert werden.
- Daten können auch direkt an Oracle Autonomous Data Warehouse zugestellt und dann mit ELT-Funktionen transformiert werden, oder Datensätze aus anderen Datenbanken können direkt aufgenommen werden. Daten können auch direkt an Big Data Service zugestellt werden.
- Oracle Autonomous Data Warehouse kann Daten aus Object Storage abfragen oder Daten aus Object Storage über eine API oder mithilfe von Data Integration aufnehmen. Big Data Service kann Daten aus Object Storage aufnehmen oder Daten abfragen.
- Oracle Analytics Cloud kann für alle Visualisierungs- und Geschäftsanalysefunktionen des Service auf Daten in Oracle Autonomous Data Warehouse zugreifen.
- Oracle Cloud Infrastructure Data Catalog übernimmt Metadaten aus Oracle Autonomous Data Warehouse-, Object Storage- und Big Data Service-Hive-Datenquellen. Sie interagieren mit Data Catalog, um für die Daten ein Harvesting auszuführen, zu suchen und zu verwalten.
- Sie können alle benutzerdefinierten Apps für Analyse- und maschinelles Lernen-Workloads mit Daten aus Oracle Autonomous Data Warehouse, Big Data Service und Object Storage implementieren.
- Geschäftsanalysten können Oracle Analytics Cloud verwenden, um Daten aus Oracle Autonomous Data Warehouse und Big Data Service zu konsumieren.
- Data Scientists können Oracle Machine Learning Notebooks in Oracle Autonomous Data Warehouse und Oracle Machine Learning für Spark in Oracle Big Data Service verwenden, um Modelle für maschinelles Lernen zu trainieren und mit räumlichen und Diagrammdaten zu arbeiten.
Alternative Architekturen
Erwägen Sie die Alternativen zu der in diesem Muster beschriebenen Architektur.
Verwenden Sie eine einzelne Datenbank oder ein Data Warehouse, um alle Datentypen zu speichern und zu analysieren. In dieser alternativen Architektur werden Daten von verschiedenen Datenquellen (Endbenutzern, Geräten, Ereignissen, Sensoren und Anwendungen) über die Datenintegration (Oracle GoldenGate) und Oracle Transactional Event Queues für das Streaming von Daten in die Datenbank übertragen. Die Daten werden in Oracle Autonomous Database (Oracle Autonomous Transaction Processing und Oracle Autonomous Data Warehouse) sowie in der Objektspeicherunterstützung für Big Data mit Cloud SQL gespeichert. Mit Oracle Machine Learning können Sie Modelle erstellen und bereitstellen und mit Oracle Analytics Cloud und Oracle Data Cloud Daten einsehen.
Das folgende Diagramm veranschaulicht diese alternative Architektur.

Beschreibung der Abbildung alt-architecture-big-data.png
Diese Architektur verwendet die folgenden Datenquellen:
- Geschäftsanwendungen
- Geräte
- Endbenutzer
- Ereignisse
- Sensoren
- Alle digitalen Assets
Diese Architektur enthält die folgenden Komponenten im VCN:
- Virtual Cloud Network (VCN)
Ein VCN ist ein anpassbares, softwaredefiniertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten. Wie bei herkömmlichen Data Center-Netzwerken erhalten VCNs vollständige Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere nicht überlappende CIDR-Blöcke haben, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die für eine Region oder eine Availability-Domain gelten können. Jedes Subnetz besteht aus einem fortlaufenden Adressbereich, der sich nicht mit den anderen Subnetzen im VCN überschneidet. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz kann öffentlich oder privat sein.
- Datenintegration
Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser Cloud-Service, der Daten für Data Science und Analysen erfasst und transformiert. Mit dem modernen, nicht-codebasierten Datenflussdesigner von Oracle können Sie komplexe ETL und ELT in Data Lakes und Warehouses vereinfachen. Sie können einen der einsatzbereiten Operatoren verwenden, z.B. einen Join, ein Aggregat oder Ausdruck zur Ausprägung Ihrer Daten.
- Oracle Cloud Infrastructure Transactional Event Queues (TEQ) in ADB
Oracle Transactional Event Queues in einer autonomen Datenbank bieten datenbankintegrierte Message Queuing-Funktionalität. Diese hochoptimierte und partitionierte Implementierung nutzt die Funktionen der Oracle-Datenbank, sodass Hersteller und Verbraucher Nachrichten mit hohem Durchsatz austauschen, Nachrichten dauerhaft speichern und Nachrichten zwischen Queues in verschiedenen Datenbanken propagieren können. Oracle Transactional Event Queues sind eine leistungsstarke, partitionierte Implementierung mit mehreren Ereignisstreams pro Queue
- Oracle Autonomous Data Warehouse
Oracle Autonomous Data Warehouse ist ein selbststeuernder, selbstsichernder, selbstreparierender Datenbankservice, der für Data Warehousing-Workloads optimiert ist. Sie müssen keine Hardware konfigurieren oder verwalten und keine Software installieren. Oracle Cloud Infrastructure behandelt das Erstellen der Datenbank sowie das Backup, Patching, Upgrade und Tuning der Datenbank.
Dieser Cloud-Data Warehouse-Service eliminiert alle Komplexität beim Betrieb eines Data Warehouse, beim Sichern von Daten und beim Entwickeln von datengesteuerten Anwendungen. Es automatisiert das Provisioning, Konfigurieren, Sichern, Tuning, Skalieren und Sichern des Data Warehouse. Sie umfasst Tools für das Laden von Daten im Selfservice, Datentransformationen, Geschäftsmodelle, automatische Einblicke und integrierte konvergierte Datenbankfunktionen, die vereinfachte Abfragen für mehrere Datentypen und maschinelle Lernanalysen ermöglichen.
- Objektspeicher
Object Storage bietet schnellen Zugriff auf große Mengen strukturierter und unstrukturierter Daten eines beliebigen Inhaltstyps, einschließlich Datenbankbackups, Analysedaten und umfangreicher Inhalte wie Bilder und Videos. Sie können Daten sicher speichern und dann direkt aus dem Internet oder aus der Cloud-Plattform abrufen. Sie können den Speicher nahtlos skalieren, ohne dass es zu einer Beeinträchtigung der Performance oder Servicezuverlässigkeit kommt. Verwenden Sie den Standardspeicher für "heiße" Speicher, auf den Sie schnell, sofort und häufig zugreifen müssen. Verwenden Sie Archivspeicher für "kalten" Speicher, den Sie über lange Zeiträume beibehalten und selten oder nur selten zugreifen.
Diese internetbasierte, leistungsstarke Speicherplattform bietet zuverlässige und kostengünstige Dauerhaftigkeit von Daten. Der Object Storage-Service kann eine unbegrenzte Menge unstrukturierter Daten eines beliebigen Inhaltstyps speichern, einschließlich Analysedaten und umfangreicher Inhalte, wie Bilder und Videos.
- Autonomous Database
Oracle Cloud Infrastructure autonome Datenbanken sind vollständig verwaltete, vorkonfigurierte Datenbankumgebungen, die Sie für die Transaktionsverarbeitung und Data Warehousing-Workloads verwenden können. Sie müssen keine Hardware konfigurieren oder verwalten und keine Software installieren. Oracle Cloud Infrastructure behandelt das Erstellen der Datenbank sowie das Backup, Patching, Upgrade und Tuning der Datenbank.
- Oracle Machine Learning in einer autonomen Datenbank
Oracle Machine Learning in einer Oracle Autonomous Database (Autonomous Transaction Processing und Autonomous Data Warehouse)
- Oracle Analytics Cloud
Diese branchenführende Plattform für moderne Analysen in der Cloud ermöglicht Business Analysts und Kunden. Oracle Analytics Cloud bietet moderne KI-basierte Selfservice-Analysefunktionen für Datenvorbereitung, -erkennung und -visualisierung, intelligente Unternehmens- und On-Demand-Berichte zusammen mit erweiterten Analysen sowie Verarbeitung und -generierung in natürlicher Sprache. Ob Business Analyst, Data Engineer, Citizen Data Scientist, Abteilungsleiter, Domainexperte oder Führungskraft - Oracle Analytics Cloud kann Ihnen dabei helfen, Daten in Erkenntnisse zu verwandeln.
- Analysen, ML und benutzerdefinierte Apps
Analyseservices, Oracle Machine Learning und benutzerdefinierte Anwendungen, die Big Data katalogisieren, vorbereiten, verarbeiten und analysieren.
- Data Catalog
Oracle Cloud Infrastructure Data Catalog ist eine vollständig verwaltete Selfservice-Lösung für Data Discovery und Governance für Ihre Unternehmensdaten. Sie bietet Data Engineers, Data Scientists, Data Stewards und Chief Data Officers eine zentrale kollaborative Umgebung zur Verwaltung der technischen, geschäftlichen und betrieblichen Metadaten der Organisation.
Oracle Cloud Infrastructure Data Catalog ist ein Metadatenverwaltungsservice, mit dem Datenexperten Daten erkennen und Data Governance unterstützen können.
- Oracle GoldenGate
Dieser vollständig verwaltete Service bietet eine Echtzeit-Log-basierte Change Data Capture-(CDC-) und Replikationssoftwareplattform, um die Anforderungen der heutigen transaktionsgesteuerten Anwendungen zu erfüllen. Die Software bietet Erfassung, Routing, Transformation und Bereitstellung von Transaktionsdaten über heterogene Umgebungen hinweg in Echtzeit.
Alternativ können Sie Ihre eigenen Open-Source-Plattformen auf Oracle Cloud Infrastructure Compute erstellen und ausführen. Diese Option kann jedoch zu einem hohen OpEx führen.
Überlegungen und Antipattern
Berücksichtigen Sie Folgendes bei Big Data und Analysen.
- Datenkopien und -bewegungen reduzieren
Die Datenverschiebung ist kostspielig, verbraucht Ressourcen und Zeit und kann die Datentreue reduzieren. Wählen Sie den richtigen Service zum Speichern und Verarbeiten Ihrer Daten, je nach Datentypen, Datenqualität und erforderlichen Transformationen. Verwenden Sie Object Storage für den Datenspeicher für alle Arten von Rohdaten. Mit Oracle Big Data Service können Sie HDFS- und Hadoop-Ökosystemtools einsetzen. Mit Oracle Autonomous Data Warehouse können Sie transformierte Daten zur Präsentation speichern. Mit dem richtigen Speicher können Sie das Kopieren und Verschieben von Daten vermeiden und doppelte Kopien von Daten reduzieren. Dies kann schwierig zu verwalten und zu synchronisieren sein.
- Stellen Sie Ihren Benutzern die erforderliche Datenschnittstelle zur Verfügung
Enterprise-Daten- und Analyseplattformen verfügen über viele Arten von Benutzern: Data Engineers, Datenanalysten, Anwendungsentwickler, Big-Data-Techniker, Datenbankadministratoren, Geschäftsanalysten, Datenwissenschaftler, Data Stewards und andere Verbraucher. Alle haben unterschiedliche Anforderungen und Voreinstellungen für die Nutzung von Daten. Es ist wichtig, alle Anwendungsfälle und Daten-Consumer-Anforderungen zu verstehen. Verwenden Sie Big Data für Hadoop-Ökosystemtools. Verwenden Sie für SQL-Abfragen und die Schnittstelle mit Business Intelligence-Tools Autonomous Data Warehouse. Verwenden Sie für Spark-Anwendungen den Oracle Cloud Infrastructure Data Flow-Service.
- Katalogisieren Sie Ihre Datenbestände und erstellen Sie ein gemeinsames Vokabular
Daten in Unternehmen sind in der Regel eine gemeinsame Ressource in mehreren Teams. Mit Data Catalog können Sie Metadaten aus Datenquellen über OCI und On Premise erfassen, um einen Bestand an Datenassets zu erstellen. Dadurch können Datenverbraucher ganz einfach die Daten finden, die sie für Analysen benötigen. Mit Data Catalog können Sie auch Unternehmensglossare mit Kategorien, Unterkategorien und Geschäftsbegriffen erstellen und verwalten, um eine Taxonomie von Geschäftskonzepten mit benutzerdefinierten Tags zu erstellen, um die Suche produktiver zu gestalten.
- Kostensenkung und Leistungsbewusstsein
Kosten für Daten- und Analyseplattformen können schnell ansteigen, es sei denn, die Plattformen sind ordnungsgemäß konzipiert und betrieben. Alle Daten haben bestimmte Performanceanforderungen in Bezug auf Latenz und Durchsatz. Die richtige Größe Ihrer Umgebungen kann durch Verwendung der kleinsten Compute-Ausprägung und des geringsten Speicherplatzes im Service erreicht werden, der Ihre Performanceanforderungen noch erfüllt. Beenden Sie nicht verwendete Ressourcen. Verwenden Sie Data Flow für Spark-Apps, weil Sie die Anzahl der Cores auswählen können, die für Ihren Job verwendet werden sollen. Dadurch erhalten Sie die erforderliche Performance, während Sie gleichzeitig die Kosten minimieren. Skalieren Sie bei Autonomous Data Warehouse die Anzahl der CPU-Cores oder die Speicherkapazität der Datenbank entsprechend Ihren Anforderungen. Verwenden Sie außerdem die Autoscaling-Funktion, mit der Ihre Datenbank die bis zu dreifache aktuelle Basisanzahl von CPU-Cores jederzeit automatisch verwenden und die Anzahl der Cores bei Bedarf automatisch verringern kann.
Antipattern
Beachten Sie beim Entwerfen einer Implementierung Folgendes:
- Mangelnde Datenkatalogisierung und Governance kann Data Lakes in Daten-Swamps konvertieren.
- Die Speicherung von Data Lake-Daten in Block-Volumes anstelle von Objektspeichern führt zu einer kostengünstigeren Lösung.
Big Data- und Analysemuster
Dieses Architekturmuster enthält Anleitungen zur Verwendung von Oracle Cloud Infrastructure-(OCI-)Daten- und Analyseservices zur Erfassung, Speicherung, Katalogisierung, Vorbereitung, Verarbeitung und Analyse von Big Data zur Implementierung verschiedener Anwendungsfälle.
Zu diesen Anwendungsfällen gehören Data Warehousing, Analysen, Business Intelligence und Berichterstellung, ETL-Muster (Extrahieren, Transformieren und Laden) sowie ELT-Muster (Extrahieren, Laden und Transformieren), Datenspeicher- und Lake House-Muster sowie Schulungen für Machine Learning-Modelle.
Das folgende Diagramm zeigt Oracle-Services für Daten und Analysen.

Beschreibung der Abbildung big-data-and-analytics-pattern.png
- Mit Oracle Autonomous Data Warehouse können Sie SQL-Abfragen für strukturierte Daten sowie für externe Tabellen unstrukturierter und halbstrukturierter Daten erstellen.
- Mit Oracle Big Data Service können Sie Apache Hadoop-Ökosystem-Tools wie Hive, Spark, Kafka und HBase verwenden, um alle Arten von unstrukturierten und halbstrukturierten Daten zu erfassen, zu speichern und zu verarbeiten.
- Mit Oracle Cloud Infrastructure Object Storage können Sie Big Data speichern und Data Lakes für alle Datentypen erstellen.
- Verwenden Sie Oracle Cloud Infrastructure Data Flow für native Apache Spark-Jobs.
- Mit Oracle Cloud Infrastructure Data Integration können Sie Daten aus verschiedenen Datenquellen aufnehmen und die ETL-Verarbeitung (Extrahieren, Transformieren, Laden) und ELT (Extrahieren, Laden, Transformieren) vereinfachen.
- Mit Oracle Cloud Infrastructure Data Catalog können Sie Metadaten aus verschiedenen Datenquellen erfassen, um einen Bestand an Assets, ein Geschäftsglossar und einen gemeinsamen Metastore für Data Lakes zu erstellen.
- Verwenden Sie Streaming, um Echtzeitdatenstreams mit Kafka-kompatiblen APIs zu erfassen.
Beispiele für Anwendungsfälle
Im Folgenden finden Sie Beispiele für Implementierungen, die Big Data mit Oracle Cloud Infrastructure-(OCI-)Daten- und Analyseservices erfassen, speichern, katalogisieren, vorbereiten, verarbeiten und analysieren.
- Data Warehousing und Geschäftsanalysen
Verwenden Sie Oracle Autonomous Data Warehouse als Data Warehouse oder Data Mart mit Oracle Analytics Cloud.
- Bei der Datenintegration werden Daten aus bestimmten Quellen aufgenommen. Der Typ der verwendeten Datenintegration hängt davon ab, ob es sich bei den Daten um Batch-, Streaming- oder synchronisierte Datenbankdatensätze handelt und ob die Daten On Premise oder in der Cloud vorliegen.
- Daten können für gemeinsamen Zugriff durch Cloud-Services und zur Verarbeitung an Object Storage bereitgestellt werden, bevor sie in Autonomous Data Warehouse oder Big Data gespeichert werden. Daten können auch direkt an Autonomous Data Warehouse zugestellt und dann mit ELT-Funktionen transformiert werden, oder Datensätze aus anderen Datenbanken können direkt aufgenommen werden.
- Oracle Analytics Cloud bietet Visualisierung von Daten in der Datenbank, einschließlich maschineller Lernergebnisse. Oracle Analytics Cloud verlagert die Verarbeitung so weit wie möglich in Autonomous Data Warehouse für die Datenflussverarbeitung.
- Object Storage ist optional für aktives Archiv oder Datenfreigabe. Bei einem aktiven Archiv werden weniger häufig verwendete Daten von ADW in eine kostengünstigere Storage Tier (Object Storage) verschoben. Die Daten können weiterhin aus Object Storage abgefragt werden, die Performance ist jedoch langsamer. Mit Object Storage können auch Daten gespeichert werden, die von Cloud-Services gemeinsam genutzt werden.
- Oracle Cloud Infrastructure Data Catalog erfasst Metadaten aus Autonomous Data Warehouse- und Object Storage-Datenquellen. Sie interagieren mit Data Catalog, um den Katalog zu verwenden und zu verwalten.
- Verwalten Sie alle Datentypen mit einem Datenspeicher und Data Warehouse für ein Seehausmuster
Verwalten Sie Daten in Autonomous Data Warehouse und Big Data, und verwenden Sie Oracle Analytics Cloud zur Visualisierung der Daten.
- Bei der Datenintegration werden Daten aus bestimmten Quellen aufgenommen. Der Typ der verwendeten Datenintegration hängt davon ab, ob es sich bei den Daten um Batch-, Streaming- oder synchronisierte Datenbankdatensätze handelt und ob die Daten On Premise oder in der Cloud vorliegen.
- Daten können für gemeinsamen Zugriff durch Cloud-Services und zur Verarbeitung an Object Storage bereitgestellt werden, bevor sie in Autonomous Data Warehouse oder Oracle Big Data Service gespeichert werden. Daten können auch direkt an Autonomous Data Warehouse zugestellt und dann mit ELT-Funktionen transformiert werden, oder Datensätze aus anderen Datenbanken können direkt aufgenommen werden. Daten können auch direkt in Big Data bereitgestellt werden.
- Autonomous Data Warehouse kann Daten aus Object Storage abfragen oder Daten über eine API oder mithilfe von Oracle Cloud Infrastructure Data Integration aus Object Storage erfassen. Big Data kann Daten aus Object Storage aufnehmen oder Daten abfragen.
- Daten können mit Big Data Connectors aus Big Data in Autonomous Data Warehouse übertragen werden.
- Oracle Analytics Cloud kann auf Daten aus mehreren Quellen zugreifen, darunter Autonomous Data Warehouse und Big Data, um erweiterte Analysen, Datenvisualisierungen und Self-Service-Geschäftsanalysefunktionen bereitzustellen.
- Geschäftsanalysten können mit Oracle Analytics Cloud Daten aus Autonomous Data Warehouse und Big Data konsumieren.
- Data Catalog erstellt Metadaten aus Autonomous Data Warehouse-, Object Storage- und Big Data Hive-Datenquellen. Mit Data Catalog interagieren Sie für das Harvesting, Suchen und Verwalten der Daten.
- Erstellen Sie einen Datenspeicher mit cloud-nativen OCI-Services
Erstellen Sie einen Datenspeicher in Object Storage, und nutzen Sie cloud-native Daten- und KI-Services, um die neuesten technischen Innovationen zu modernisieren und zu nutzen.
- Datenfluss für Spark-Batchprozesse und für ephemere Spark-Cluster verwenden
- Verwenden Sie Object Storage mit dem Hadoop Distributed File System-(HDFS-)Connector als HDFS-Speicher anstelle von HDFS im Apache Hadoop- oder Spark-Cluster.
- Mit Oracle Cloud Infrastructure Data Integration können Sie Daten und ETL-Jobs aufnehmen.
- Verwenden Sie Oracle Cloud Infrastructure Data Catalog für Daten-Discovery und Governance.
- Verwenden Sie Oracle Cloud Infrastructure Data Science für Anforderungen an maschinelles Lernen.
- Verwenden Sie Oracle Cloud Infrastructure Streaming für verwaltete Streamsaufnahme, und verwenden Sie Data Integration für einen verwalteten Integrationsservice. Diese Services können selbstverwaltete Kafka oder Flume ersetzen.
- Für die restlichen Komponenten im Stack, für die ein verwalteter OCI-nativer Service nicht einfach zu verwenden ist, verwenden Sie den Oracle Cloud Infrastructure Compute- und Speicherservice.
- HDFS-basierten Datenspeicher mit Oracle Big Data-Service erstellen
Erstellen Sie mit Oracle Big Data Service Ihren Datenspeicher in HDFS. Alle Apache Hadoop-Komponenten, einschließlich Hive, HBase, Spark und Oozie, werden von den verwalteten Hadoop-Clustern bereitgestellt, die von Oracle Big Data Service bereitgestellt werden. Sie können diese Komponenten je nach Ihren Anforderungen verwenden. Verwaltete Cloud-native Services verwenden, wenn möglich.
- Verwenden Sie Big Data für HDFS und andere Hadoop-Komponenten, einschließlich Hive, HBase und Oozie.
- Data Flow wird für Spark-Batchprozesse und für ephemere Spark-Cluster verwendet, um die Größe des Big Data-Clusters nach Möglichkeit zu reduzieren.
- Verwenden Sie Data Catalog für die Daten-Discovery und -Governance.
- Verwenden Sie Data Science für Anforderungen an maschinelles Lernen.
- Data Lab mit Oracle Big Data Service
Entdecken und experimentieren Sie mit Daten. Oracle Big Data Service stellt die wichtigsten Datenmanagement- und Data-Science-Tools in diesem Anwendungsfall bereit.
- Oracle Analytics Cloud bietet zusätzliche Funktionen, um Daten zu visualisieren, die nützlich sind, um die Ergebnisse von Quelldaten und maschinellem Lernen zu verstehen.
- Object Storage bietet zusätzlichen kostengünstigen Speicher für die gemeinsame Nutzung von Daten mit anderen Cloud-Services und das Persistieren von Daten in Oracle Big Data, wenn das Data Lab unterbrochen wird.
- Datenintegration kann bei Bedarf zur Aufnahme von Daten in Object Storage hinzugefügt werden.
- Data Catalog übernimmt Metadaten aus Object Storage und Big Data Hive. Sie interagieren mit Data Catalog, um den Katalog zu verwenden und zu verwalten.
- Datenwissenschaftler verwenden Oracle Machine Learning für Spark in Oracle Big Data, um Modelle für maschinelles Lernen zu erstellen.
- Selfservice-Daten-Discovery und Governance mit Oracle Cloud Infrastructure Data Catalog
Data Catalog führt Metadaten aus verschiedenen Typen von Datenquellen ein, um einen Katalog mit Datenentitys und deren Attributen zu erstellen. Business Analysts, Data Scientists, Data Engineers und Data Stewards können den Katalog durchsuchen und ein Geschäftsglossar für Attribute erstellen.
- Spark-Verarbeitung mit Oracle Cloud Infrastructure Data Flow
Spark-Jobs werden an Data Flow weitergeleitet. Wenn der Job ausgeführt wird, werden Daten aus Object Storage gelesen und entsprechend dem Jobcode verarbeitet. Das Ergebnis wird in Object Storage zurückgeschrieben. Bei Bedarf können andere Services die Ergebnisse aus Object Storage abrufen.
- Schulung von Modellen für maschinelles Lernen direkt in Oracle Autonomous Data Warehouse und Oracle Big Data Service
Einzelheiten zum Training von Modellen für maschinelles Lernen mit maschinellem Lernen mit Oracle Cloud Infrastructure Data Science finden Sie im Data Science-basierten Modell. Ziel dieses Anwendungsfalls ist es, Daten in Oracle Autonomous Data Warehouse und Oracle Big Data Service zu verwalten. Oracle Analytics Cloud bietet Visualisierung von Daten, einschließlich maschineller Lernergebnisse. Die Funktionalität ist auf die Funktionen von Oracle Machine Learning beschränkt.
-
Oracle Cloud Infrastructure Data Integration nimmt Daten aus bestimmten Quellen auf. Der Typ der verwendeten Datenintegration hängt davon ab, ob es sich bei den Daten um Batch-, Streaming- oder synchronisierte Datenbankdatensätze handelt und ob die Daten On Premise oder in der Cloud vorliegen.
- Daten können für gemeinsamen Zugriff durch Cloud-Services und für die Verarbeitung an Object Storage bereitgestellt werden, bevor sie in Oracle Autonomous Data Warehouse oder Oracle Big Data Service gespeichert werden. Daten können direkt an Oracle Autonomous Data Warehouse zugestellt und dann mit ELT-Funktionen transformiert werden, oder Datensätze aus anderen Datenbanken können direkt aufgenommen werden. Daten können auch direkt an Oracle Big Data-Service zugestellt werden.
- Oracle Autonomous Data Warehouse kann Daten aus Object Storage abfragen oder Daten aus Object Storage über eine API oder mithilfe von Datenintegration aufnehmen. Oracle Big Data Service kann Daten aus Object Storage aufnehmen oder Daten abfragen.
- Daten können mit den Big Data Connectors von Oracle Big Data Service zu Oracle Autonomous Data Warehouse übertragen werden.
- Oracle Analytics Cloud kann auf Daten aus mehreren Quellen zugreifen, darunter Oracle Autonomous Data Warehouse und Oracle Big Data Service, um erweiterte Analysen, Datenvisualisierungen und Self-Service-Funktionen für Geschäftsanalysen bereitzustellen.
- Geschäftsanalysten und Data Scientists können Oracle Analytics Cloud verwenden, um Daten aus Oracle Autonomous Data Warehouse und Oracle Big Data Service zu konsumieren.
- Data Scientists können Oracle Machine Learning Notebooks in Oracle Autonomous Data Warehouse verwenden, um Modelle für maschinelles Lernen zu erstellen und mit räumlichen Daten zu arbeiten. Sie können auch Oracle Machine Learning für Spark in Big Data verwenden, um Modelle für maschinelles Lernen zu erstellen und mit räumlichen und Diagrammdaten zu arbeiten.
- Oracle Cloud Infrastructure Data Catalog erstellt Metadaten aus Oracle Autonomous Data Warehouse-, Big Data Hive- und Object Storage-Datenquellen. Sie interagieren mit Data Catalog, um den Katalog zu verwenden und zu verwalten.
-