Erfahren Sie mehr über das Entwerfen von Datenspeicher in Oracle Cloud

Erfahren Sie, wie Ihre Organisation von einem On-Premise-Datenspeicher zu Oracle Cloud Infrastructure (OCI) migrieren kann. Unternehmen mit On-Premise-Data Lakes bewältigen hohe Vorlauf- und Wartungskosten. Sie müssen Infrastruktur planen, beschaffen, verwalten und ungleichmäßige Workloads bewältigen. On-Premise-Data Lakes können für die Ressourcennutzung schwer zu optimieren sein und Serverressourcen nicht effizient verwenden. Mit Cloud-Services können Sie Compute und Storage unabhängig voneinander entkoppeln und skalieren und gleichzeitig eine integrierte, gut verwaltete und robuste Umgebung bereitstellen.

OCI bietet ein robustes und umfassendes Portfolio an Infrastruktur- und Cloud-Plattformdaten und KI-Services für den Zugriff, die Speicherung und die Verarbeitung einer Vielzahl von Datentypen aus beliebigen Quellen. Mit OCI können Sie End-to-End-Daten und KI-Architekturen auf Unternehmensebene in der Cloud implementieren. Dieses Lösungs-Playbook bietet einen Überblick über die wichtigsten Services, mit denen Sie Data Lakes auf OCI erstellen und arbeiten können. Sie lernen auch andere verfügbare Services kennen und können Ihre Data-Lake-Lösungen basierend auf einigen unserer benannten Muster und Expertenrichtlinien entwerfen.

Architektur

Diese Architektur kombiniert die Fähigkeiten eines Data Lake und eines Data Warehouse, um verschiedene Datentypen aus einer Vielzahl von Unternehmensdatenressourcen zu verarbeiten. Mit dieser Architektur können Sie End-to-End-Data-Lake-Architekturen in OCI entwerfen.

Dieses Diagramm zeigt eine allgemeine Architektur der Oracle-Daten- und KI-Services.

Beschreibung der Abbildung data-lakes.png

In dieser Architektur durchlaufen die Daten folgende Phasen:

Data Refinery
Erfasst und verfeinert die Daten für jede der Datenebenen in der Architektur.
Datenpersistenz und Verarbeitung (Layer für überschriebene Informationen)
Ermöglicht den Zugriff auf und die Navigation der Daten, um die aktuelle Geschäftsansicht anzuzeigen. Bei relationalen Technologien können Daten logisch oder physisch in einfachen relationalen, Längs-, Dimensions- oder OLAP-Formularen strukturiert sein. Bei nicht relationalen Daten enthält diese Schicht einen oder mehrere Datenpools, entweder aus einem Analyseprozess oder für eine bestimmte analytische Aufgabe optimierte Daten.
Access & Interpretation
Abstrahiert die logische Geschäftsansicht der Daten für die Verbraucher. Diese Abstraktion erleichtert die agile Entwicklung, die Migration zur Zielarchitektur und das Provisioning einer einzelnen Berichtsschicht aus mehreren föderierten Quellen.

Diese Architektur enthält die folgenden Komponenten:

Big Data Service
Oracle Big Data Service (BDS) ist ein vollständig verwalteter, automatisierter Cloud-Service, der Cluster mit einer Hadoop-Umgebung bereitstellt. BDS erleichtert es Kunden, Hadoop-Cluster jeder Größe bereitzustellen, und vereinfacht den Prozess, Hadoop-Cluster hochverfügbar und sicher zu machen. Basierend auf den Best Practices von Oracle implementiert BDS eine hohe Verfügbarkeit und Sicherheit und reduziert den Bedarf an erweiterten Hadoop-Kenntnissen. BDS bietet die häufig verwendeten Hadoop-Komponenten, mit denen Unternehmen Workloads ganz einfach in die Cloud verschieben und Kompatibilität mit On-Premise-Lösungen gewährleisten können.

Oracle Cloud SQL ist ein verfügbarer Add-on-Service, mit dem Kunden Oracle SQL-Abfragen zu Daten in HDFS, Kafka und Oracle Object Storage initiieren können. Jedes Benutzer-, Anwendungs- oder Analysetool kann mit Datenspeichern arbeiten, um das Verschieben von Daten zu minimieren und Abfragen zu beschleunigen. BDS arbeitet mit Datenintegrations-, Datenanalyse- und Analyseservices zusammen und ermöglicht Entwicklern den einfachen Zugriff auf Daten mit Oracle SQL. Unternehmen können Datensilos beseitigen und sicherstellen, dass Data Lakes nicht von anderen Unternehmensdatenquellen isoliert werden.
Datenkatalog
Oracle Cloud Infrastructure Data Catalog ist eine vollständig verwaltete Selfservice-Lösung für Data Discovery und Governance für Ihre Unternehmensdaten. Datenkataloge sind von wesentlicher Bedeutung für die Fähigkeit einer Organisation, zu analysierende Daten zu suchen und zu suchen. Sie helfen Datenexperten, Daten zu erkennen und Data Governance zu unterstützen.

Verwenden Sie Data Catalog als eine einheitliche Umgebung für die Zusammenarbeit, um technische, Geschäfts- und Betriebsmetadaten zu verwalten. Sie können ein Harvesting für technische Metadaten aus zahlreichen unterstützten Datenquellen ausführen, die über öffentliche oder private IP-Adressen zugänglich sind. Sie können diese Metadaten organisieren, suchen, aufrufen, verstehen, anreichern und aktivieren. Verwenden Sie bedarfsgesteuertes oder planbasiertes automatisches Harvesting, um sicherzustellen, dass der Datenkatalog immer aktuelle Informationen enthält. Sie profitieren von der Sicherheit, Zuverlässigkeit, Performance und Skalierbarkeit von Oracle Cloud.
Datenfluss

Oracle Cloud Infrastructure Data Flow ist ein vollständig verwalteter Service zur Ausführung von Apache Spark-Anwendungen. Datenflussanwendungen sind wiederverwendbare Vorlagen, die aus einer Spark-Anwendung, ihren Abhängigkeiten, Standardparametern und einer Standardlaufzeitressourcenspezifikation bestehen. Sie können alle Aspekte des Datenflusses und den Lebenszyklus der Anwendungsentwicklung verwalten, Apache Spark-Jobs mit den REST-APIs über das API-Gateway und verfügbare Funktionen verfolgen und ausführen.

Data Flow unterstützt die schnelle Anwendungsbereitstellung, da Entwickler sich auf ihre Anwendungsentwicklung konzentrieren können. Sie bietet Protokollverwaltung und eine Laufzeitumgebung zur Ausführung von Anwendungen. Sie können die Anwendungen und Workflows integrieren und über die Benutzeroberfläche auf APIs zugreifen. Es entfällt die Notwendigkeit, Infrastruktur, Cluster-Provisioning, Softwareinstallation, Speicher und Sicherheit einzurichten.
Autonomous Data Warehouse
Oracle Autonomous Data Warehouse ist ein selbststeuernder, selbstsichernder, selbstreparierender Datenbankservice, der für Data Warehousing-Workloads optimiert ist. Sie müssen keine Hardware konfigurieren oder verwalten und keine Software installieren. Oracle Cloud Infrastructure behandelt das Erstellen der Datenbank sowie das Backup, Patching, Upgrade und Tuning der Datenbank.
Datenintegration
Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser Cloud-Service, mit dem Daten für Data Science und Analysen erfasst und transformiert werden können. Mit Data Integration können Sie komplexe Datenextraktions-, Transformations- und Ladeprozesse (ETL/E-LT) mit dem Datenflussdesigner von Oracle in Data Lakes und Warehouses für Data Science und Analysen vereinfachen. Sie bietet automatischen Schemaabweichungsschutz mit regelbasiertem Integrationsablauf, der Ihnen hilft, unterbrochene Integrationsabläufe zu vermeiden und die Wartung bei sich entwickelnden Datenschemas zu reduzieren.
Data Science

Oracle Cloud Infrastructure Data Science ist eine vollständig verwaltete und serverlose Plattform, auf der Datenanalysten Modelle für maschinelles Lernen auf Oracle Cloud Infrastructure erstellen, trainieren und verwalten können. Data Scientists können die von Oracle erweiterte Accelerated Data Science-(ADS-)Bibliothek für automatisiertes maschinelles Lernen (AutoML), Modellauswertung und Modellerklärungen von Oracle verwenden.

ADS ist eine Python-Library, die ein umfassendes Set von Datenverbindungen enthält, mit denen Datenanalysten auf Daten aus vielen verschiedenen Datenspeichern zugreifen und diese verwenden können, um bessere Modelle zu erstellen. Die ADS-Bibliothek unterstützt die eigene AutoML von Oracle sowie Open-Source-Tools wie H2O.ai und Auto-Sklearn.

Data Scientists und Infrastrukturadministratoren können Data-Science-Modelle einfach als Oracle Functions bereitstellen, eine hochskalierbare, bedarfsgesteuerte und serverlose Architektur auf OCI. Teammitglieder können den Modellkatalog zum Beibehalten und Freigeben abgeschlossener Modelle für maschinelles Lernen und der Artefakte verwenden, die zum Reproduzieren, Testen und Bereitstellen dieser Modelle erforderlich sind.

Info zu Data Lakes

Ein Datenspeicher ist ein skalierbares, zentralisiertes Repository, in dem Rohdaten gespeichert werden können und in dem Unternehmen alle Daten in einer kosteneffizienten, elastischen Umgebung gespeichert werden können. Ein Datenspeicher bietet einen flexiblen Speichermechanismus zum Speichern von Rohdaten. Damit ein Datenspeicher effektiv ist, muss ein Unternehmen seine spezifischen Governance-Anforderungen, -Workflows und -Tools prüfen. Durch den Aufbau dieser Kernelemente entsteht ein leistungsstarker Data Lake, der sich nahtlos in vorhandene Architekturen integrieren und problemlos Daten mit Benutzern verbinden lässt.

Unternehmen betrachten diese Gründe bei ihrem Umstieg auf Data Lake Cloud-Bereitstellungen:

Schnellere Entscheidungsfindung durch Nutzung von Analysen und maschinellem Lernen
Sammlung und Mining von Big Data für Datenwissenschaftler, Analysten und Entwickler

Um unstrukturierte Daten, die in einem Datenspeicher gespeichert sind, nützlich zu machen, müssen Sie sie verarbeiten und auf die Analyse vorbereiten. Dies ist oft eine Herausforderung, wenn Ihnen umfangreiche Datenentwicklungsressourcen fehlen.

Im Folgenden werden die technischen Herausforderungen bei der Verwaltung von On-Premise-Data Lakes aufgeführt.

Vorabkosten und mangelnde Flexibilität: Wenn Organisationen ihre eigene On-Premise-Infrastruktur aufbauen, müssen sie die Hardwareinfrastruktur planen, beschaffen und verwalten, Server starten sowie Ausfälle und Ausfallzeiten bewältigen.
Wartungskosten: Bei einem On-Premise-Datenspeicher, der hauptsächlich in IT- und Engineering-Kosten auftritt, müssen Organisationen die laufenden Wartungskosten berücksichtigen. Dies umfasst auch die Kosten für Patching, Wartung, Upgrades und Unterstützung der zugrunde liegenden Hardware- und Softwareinfrastruktur.
Einfache Flexibilität und administrative Aufgaben: IT-Organisationen müssen Ressourcen bereitstellen, ungleichmäßige Workloads in großem Umfang bewältigen und mit dem Tempo der sich schnell ändernden, Community-gesteuerten Open-Source-Softwareinnovation Schritt halten.
Komplexität bei der Erstellung von Datenpipelines: Datenentwickler müssen sich mit der Komplexität der Integration einer Vielzahl von Tools befassen, um ETL-Batchjobs zu erfassen, zu organisieren, vorverarbeiten und zu orchestrieren und die im See gespeicherten Daten abzufragen.
Skalierbarkeit und suboptimale Ressourcenauslastung: Wenn Ihre Benutzerbasis wächst, muss Ihre Organisation die Ressourcenauslastung manuell verwalten und zusätzliche Server zur bedarfsgesteuerten Skalierung erstellen. Die meisten On-Premise-Bereitstellungen von Hadoop und Spark verknüpfen die Compute- und Speicherressourcen direkt mit denselben Servern, die ein unflexibles Modell erstellen.

Im Folgenden werden die geschäftlichen Vorteile einer Verlagerung Ihrer Data Lakes in die Cloud aufgeführt.

Niedrigere Entwicklungskosten und verwaltete Services: Mit cloudbasierten Tools können Sie vorintegrierte Datenpipelines effizienter erstellen und Kosten für die Datenentwicklung senken. Übertragen Sie das Skalierungsmanagement mit Cloud-Services wie Object Storage und Autonomous Data Warehouse (ADW) an Ihren Cloud-Provider, die eine transparente Skalierung ermöglichen. Sie müssen keine Maschinen hinzufügen oder Cluster in cloud-basierten Data Lakes verwalten.
Nutzen Sie flexible Infrastruktur und neueste Technologien: Entwerfen Sie Ihren Datenspeicher für neue Anwendungsfälle mit unserer flexiblen, agilen und On-Demand-Cloud-Infrastruktur. Sie können schnell auf die neueste Technologie upgraden und neue Cloud-Services hinzufügen, sobald sie verfügbar werden, ohne Ihre Architektur neu zu entwerfen.