Informationen zu Hadoop-basierten Data Lakes

Oracle Big Data Service stellt einen Hadoop-Stack bereit, der Apache Ambari, Apache Hadoop, Apache HBase, Apache Hive, Apache Spark sowie andere Services zum Arbeiten mit Big Data und Sichern umfasst.

Mit Big Data Service können Unternehmen Workloads ganz einfach in die Cloud verschieben und Kompatibilität mit On-Premise-Lösungen sicherstellen. Damit können Daten in Object Storage verschoben werden, um die Kosten zu sparen und die Compute-Ressourcen vom Speicher zu trennen. Sie können auf BDS über die OCI-Konsole, die OCI-CLI, REST-APIs oder SDKs zugreifen. Sie erhalten vollständigen Zugriff zur Anpassung der in Ihren BDS-Clustern bereitgestellten Ressourcen.

Oracle Cloud SQL ist ein verfügbarer Add-on-Service, mit dem Sie Oracle SQL-Abfragen zu Daten in HDFS, Kafka und Object Storage initiieren können. Jedes Benutzer-, Anwendungs- oder Analysetool kann mit Datenspeichern zusammenarbeiten, um das Verschieben von Daten zu minimieren und Abfragen zu beschleunigen. BDS arbeitet mit Data Integration, Data Science und anderen Analyseservices. Entwickler können mit Oracle SQL auf Daten zugreifen. Unternehmen können Datensilos beseitigen und sicherstellen, dass Data Lakes nicht von anderen Unternehmensdatenquellen isoliert sind.

Info zu Data Lakehouse

Das Oracle Lakehouse-Muster kombiniert die besten Elemente aus Data Warehouses und Data Lakes. Der Service umfasst eine integrierte Plattform mit mehreren Oracle-Cloud-Services, die zusammen mit einem einfachen Datenaustausch und einer einheitlichen Governance arbeiten. Mit dieser Plattform können Sie die besten Open-Source- und kommerziellen Tools basierend auf Ihren Anwendungsfällen und Voreinstellungen verwenden.

Beschreibung von data-lake-house.png folgt

Beschreibung der Abbildung data-lake-house.png

Zu den Schlüsselelementen des Oracle Lakehouse-Musters gehören

Integration von Data Warehouse- und Data Lake-Mustern.
Eliminierung von Datensilos - einfaches Verschieben von Daten zwischen Warehouse und See nach Bedarf.
Einheitliche Metadaten und Governance
Unterstützung für gängige Open-Source- und kommerzielle Tools.
Unterstützung für eine Vielzahl von Datenquellen, Datenformaten und Datentypen (strukturiert, halbstrukturiert und unstrukturiert)
Unterstützung für verschiedene Datennutzer und Workloads, wie Big Data-Analysen, SQL und BI, Data Science und maschinelles Lernen in allen Branchen.

Zu den wichtigsten Services in der Plattform, die in diesem Playbook verwendet werden, zählen:

Big Data

Oracle Big Data stellt Clustern eine Hadoop-Umgebung bereit. Big Data vereinfacht die Erstellung von Hadoop-Clustern sowohl hochverfügbar als auch sicher. Basierend auf den Best Practices von Oracle implementiert Big Data High Availability und Sicherheit, sodass weniger komplexe Hadoop-Kenntnisse erforderlich sind. Big Data bietet die häufig verwendeten Hadoop-Komponenten, sodass Unternehmen Workloads einfach in die Cloud verlagern und die Kompatibilität mit On-Premise-Lösungen sicherstellen können.

Data Catalog

Oracle Cloud Infrastructure Data Catalog ist eine vollständig verwaltete Selfservice-Lösung für Daten-Discovery und Governance für Ihre Unternehmensdaten. Datenkataloge sind für die Suche nach zu analysierenden Daten in einer Organisation von wesentlicher Bedeutung. Sie helfen Datenexperten dabei, Daten zu erkennen und Data Governance zu unterstützen.

Verwenden Sie Data Catalog als einheitliche Umgebung für die Zusammenarbeit, um technische, Geschäfts- und Betriebsmetadaten zu verwalten. Sie können für technische Metadaten ein Harvesting aus zahlreichen unterstützten Datenquellen ausführen, die über öffentliche oder private IP-Adressen zugänglich sind. Sie können diese Metadaten organisieren, suchen, aufrufen, aufrufen, verstehen, anreichern und aktivieren. Verwenden Sie das On-Demand- oder planbasierte automatische Harvesting, um sicherzustellen, dass der Datenkatalog immer aktuelle Informationen enthält. Sie profitieren von der Sicherheit, Zuverlässigkeit, Performance und Skalierung von Oracle Cloud.

Datenfluss

Oracle Cloud Infrastructure Data Flow ist ein vollständig verwalteter Service für die Ausführung von Apache Spark-Anwendungen. Data Flow-Anwendungen sind wiederverwendbare Vorlagen, die aus einer Spark-Anwendung, ihren Abhängigkeiten, Standardparametern und einer Spezifikation von Standardlaufzeitressourcen bestehen. Sie können alle Aspekte von Data Flow und dem Entwicklungslebenszyklus von Anwendungen verwalten, Apache Spark-Jobs mit den REST-APIs über das API-Gateway und verfügbare Funktionen verfolgen und ausführen.

Data Flow unterstützt die schnelle Anwendungsbereitstellung, da Entwickler sich auf ihre Anwendungsentwicklung konzentrieren können. Sie stellt die Logverwaltung und eine Laufzeitumgebung zur Ausführung von Anwendungen bereit. Sie können die Anwendungen und Workflows integrieren und über die Benutzeroberfläche auf APIs zugreifen. Es entfällt die Notwendigkeit, Infrastruktur, Cluster-Provisioning, Softwareinstallation, Speicher und Sicherheit einzurichten.

Autonomous Data Warehouse

Oracle Autonomous Data Warehouse ist ein selbststeuernder, selbstsichernder, selbstreparierender Datenbankservice, der für Data Warehousing-Workloads optimiert ist. Sie müssen keine Hardware konfigurieren oder verwalten und keine Software installieren. Oracle Cloud Infrastructure verwaltet die Erstellung der Datenbank sowie das Backup, Patching, Upgrade und Tuning der Datenbank.

Data Integration

Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser Cloud-Service, mit dem Daten für Data Science und Analysen erfasst und transformiert werden. Mit Data Integration können Sie komplexe Datenextraktions-, Transformations- und Ladeprozesse (ETL/E-LT) mit dem Oracle Data Flow-Designer in Data Lakes und Data Warehouses für Data Science und Analysen vereinfachen. Sie bietet automatisierten Schutz vor Schemabriffen mit regelbasiertem Integrationsfluss. So können Sie fehlerhafte Integrationsabläufe vermeiden und die Wartung bei der Entwicklung von Datenschemas reduzieren.

Data Science

Oracle Cloud Infrastructure Data Science ist eine vollständig verwaltete und serverlose Plattform, die es Data Scientists ermöglicht, Machine Learning-Modelle in Oracle Cloud Infrastructure zu erstellen, zu trainieren, bereitzustellen und zu verwalten. Data Scientists können damit die Accelerated Data Science-(ADS-)Bibliothek von Oracle nutzen, die von Oracle für automatisiertes maschinelles Lernen (AutoML), Modellauswertung und Modellerklärung erweitert wurde.

Analysen

Oracle Analytics Cloud ist ein skalierbarer und sicherer Public-Cloud-Service, mit dem Sie kollaborative Analysen für sich, Ihre Arbeitsgruppe und Ihr Unternehmen durchführen können. Mit Oracle Analytics Cloud erhalten Sie außerdem flexible Servicemanagementfunktionen, einschließlich schnellem Setup, einfacher Skalierung, Patching und automatisiertem Lebenszyklusmanagement.