Weitere Informationen zur Automatisierung der Hadoop-Datenmigration zu Oracle mit dem WANdisco LiveData-Migrator

Oracle Cloud Infrastructure Lakehouse bietet eine integrierte Plattform mehrerer Oracle-Cloud-Services, die zusammen mit einem einfachen Verschieben von Daten und einheitlicher Governance arbeiten. Sie bietet die Möglichkeit, basierend auf Ihren Anwendungsfällen und Voreinstellungen die besten Open-Source- und kommerziellen Tools zu verwenden.

Architektur

Diese Architektur zeigt die Verwendung von WANdisco LiveData Migrator zur Automatisierung der Datenmigration in Oracle Cloud Infrastructure Lakehouse.

WANdisco LiveData Migrator automatisiert das groß angelegte Verschieben von Daten und Metadaten aus vorhandenen On-Premise-Data Lakes, Spark und Hadoop-Umgebungen in Oracle Cloud Infrastructure (OCI). Mithilfe der LiveData-Funktionen von WANdisco können Datenmigrationen durchgeführt werden, während die Quelldaten aktiv geändert werden, ohne dass Ausfallzeiten oder Geschäftsunterbrechungen im Produktionssystem erforderlich sind. Außerdem wird eine vollständige und kontinuierliche Datenmigration unterstützt.

Das folgende Diagramm veranschaulicht die funktionale Architektur der modernen Datenplattform von OCI.

Beschreibung von modern-data-platform.png folgt
Beschreibung der Abbildung modern-data-platform.png

modern-data-platform-oracle.zip

  1. Daten werden aus Betriebsdatenbanken, Unternehmensanwendungen, anderen Anwendungen sowie externen Ereignissen und Sensoren gesammelt.
  2. Daten werden über Oracle GoldenGate, Oracle Cloud Infrastructure Data Integration, Partneranwendungen wie WANdisco und Open-Source-Apps wie Apache und Kafka an Oracle Cloud Infrastructure Lakehouse übertragen.
  3. Daten werden von Oracle Analytics Cloud, Oracle Cloud Infrastructure Data Science, Oracle Cloud Infrastructure AI Services und Oracle Machine Learning in OCI und Anwendungen außerhalb von OCI genutzt.

Diese Architektur unterstützt die folgenden Komponenten:

  • Oracle Cloud Infrastructure GoldenGate

    Oracle Cloud Infrastructure GoldenGate ist ein vollständig verwalteter Service, mit dem Daten aus On-Premise- oder Cloud-Quellen aufgenommen werden können. Dabei wird die CDC-Technologie GoldenGate für eine nicht aufdringliche und effiziente Erfassung von Daten und Bereitstellung an Oracle Autonomous Data Warehouse in Echtzeit und je nach Bedarf genutzt, um den Verbrauchern relevante Informationen so schnell wie möglich zur Verfügung zu stellen.

  • Integration

    Oracle Integration ist ein vollständig verwalteter Service, mit dem Sie Anwendungen integrieren, Prozesse automatisieren, Einblicke in Ihre Geschäftsprozesse gewinnen und visuelle Anwendungen erstellen können.

  • WANdisco LiveData Migrator

    WANdisco LiveData Migrator automatisiert das groß angelegte Verschieben von Daten und Metadaten aus vorhandenen On-Premise-Data Lakes, Spark und Hadoop-Umgebungen zu OCI migriert Live-Daten skalierbar von On Premise. LiveData Migrator erfordert keine Ausfallzeit, sondern migriert die Änderungen, die vor, während und nach der Migration an Daten vorgenommen wurden.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse ist ein selbststeuernder, selbstsichernder und selbstreparierender Datenbankservice, der für Data Warehousing-Workloads optimiert ist. Sie müssen keine Hardware konfigurieren oder verwalten und keine Software installieren. Oracle Cloud Infrastructure verarbeitet das Erstellen der Datenbank sowie das Backup, Patching, Upgrade und Tuning der Datenbank.

  • Oracle Cloud Infrastructure - KI-Services

    Oracle Cloud Infrastructure AI Services ist eine Sammlung von Services mit vordefinierten Modellen für maschinelles Lernen, mit denen Entwickler KI auf Anwendungen und Geschäftsvorgänge anwenden können. Die Modelle können individuell trainiert werden, um genauere Geschäftsergebnisse zu erzielen. Teams innerhalb einer Organisation können die Modelle, Datasets und Datenlabels in allen Services wiederverwenden. Mit OCI AI Services können Entwickler Apps ganz einfach maschinelles Lernen hinzufügen, ohne die Anwendungsentwicklung zu verlangsamen.

  • Oracle Machine Learning

    Oracle Machine Learning-Services bieten ein gemeinsames Framework für die Verwaltung und Bereitstellung von Modellen für maschinelles Lernen mit Oracle Autonomous Database. Die Lösung beschleunigt die Erstellung und Bereitstellung von Modellen für maschinelles Lernen für Data Scientists. Sie eliminiert dabei die Notwendigkeit, Daten in dedizierte Systeme für maschinelles Lernen zu verschieben.

  • Object Storage-Data Lake

    Object Storage ermöglicht einen schnellen Zugriff auf große Mengen strukturierter und unstrukturierter Daten aller Inhaltstypen, darunter Datenbankbackups, Analysedaten und umfangreiche Inhalte wie Bilder und Videos. Sie können Daten sicher speichern und dann direkt aus dem Internet oder aus der Cloud-Plattform abrufen. Sie können den Speicher nahtlos skalieren, ohne dass dies zu einer Beeinträchtigung der Performance oder Servicezuverlässigkeit führt. Verwenden Sie Standardspeicher für "Hot"-Speicher, auf den Sie schnell, sofort und häufig zugreifen müssen. Verwenden Sie den Archivspeicher zum "kalten" Speicher, den Sie über lange Zeiträume beibehalten und selten oder nur selten aufrufen.

    Ein Data Lake ist ein Ort zum Speichern Ihrer strukturierten und unstrukturierten Daten sowie eine Methode zum Organisieren großer Mengen unterschiedlichster Daten aus verschiedenen Quellen. Data Lakes werden immer wichtiger, da Menschen, insbesondere im Geschäftsbereich und in der Technologie, eine breite Datenanalyse und -erkennung durchführen möchten. Wenn Sie Daten an einem einzigen Ort zusammenführen oder die meisten an einem Ort zusammenführen, ist dies einfacher.

  • Datenkatalog

    Oracle Cloud Infrastructure Data Catalog ist eine vollständig verwaltete Selfservice-Lösung für Daten-Discovery und Governance für Ihre Unternehmensdaten. Sie stellt Data Engineers, Data Scientists, Data Stewards und Chief Data Officers eine einzelne kooperative Umgebung zur Verwaltung der technischen, geschäftlichen und betrieblichen Metadaten der Organisation bereit.

  • Analysen

    Oracle Analytics Cloud ist ein skalierbarer und sicherer Public-Cloud-Service, mit dem Geschäftsanalysten moderne, KI-gesteuerte Selfservicelösungen für Datenvorbereitung, Visualisierung, Unternehmensberichte, erweiterte Analysen und natürliche Sprachverarbeitung und -generierung bereitstellen können. Mit Oracle Analytics Cloud erhalten Sie außerdem flexible Servicemanagementfunktionen, darunter schnelles Setup, einfache Skalierung und Patching sowie automatisiertes Lifecycle Management.

  • Oracle Cloud Infrastructure Streaming - Service

    Oracle Cloud Infrastructure Streaming Service (OSS) bietet eine komplett verwaltete, skalierbare und dauerhafte Lösung für die Aufnahme und Verwendung von hochvolumigen Datenstreams in Echtzeit. Verwenden Sie Streaming für jeden Anwendungsfall, bei dem Daten kontinuierlich und sequenziell in einem Publish-Subscribe-Messagingmodell erzeugt und verarbeitet werden.

Info zu Oracle Cloud Infrastructure Lakehouse

Ein Data Lakehouse ist eine moderne, offene Architektur, mit der Sie alle Ihre Daten speichern, verstehen und analysieren können. Sie kombiniert die Leistungsfähigkeit und den Funktionsumfang von Data Warehouses mit der Breite und Flexibilität der gängigsten Open-Source-Datentechnologien, die Sie heute verwenden. Oracle Cloud Infrastructure Lakehouse wird von Grund auf auf auf Oracle Cloud Infrastructure (OCI) mit den neuesten KI-Frameworks und vordefinierten AI-Services erstellt. Oracle Cloud Infrastructure Lakehouse bietet eine integrierte Plattform mehrerer Oracle-Cloud-Services, die zusammen mit einem einfachen Verschieben von Daten und einheitlicher Governance arbeiten. Sie bietet die Möglichkeit, basierend auf Ihren Anwendungsfällen und Voreinstellungen die besten Open-Source- und kommerziellen Tools zu verwenden.

Organisationen können vorhandene Data Lakes einfach migrieren oder neue Open-Source-Data Lakes in Oracle Cloud Infrastructure Lakehouse mit vollständig verwalteten Services wie Oracle Big Data-Service und Oracle Cloud Infrastructure Data Flow erstellen. Spark, HIVE, Hbase und viele weitere Services können einfach auf OCI bereitgestellt und skaliert werden.

Oracle Big Data-Service stellt vollständig konfigurierte, sichere, hoch verfügbare und dedizierte Apache Hadoop- und Spark-Cluster auf Anforderung bereit. Sie bietet die häufig verwendeten Hadoop-Komponenten, mit denen Unternehmen Workloads einfach in die Cloud verschieben und eine Kompatibilität mit On-Premise-Lösungen sicherstellen können.

Oracle Cloud Infrastructure Data Flow ist ein vollständig verwalteter serverloser Spark-Service, mit dem Sie sich auf ihre Spark-Workloads ohne Infrastrukturkonzepte konzentrieren können. Es ermöglicht eine schnelle Anwendungsbereitstellung, da Entwickler sich auf die App-Entwicklung konzentrieren können, nicht auf die Infrastrukturverwaltung.

Viele Unternehmen möchten ihre On-Premise-Data Lakes migrieren, um die Oracle Cloud Infrastructure-Lakehouse-Architektur zu nutzen. Allerdings kann die Migration eines Data Lake von On-Premise-Hadoop-Umgebungen in die Cloud ohne den richtigen Support schwierig sein.

Informationen zum Migrieren von Apache Hadoop-Daten mit LiveData Migrator

Die Apache Hadoop-Datenmigration ist aufgrund des Datenvolumens und der Menge der in diesen Systemen typischerweise auftretenden Datenänderungen schwierig.

Herkömmliche Ansätze zur Datenmigration basierten auf Tools, die für die statische Datenübertragung entwickelt wurden, zum Beispiel Bulk-Übertragungsgeräte oder Open-Source-Tools wie DistCp (Distributed Copy). Dazu müssen die On-Premise-Systeme entweder heruntergefahren werden, um zu verhindern, dass Datenänderungen während des Migrationsprozesses auftreten, oder dass diejenigen, die für die Migration verantwortlich sind, die Änderungen identifizieren und benutzerdefinierte Lösungen für die Migration der neuen und geänderten Daten entwickeln müssen. Dadurch wird der Datenmigration Zeit und Risiken hinzugefügt. Laut Branchenanalysten gehen mehr als 60 % der Datenmigrationsinitiativen im Laufe der Zeit über, übertreffen das Budget oder scheitern insgesamt.

LiveData Migrator unterstützt die Migration von Apache Hadoop-Daten und Hive-Metadaten aus den folgenden Quellen:
  • Cloudera, einschließlich CDP (Cloudera Data Platform)
  • CDH (Cloudera Data Hub)
  • HDP (Hortonworks Data Platform) HDFS-Versionen ab 2.6

Die Quellsysteme können auf Oracle Big Data Appliance oder benutzerdefinierten Hardwarekonfigurationen ausgeführt werden.