Migrieren Sie Hadoop mit dem Migrator WANdisco LiveData zu Oracle

Migration von Hadoop-Daten

Im Folgenden werden die typischen Schritte bei der Migration von Apache Hadoop zu Cloud beschrieben:

Das folgende Diagramm zeigt die Ablaufarchitektur und die Komponenten.

Beschreibung von Hadoop-lakehouse-migration.png folgt

Beschreibung der Abbildung wasoop-lakehouse-migration.png

Discovery: Identifizieren Sie die Datasets und Workloads, die in die Cloud migriert werden sollen.
Planung: Entwickeln Sie einen Plan und eine Zeitleiste für die Phasen, in denen die Migration ausgeführt wird.
Datenmigration: Durchführen der Migration der erforderlichen Daten von der On-Premise-Hadoop-Umgebung in die Cloud.
Workload-Migration: Durchführen der Migration der Workloads und/oder Anwendungen von der On-Premise-Umgebung in die Cloud.
Neue Analytics-Entwicklung: Beginnen Sie mit der Entwicklung neuer Analysen, KI und maschinellem Lernen, und nutzen Sie dabei die neue Cloud-Umgebung.
Messen und Handeln: Führen Sie Analysen durch, um KPIs zu messen, die Performance zu bewerten, Vorhersagen zu treffen und dem Unternehmen die Möglichkeit zu geben, angemessen zu handeln.

Um die Cloud-Migration zu vereinfachen, folgen viele Organisationen einer "Lift-and-Shift"-Migrationsstrategie. Diese Strategie setzt die vereinfachte Annahme voraus, dass die Migration durchgeführt werden kann, ohne Änderungen an Daten oder Anwendungen vorzunehmen. Die Logik lautet: "Verschieben Sie sie einfach in die Cloud." Diese Annahme führt zu vielen fehlgeschlagenen Projekten oder Projekten, die ihre Zeit und Kosten überschreiten. Es erfordert entweder, dass vorhandene Systeme heruntergefahren werden, um sicherzustellen, dass keine Datenänderungen auftreten, oder dass Unternehmen Zeit haben, benutzerdefinierte Lösungen für die Verarbeitung von Datenänderungen zu entwickeln. Andere Vorteile dieser Strategie sind zum einen, dass Unternehmen einen Big-Bang-Cutover aller Anwendungen und Daten gleichzeitig ausführen müssen und zum anderen keine neuen Cloud-Funktionen nutzen.

WANdisco fördert einen Data-First-Ansatz bei Data Lake-Migrationen. Bei einem Data-First-Ansatz müssen die Daten schnell verschoben und nicht alle vorhandenen Anwendungen gleichzeitig migriert werden. Durch diesen Fokus stehen die Daten den Data Scientists schneller zur Verfügung, damit sie von Anfang an mit den migrierten Daten arbeiten können. Dies ermöglicht viel schnellere Einblicke und neue KI-Innovationen. Unternehmen können einen deutlich schnelleren ROI bei der Cloud-Migration belegen, während die vorhandenen On-Premise-Produktions-Workloads weiterhin ohne Auswirkungen ausgeführt werden können. Diese Lösung bietet außerdem Flexibilität bei der Anwendungs- und Workload-Migration. Damit werden Big-Bang-Ansätze vermieden und Unternehmen die Zeit zur Optimierung der Workloads für die neue Cloud-Umgebung zur Verfügung gestellt. So wird sichergestellt, dass diese optimal ausgeführt werden und profitieren von den neuen Funktionen, die ihnen zur Verfügung stehen. Organisationen können so viele parallele Tests durchführen wie nötig, um sicherzustellen, dass keine versteckten Kosten anfallen. Bei einem Data-First-Ansatz können sie zudem ermitteln, ob einige Anwendungen überhaupt nicht migriert werden müssen, sondern stattdessen die neu auftretende Entwicklung ersetzen.

Quellen und Ziele definieren

Während des Deployments erkennt WANdisco LiveData Migrator automatisch das Quellcluster Apache Hadoop Distributed File System (HDFS), sodass Sie nur die Zielumgebung definieren müssen.

Stellen Sie den WANdisco LiveData-Migrator bereit.
Während des Deployments erkennt LiveData Migrator automatisch das Quell-HDFS-Cluster.
Definieren Sie die Dateisystemkonfiguration für die Zielumgebung.
1. Dateisystemtyp: Wählen Sie einen Wert aus der Liste der verfügbaren Dateisystemtypen aus.
  Bei Oracle kann der Dateisystemtyp entweder Oracle Cloud Infrastructure Object Storage oder Apache Hadoop lauten, wenn das Ziel Oracle Big Data Service (Oracle BDS) ist und die Apache Hadoop-Distribution von Oracle nutzt.
2. Anzeigename: Geben Sie einen Anzeigenamen für das Dateisystem ein.
  Beispiel: Oracle BDS Target.
3. Standarddateisystem (FS): Geben Sie die Dateisystemadresse ein.
  Beispiel: hdfs://localhost:8020
4. Benutzer: Definieren Sie den Dateisystembenutzernamen für Migrationsaktionen. Beispiel: hdfs.
Wenn die Kerberos-Konfiguration des Quell-HDFS auf das Ziel angewendet wird, stellen Sie sicher, dass die Realm-übergreifende Authentifizierung zwischen Quelle und Ziel aktiviert ist.
Definieren Sie zusätzliche Konfigurationseigenschaftswerte mit dem zugehörigen Schlüssel und Wert.
Beispiel: Geben Sie bei Überschreibungen der Konfigurationseigenschaft den Schlüssel und Wert ein.
- Schlüssel: dfs.client.use.datanode.hostname; Wert: true
- Schlüssel: dfs.datanode.use.datanode.hostname; Wert: true

Migration definieren

Migrationen übertragen vorhandene Daten von der Quelle auf das definierte Ziel. WANdisco LiveData Migrator migriert alle Änderungen, die während der Migration an den Quelldaten vorgenommen wurden, und stellt sicher, dass das Ziel mit diesen Änderungen auf dem neuesten Stand ist. Dies geschieht, während die Migration fortgesetzt wird.

Benutzer erstellen in der Regel mehrere Migrationen, sodass sie bestimmte Inhalte aus dem Quelldateisystem nach Pfad auswählen können. Sie können auch mehrere unabhängige Dateisysteme gleichzeitig migrieren, indem Sie mehrere Migrationsziele definieren.

Um eine Migration zu erstellen, geben Sie einen Migrationsnamen an, wählen Sie die Quell- und Zieldateisysteme aus, und geben Sie den Pfad im zu migrierenden Quelldateisystem an. Optional können Sie Ausschlüsse anwenden, um Regeln für Daten anzugeben, die von einer Migration ausgeschlossen werden sollen, und andere optionale Konfigurationseinstellungen anwenden.

LiveData Migrator unterstützt auch die Migration von Hive-Metadaten von Quell- zu Zielmetastores. LiveData Migrator stellt über lokale oder Remote-Metadaten-Agents eine Verbindung zu Metastores her. Metadatenregeln werden dann zur Definition der Metadaten verwendet, die von der Quelle zu dem Ziel migriert werden sollen.

Beim Definieren der Migrationen können Sie angeben, dass die Migration automatisch gestartet wird und ob es sich um eine Livemigration handelt. Das bedeutet, dass fortlaufende Änderungen von Quelle zu Ziel kontinuierlich übernommen werden.

Definieren Sie die Migrationseinstellungen.
1. Geben Sie einen Namen für die Migration ein.
2. Wählen Sie eine Quelle aus der Liste aus. Beispiel: CDH-SRC.
3. Wählen Sie ein Ziel aus der Liste. Beispiel: Oracle BDS Target.
4. Geben Sie den Verzeichnispfad für die Quelle ein. Beispiel: /Data_Lake_Directory.
Prüfen Sie die Standardausschlüsse. Klicken Sie bei Bedarf auf Ausschlüsse verwalten, um Änderungen vorzunehmen.
Wählen Sie die Einstellungen für Überschreiben aus.
Wählen Sie Ihre Migrationsoptionen aus. Wählen Sie Migration automatisch starten und Live-Migration aus.
- Migration automatisch starten: Die Datenmigration wird automatisch gestartet. Wenn diese Option nicht ausgewählt ist, muss die Migration manuell mit der Option Migration starten gestartet werden.
- Live-Migration: Die Migration wird kontinuierlich ausgeführt und repliziert alle Änderungen in Echtzeit, wie sie von der Quelle zum Ziel vorgenommen werden. Wenn diese Option nicht ausgewählt ist, wird eine einmalige Migration ausgeführt.
Klicken Sie auf Erstellen.
Daten werden sofort von der Quelle zum Ziel migriert.

Migration überwachen und verwalten

Verwenden Sie die WANdisco-Benutzeroberfläche (UI), um die Migration zu überwachen und zu verwalten.

Melden Sie sich bei der WANdisco-UI an.
Navigieren Sie zum Dashboard, um die Bandbreitenverwendung für die zu verschiebenden Daten, die laufenden Migrationen und Metadatenmigrationen anzuzeigen.

Zusätzliche Migrationsmetriken sind verfügbar, um den Migrationsfortschritt, die noch zu verarbeitenden Ereignisse, die noch zu migrierenden Ereignisse und die zu scannenden Pfade besser zu verstehen.
Um vorhandene Migrationen zu verwalten, verwenden Sie die Benutzeroberfläche WANdisco und die Befehlszeilenschnittstelle.
Verfügbare Aktionen:
- Ausschlüsse aus vorhandenen Migrationen zuweisen und entfernen
- Migrationen starten, stoppen und wiederaufnehmen
- Migration löschen
- Migration auf den Status zurücksetzen, in dem sie sich vor dem Start befand
- Überwachen Sie nicht erfolgreiche Vorgänge, um Datum/Uhrzeit, Pfad und Grund für den Fehler anzuzeigen