Eseguire la migrazione di Hadoop a Oracle mediante WANdisco LiveData Migrator

LiveData Il Migrator viene distribuito su un nodo perimetrale del cluster Hadoop. La distribuzione viene eseguita in pochi minuti senza alcun impatto sulle operazioni di produzione correnti. Gli utenti possono iniziare a utilizzare il prodotto immediatamente utilizzando la riga di comando, l'API REST o l'interfaccia utente per eseguire la migrazione.

Informazioni sulla migrazione dei dati Hadoop

Di seguito sono riportati i passi standard necessari per eseguire la migrazione da Apache Hadoop a Cloud.

Il diagramma riportato di seguito illustra l'architettura e i componenti del flusso.

Descrizione di hadoop-lakehouse-migration.png segue
Descrizione dell'illustrazione hadoop-lakehouse-migration.png

hadoop-lakehouse-migration-oracle.zip

  1. Ricerca automatica: identifica i data set e i carichi di lavoro di cui eseguire la migrazione nel cloud.
  2. Pianificazione: sviluppare un piano e una sequenza temporale per le fasi in cui verrà eseguita la migrazione.
  3. Migrazione dei dati: esegue la migrazione dei dati necessari dall'ambiente Hadoop on premise al cloud.
  4. Migrazione del carico di lavoro: esegue la migrazione dei carichi di lavoro e/o delle applicazioni dall'ambiente on premise al cloud.
  5. Sviluppo di nuove funzionalità di analitica: inizia a sviluppare nuove funzionalità di analitica, AI e machine learning, sfruttando in questo modo il nuovo ambiente cloud.
  6. Misura e attività: esegue l'analitica per misurare i KPI, valutare le prestazioni, fare previsioni e consentire all'azienda di agire in modo appropriato.

Per provare e semplificare la migrazione al cloud, molte organizzazioni scelgono di seguire una strategia di migrazione "lift and Shift". Questa strategia presuppone in modo semplice che la migrazione possa essere eseguita senza apportare modifiche ai dati o alle applicazioni. La logica è "solo spostarli come sono nel cloud". Questo presupposto si traduce in molti progetti o progetti non riusciti che superano il tempo e i costi. Richiede che i sistemi esistenti siano ridotti per garantire che non si verifichino modifiche ai dati oppure che le organizzazioni dedicino tempo allo sviluppo di soluzioni personalizzate per gestire le modifiche ai dati. Altri ostacoli a questa strategia sono, in primo luogo, che richiede alle organizzazioni di eseguire un abbattimento su tutte le applicazioni e i dati nello stesso momento, e in secondo luogo, non sfrutta le nuove funzionalità cloud.

WANdisco promuove un approccio basato sui dati alle migrazioni del data lake. Un approccio incentrato sui dati è quello di spostare rapidamente i dati e di non provare a eseguire la migrazione di tutte le applicazioni esistenti contemporaneamente. Questa funzione rende i dati disponibili per i data scientist più rapidi in modo da poter iniziare a utilizzare i dati migrati fin dal primo giorno. Ciò consente un tempo molto più rapido per ottenere nuovi insight e nuove innovazioni dell'AI. Le organizzazioni possono dimostrare un ROI molto più rapido nella migrazione cloud, mentre i carichi di lavoro di produzione on-premise esistenti possono continuare a essere eseguiti in modo non protetto. Inoltre, questo approccio offre flessibilità per la migrazione delle applicazioni e dei carichi di lavoro. Evita qualsiasi approccio basato sul big bang e offre alle organizzazioni il tempo necessario per ottimizzare i carichi di lavoro per il nuovo ambiente cloud, garantendolo in modo ottimale e sfruttando le nuove funzionalità disponibili. Le organizzazioni possono eseguire test paralleli quanto necessario per garantire che non subiscano costi nascosti e un approccio incentrato sui dati consente inoltre alle organizzazioni di determinare se alcune applicazioni potrebbero non dover essere migrate, ma sostituite con il nuovo sviluppo che si sta verificando.

Definisci origini e destinazioni

Durante la distribuzione, WANdisco LiveData Migrator rileva automaticamente il cluster HDFS (Distributed File System) di origine Apache Hadoop in modo che sia necessario solo definire l'ambiente di destinazione.

  1. Distribuire WANdisco LiveData Migrator.
    Durante la distribuzione, LiveData Migrator rileva automaticamente il cluster HDFS di origine.
  2. Definire la configurazione del file system per l'ambiente di destinazione.
    1. Tipo di file system: effettuare la selezione dalla lista dei tipi di file system disponibili.
      Per Oracle, il tipo di file system può essere Oracle Cloud Infrastructure Object Storage o Apache Hadoop se la destinazione è Oracle Big Data Service (Oracle BDS), che utilizza la distribuzione Apache Hadoop di Oracle.
    2. Nome visualizzato: immettere un nome visualizzato per il file system.
      Ad esempio, Oracle BDS Target.
    3. File system predefinito (FS): immettere l'indirizzo del file system.
      Ad esempio, hdfs://localhost:8020
    4. Utente: definire il nome utente del file system per eseguire le azioni di migrazione. Ad esempio, hdfs.
  3. Quando la configurazione Kerberos dell'HDFS di origine si applica alla destinazione, assicurarsi che l'autenticazione cross-realm sia abilitata tra l'origine e la destinazione.
  4. Definire ulteriori valori delle proprietà di configurazione, con la chiave e il valore associati in base alle esigenze.
    Ad esempio, per Sostituzioni proprietà configurazione, immettere la chiave e il valore.
    • Chiave: dfs.client.use.datanode.hostname; valore: true
    • Chiave: dfs.datanode.use.datanode.hostname; valore: true

Definisce la migrazione

Le migrazioni trasferiscono i dati esistenti dall'origine alla destinazione definita. WANdisco LiveData Migrator esegue la migrazione di tutte le modifiche apportate ai dati di origine durante la migrazione e garantisce che la destinazione sia aggiornata con tali modifiche. Ciò avviene continuando a eseguire la migrazione.

In genere, gli utenti creano più migrazioni in modo da poter selezionare contenuti specifici dal file system di origine in base al percorso. È anche possibile eseguire la migrazione a più file system indipendenti definendo più destinazioni di migrazione.

Per creare una migrazione, fornire un nome per la migrazione, selezionare i file system di origine e di destinazione e specificare il percorso nel file system di origine di cui eseguire la migrazione. Facoltativamente, è possibile applicare le esclusioni per specificare le regole per i dati da escludere da una migrazione e applicare altre impostazioni di configurazione facoltative.

LiveData Migrator supporta anche la migrazione dei metadati Hive dai metastore di origine a destinazione. LiveData Migrator si connette ai metastore mediante l'uso di agenti di metadati locali o remoti. Le regole dei metadati vengono quindi utilizzate per definire i metadati di cui eseguire la migrazione da origine a destinazione.

Quando si definiscono le migrazioni, è possibile specificare di avviare automaticamente la migrazione e di determinare se deve essere una migrazione attiva, il che significa che applicherà continuamente tutte le modifiche da origine a destinazione.

  1. Definire le impostazioni di migrazione.
    1. Immettere un nome per la migrazione.
    2. Selezionare un'origine dall'elenco. Ad esempio, CDH-SRC.
    3. Selezionare una destinazione dalla lista. Ad esempio, Oracle BDS Target.
    4. Immettere il percorso della directory per l'origine. Ad esempio, /Data_Lake_Directory.
  2. Rivedere le esclusioni predefinite. Fare clic su Gestisci esclusioni per apportare le modifiche necessarie.
  3. Selezionare le impostazioni di Sovrascrivi.
  4. Selezionare le opzioni di migrazione. Selezionare Migrazione con avvio automatico e Migrazione attiva.
    • Avvio automatico della migrazione: la migrazione dei dati verrà avviata automaticamente. Se non è selezionata, la migrazione deve essere avviata manualmente utilizzando l'opzione "Avvia migrazione.
    • Migrazione attiva: la migrazione verrà eseguita in modo continuo, replicando le modifiche in tempo reale quando si verificano dall'origine alla destinazione. Se non è selezionata, viene eseguita una migrazione occasionale.
  5. Fare clic su Crea.
    La migrazione dei dati inizierà immediatamente dall'origine alla destinazione.

Monitoraggio e gestione della migrazione

Utilizzare l'interfaccia utente WANdisco per monitorare e gestire la migrazione.

  1. Eseguire il login all'interfaccia utente WANdisco.
  2. Passare al Dashboard per visualizzare l'uso della larghezza di banda per i dati da spostare, le migrazioni in corso e le migrazioni dei metadati.

    Sono disponibili metriche di migrazione aggiuntive per comprendere meglio lo stato di avanzamento della migrazione, gli eventi ancora da elaborare, gli eventi ancora da migrare e i percorsi da sottoporre a scansione.

  3. Per gestire le migrazioni esistenti, utilizzare l'interfaccia utente WANdisco e l'interfaccia della riga di comando.
    Le azioni disponibili includono:
    • Assegna e rimuove le esclusioni dalle migrazioni esistenti
    • Avviare, arrestare e riprendere le migrazioni
    • Elimina una migrazione
    • Reimposta lo stato di una migrazione prima dell'avvio
    • Monitorare le operazioni non riuscite per visualizzare data/ora, percorso e motivo dell'errore