Scopri come automatizzare la migrazione dei dati Hadoop in Oracle con WANdisco LiveData Migrator

Oracle Cloud Infrastructure Lakehouse offre una piattaforma integrata di più servizi cloud Oracle che collaborano con facilità di spostamento dei dati e di governance unificata e offre la possibilità di utilizzare i migliori strumenti open source e commerciali in base ai casi d'uso e alle preferenze.

Architettura

Questa architettura mostra l'uso di WANdisco LiveData Migrator per automatizzare la migrazione dei dati in Oracle Cloud Infrastructure Lakehouse.

WANdisco LiveData Migrator automatizza lo spostamento su larga scala di dati e metadati da ambienti Data lake, Spark e Hadoop on premise esistenti in Oracle Cloud Infrastructure (OCI). Sfruttando le funzionalità LiveData di WANdisco, la migrazione dei dati può avvenire mentre i dati di origine sono in fase di modifica attiva, senza richiedere tempi di inattività o interruzioni del sistema di produzione e supporta la migrazione dei dati completa e continua.

Il diagramma riportato di seguito mostra l'architettura funzionale della piattaforma dati moderna di OCI.

Segue la descrizione di modern-data-platform.png
Descrizione dell'immagine modern-data-platform.png

modern-data-platform-oracle.zip

  1. I dati vengono raccolti da database operativi, applicazioni aziendali, altre applicazioni ed eventi e sensori esterni.
  2. I dati vengono trasferiti a Oracle Cloud Infrastructure Lakehouse mediante Oracle GoldenGate, Oracle Cloud Infrastructure Data Integration, applicazioni partner come WANdisco e applicazioni open source, quali Apache e Kafka.
  3. I dati sono consumati da Oracle Analytics Cloud, Oracle Cloud Infrastructure Data Science, Oracle Cloud Infrastructure AI Services e Oracle Machine Learning all'interno di OCI e applicazioni esterne all'infrastruttura OCI.

Questa architettura supporta i seguenti componenti:

  • Oracle Cloud Infrastructure GoldenGate

    Oracle Cloud Infrastructure GoldenGate è un servizio completamente gestito che consente l'inclusione dei dati da origini che risiedono on-premise o in qualsiasi cloud, sfruttando la tecnologia CDC GoldenGate per una acquisizione non intrusiva ed efficiente dei dati e della distribuzione in Oracle Autonomous Data Warehouse in tempo reale e su larga scala per rendere disponibili le informazioni pertinenti ai consumatori il più rapidamente possibile.

  • Integrazione

    Oracle Integration è un servizio completamente gestito che consente di integrare le applicazioni, automatizzare i processi, acquisire informazioni approfondite sui processi aziendali e creare applicazioni visive.

  • WANdisco LiveData Migratore

    WANdisco LiveData Migrator automatizza lo spostamento su larga scala di dati e metadati da ambienti data lake, Spark e Hadoop on premise esistenti a OCI esegue la migrazione dei dati live su larga scala da un'applicazione on premise. LiveData Migrator non richiede tempi di inattività, ma esegue la migrazione delle modifiche apportate ai dati prima, durante e dopo la migrazione.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse è un servizio di database a gestione autonoma, protezione automatica e funzionalità di autoriparazione ottimizzato per i carichi di lavoro di data warehouse. Non è necessario configurare o gestire hardware o installare software. Oracle Cloud Infrastructure gestisce la creazione del database, nonché il backup, l'applicazione di patch, l'aggiornamento e il tuning del database.

  • Servizi AI di Oracle Cloud Infrastructure

    Oracle Cloud Infrastructure AI Services è una raccolta di servizi con modelli di apprendimento automatico predefiniti che semplificano l'applicazione dell'AI alle applicazioni e alle operazioni aziendali da parte degli sviluppatori. I modelli possono essere personalizzati per risultati di business più accurati. I team all'interno di un'organizzazione possono riutilizzare modelli, set di dati e etichette di dati per tutti i servizi. I servizi AI OCI consentono agli sviluppatori di aggiungere facilmente funzionalità di apprendimento automatico alle applicazioni senza rallentare lo sviluppo delle applicazioni.

  • Oracle Machine Learning

    I servizi Oracle Machine Learning offrono un framework comune per la gestione e la distribuzione dei modelli di apprendimento automatico con Oracle Autonomous Database. Accelera la creazione e la distribuzione di modelli di apprendimento automatico per i data scientist, eliminando la necessità di spostare i dati su sistemi di apprendimento automatico dedicati.

  • Data lake storage degli oggetti

    Lo storage degli oggetti ti consente di accedere rapidamente a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi i backup del database, i dati analitici e i contenuti avanzati quali immagini e video. Puoi memorizzare e recuperare i dati in tutta sicurezza direttamente da Internet o dall'interno della piattaforma cloud. Puoi ridimensionare lo storage in modo trasparente senza subire cali di prestazioni o affidabilità dei servizi. Puoi utilizzare lo storage standard per lo storage "hot" a cui hai bisogno per accedere in modo rapido, immediato e frequente. Utilizzare lo storage di archivio per lo storage in grassetto conservato per lunghi periodi di tempo e accesso raramente eseguito.

    Un data lake è un luogo in cui memorizzare i tuoi dati strutturati e non strutturati, nonché un metodo per organizzare grandi volumi di dati altamente diversificati da diverse fonti. I data lake stanno diventando sempre più importanti quando le persone, soprattutto nel business e nella tecnologia, vogliono eseguire un'ampia esplorazione e scoperta dei dati. L'unione dei dati in un'unica posizione o la maggior parte in un'unica posizione rende più semplice.

  • Catalogo dati

    Oracle Cloud Infrastructure Data Catalog è una soluzione di ricerca automatica e gestione del controllo dei dati self-service completamente gestita per i dati aziendali. Fornisce ai responsabili dei dati, ai data scientist, agli steward dati e ai Chief Data Officer un singolo ambiente collaborativo per gestire i metadati tecnici, aziendali e operativi dell'organizzazione.

  • Analitica

    Oracle Analytics Cloud è un servizio cloud pubblico scalabile e sicuro che offre agli analisti aziendali funzionalità di analitica self-service moderne, basate sull'intelligenza artificiale per la preparazione dei dati, la visualizzazione, la reportistica aziendale, l'analisi migliorata, l'elaborazione e la generazione del linguaggio naturale. Con Oracle Analytics Cloud avrai anche funzionalità flessibili di gestione dei servizi, tra cui impostazioni rapide, scalabilità e applicazione delle patch e gestione automatizzata del ciclo di vita.

  • Servizio Oracle Cloud Infrastructure Streaming

    Il servizio Oracle Cloud Infrastructure Streaming (OSS) offre una soluzione completamente gestita, scalabile e duratura dedicata all'inclusione e all'utilizzo di flussi di dati a elevato volume in tempo reale. Utilizza la funzionalità di streaming per qualsiasi caso d'uso in cui i dati vengono prodotti ed elaborati in modo continuo e sequenziale in un modello di messaggistica di tipo pubblicazione/sottoscrizione.

Informazioni su Oracle Cloud Infrastructure Lakehouse

Un data lakehouse è una moderna architettura aperta che consente di archiviare, comprendere e analizzare tutti i dati. Combina la potenza e la ricchezza dei data warehouse con l'ampiezza e la flessibilità delle tecnologie dei dati open-source più diffuse che oggi utilizzi. Oracle Cloud Infrastructure Lakehouse è costruito dalle basi su Oracle Cloud Infrastructure (OCI) con i più recenti framework AI e servizi di AI predefiniti. Oracle Cloud Infrastructure Lakehouse offre una piattaforma integrata di più servizi cloud Oracle che collaborano con facilità di spostamento dei dati e di governance unificata e offre la possibilità di utilizzare i migliori strumenti open source e commerciali in base ai casi d'uso e alle preferenze.

Le organizzazioni possono eseguire facilmente la migrazione di data lake open source esistenti o crearne di nuovi in Oracle Cloud Infrastructure Lakehouse con servizi completamente gestiti come Oracle Big Data Service e Oracle Cloud Infrastructure Data Flow. Spark, HIVE, Hbase e molti altri servizi possono essere facilmente distribuiti e ridimensionati su OCI.

Oracle Big Data Service offre cluster Apache Hadoop e Spark completamente configurati, sicuri, ad alta disponibilità e dedicati su richiesta. Offre i componenti Hadoop comunemente utilizzati per consentire alle aziende di spostare i carichi di lavoro nel cloud e garantire la compatibilità con le soluzioni on premise.

Oracle Cloud Infrastructure Data Flow è un servizio Spark serverless completamente gestito che consente di concentrarsi sui carichi di lavoro Spark evitando concetti sull'infrastruttura. Consente una distribuzione rapida delle applicazioni perché gli sviluppatori possono dedicarsi allo sviluppo delle applicazioni e non alla gestione dell'infrastruttura.

Molte aziende stanno cercando di migrare i propri data lake on-premise per sfruttare l'architettura di Oracle Cloud Infrastructure Lakehouse. Tuttavia, la migrazione di un data lake da ambienti Hadoop on-premise al cloud può essere una sfida senza il supporto giusto.

Informazioni sulla migrazione dei dati Apache Hadoop con LiveData Migrator

La migrazione dei dati Apache Hadoop è difficile a causa del volume di dati e della quantità di modifiche che si verificano in genere in questi sistemi.

Gli approcci tradizionali alla migrazione dei dati si basano su strumenti progettati per il trasferimento di dati statici, come dispositivi di trasferimento di massa o strumenti open source quali DistCp (Copia distribuita). Questi sistemi richiedono che i sistemi on-premise vengano abbattuti per evitare che si verifichino modifiche dei dati durante il processo di migrazione oppure che i responsabili della migrazione identifichino le modifiche e sviluppino soluzioni personalizzate per migrare i dati nuovi e modificati. Ciò comporta tempi e rischi per la migrazione dei dati e, secondo gli analisti del settore, oltre il 60% delle iniziative di migrazione dei dati può andare nel tempo, superare il budget o fallire del tutto.

LiveData Migrator supporta la migrazione dei dati Apache Hadoop e dei metadati Hive dalle origini riportate di seguito.
  • Cloudera, incluso CDP (Cloudera Data Platform)
  • CDH (Cloudera Data Hub)
  • HDFS HDP (Hortonworks Data Platform) versioni 2.6 e successive

I sistemi di origine possono essere in esecuzione su Oracle Big Data Appliance o su configurazioni hardware personalizzate.