Opzioni di migrazione dei dati

Oracle fornisce diverse opzioni per la migrazione dei dati HDFS, la migrazione dei dati in blocco mediante Oracle Data Transfer Appliance e la migrazione dei metadati del cluster.

Linee guida per la migrazione dei dati

Dopo aver decidere quali dati devono essere spostati e come verranno strutturati in Oracle Cloud Infrastructure, determinare il metodo da utilizzare per spostare i dati dalla relativa posizione corrente in Oracle Cloud Infrastructure. Un componente critico di questo processo è la connessione a Oracle Cloud Infrastructure. Il throughput dipende dalla dimensione della connessione.

Oracle Cloud Infrastructure supporta numerosi livelli di connettività. Le connessioni possono variare da 10 Mbps a 10 Gbps. Assumere la dimensione del data set e il throughput di connessione, la migrazione dei dati potrebbe essere semplice come copia diretta oppure potrebbe essere necessaria appliance specializzate (quale il servizio di trasferimento dati) per spostare i dati.

La tabella riportata di seguito mostra una previsione ragionevole del tempo necessario per spostare i dati in Oracle Cloud Infrastructure in base alla larghezza di banda della connessione e alla dimensione del data set.
  Tempo caricamento dati approssimativo
Dimensione set di dati 10Mbps 100Mbps 1 Gbps 10 Gbps Servizio di trasferimento dati
10 TB 92 giorni 9 giorni 22 ore 2 ore 1 settimana
100 TB 1,018 giorni 101 giorni 10 giorni 24 ore 1 settimana
500 TB 5,092 giorni 509 giorni 50 giorni 5 giorni 1 settimana
1 PB 10,185 giorni 1,018 giorni 101 giorni 10 giorni 2 settimane

Servizio di trasferimento dati

Oracle offre soluzioni di trasferimento dati non in linea che consentono di eseguire la migrazione dei dati in Oracle Cloud Infrastructure. È inoltre possibile esportare i dati che si trovano attualmente in Oracle Cloud Infrastructure nel data center non in linea. Lo spostamento dei dati tramite la rete Internet pubblica non è sempre possibile a causa di costi di rete elevati, connettività di rete inaffidabile, tempi di trasferimento lunghi e problemi di sicurezza.Le nostre soluzioni di trasferimento indirizzano questi punti di accoppiamento, sono facili da utilizzare e consentono di caricare i dati in modo più rapido rispetto al trasferimento di dati in formato finale.
  • Trasferimento dati basato su disco: i dati vengono inviati come file su disco commodity cifrato a un sito di trasferimento Oracle. Gli operatori del sito di trasferimento Oracle caricano i file nel bucket di storage degli oggetti o dello storage di archivio designato della tua tenancy.
  • Trasferimento dei dati basato su appliance: i dati vengono inviati come file su appliance di storage sicure e ad alta capacità fornite da Oracle a un sito di trasferimento Oracle. Gli operatori del sito di trasferimento Oracle caricano i dati nel bucket di storage degli oggetti o dello storage di archivio designato nella tenancy.

Migrazione HDFS

È possibile eseguire la migrazione dei dati da un HDFS esterno a Oracle Cloud Infrastructure in diversi modi.

La considerazione principale è la quantità di dati da spostare e la possibilità di spostare i dati "in formato finale" in base al tempo e alle risorse necessari per spostare i dati. Se vi sono risorse di larghezza di banda e cluster di origine sufficienti per il supporto, saranno disponibili due opzioni:

  • DistCp per lo storage degli oggetti
  • Da DistCp a HDFS

Per la copia dello storage degli oggetti, solo il cluster di origine richiede la connettività a Internet e l'impostazione per la compatibilità HDFS Connector (Apache Hadoop) o S3 (Cloudera e Hortonworks). Se si usa la compatibilità S3, i dati possono essere copiati solo nell'area home per la tenancy.

Dopo aver effettuato i prerequisiti, trasferire i dati eseguendo DistCp su una destinazione HDFS di origine in un bucket di storage degli oggetti. La sintassi riportata di seguito illustra una copia nell'area Storage degli oggetti dell'area US East (Ashburn) (sostituire le variabili con i valori corretti).

hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>' 
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true 
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<object_storage_namespace>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/ 

Al contrario, la destinazione HDFS e la destinazione S3 possono essere scambiate per copiare i dati dallo storage degli oggetti in HDFS. Questo metodo funziona per Cloudera, Hortonworks e Apache Hadoop.

La seconda opzione consiste nel stabilire un cluster Hadoop in Oracle Cloud Infrastructure, assicurarsi che il cluster di origine e il cluster Oracle Cloud Infrastructure abbiano connettività ed eseguire DistCp tra i cluster. Questo approccio funziona anche per Apache Hadoop, Cloudera e Hortonworks.

Per i cluster MapR, eseguire la migrazione dei dati impostando l'uso di copie sincronizzate remoto del volume tra i cluster.

Data Transfer Appliance

Oracle Data Transfer Appliance è un'altra opzione per il trasferimento dei dati quando non è possibile spostare i dati in formato finale.

I vincoli di larghezza di banda o risorsa potrebbero esistere sul cluster di origine o la prossimità di un'area Oracle Cloud Infrastructure potrebbe limitare la disponibilità di FastConnect. Il set di dati potrebbe inoltre richiedere troppo tempo per la copia. In questi casi, Oracle può inviare un'istanza Data Transfer Appliance che puoi distribuire nel data center e utilizzarla come destinazione DistCp per i dati HDFS.

Migrazione metadati cluster

L'approccio per la migrazione dei metadati del cluster a Oracle Cloud Infrastructure varia tra Cloudera, Hortonworks, MapR e Apache.

Cloudera

Per i cluster Cloudera, sono supportati tre tipi di database per i metadati del cluster: Postgres, MySQL e Oracle.

I passi per eseguire il backup dei database Cloudera Manager sono inclusi nella documentazione di Cloudera Enterprise. È quindi possibile importare questi dati in un cluster su cui è in esecuzione Cloudera su Oracle Cloud Infrastructure.

Hortonworks

Per Hortonworks, gli stessi database sono supportati per Cloudera. Per Ambari, è possibile esportare un progetto dal cluster esistente e utilizzarlo per configurare la distribuzione di Oracle Cloud Infrastructure Hortonworks.

MapR

Attenersi alla procedura descritta nella sezione Procedure ottimali di MapR per il backup della documentazione di MapR. È quindi possibile importare questi dati in un cluster Oracle Cloud Infrastructure MapR.

Apache

Per Apache Hadoop, gli stessi database sono supportati per Cloudera e Hortonworks, utilizzando le stesse procedure valide per Ambari, Hive e HBase.