Opzioni di migrazione dei dati
Oracle fornisce diverse opzioni per la migrazione dei dati HDFS, la migrazione dei dati in blocco mediante Oracle Data Transfer Appliance e la migrazione dei metadati del cluster.
Linee guida per la migrazione dei dati
Dopo aver decidere quali dati devono essere spostati e come verranno strutturati in Oracle Cloud Infrastructure, determinare il metodo da utilizzare per spostare i dati dalla relativa posizione corrente in Oracle Cloud Infrastructure. Un componente critico di questo processo è la connessione a Oracle Cloud Infrastructure. Il throughput dipende dalla dimensione della connessione.
Oracle Cloud Infrastructure supporta numerosi livelli di connettività. Le connessioni possono variare da 10 Mbps a 10 Gbps. Assumere la dimensione del data set e il throughput di connessione, la migrazione dei dati potrebbe essere semplice come copia diretta oppure potrebbe essere necessaria appliance specializzate (quale il servizio di trasferimento dati) per spostare i dati.
Tempo caricamento dati approssimativo | |||||
---|---|---|---|---|---|
Dimensione set di dati | 10Mbps | 100Mbps | 1 Gbps | 10 Gbps | Servizio di trasferimento dati |
10 TB | 92 giorni | 9 giorni | 22 ore | 2 ore | 1 settimana |
100 TB | 1,018 giorni | 101 giorni | 10 giorni | 24 ore | 1 settimana |
500 TB | 5,092 giorni | 509 giorni | 50 giorni | 5 giorni | 1 settimana |
1 PB | 10,185 giorni | 1,018 giorni | 101 giorni | 10 giorni | 2 settimane |
Servizio di trasferimento dati
- Trasferimento dati basato su disco: i dati vengono inviati come file su disco commodity cifrato a un sito di trasferimento Oracle. Gli operatori del sito di trasferimento Oracle caricano i file nel bucket di storage degli oggetti o dello storage di archivio designato della tua tenancy.
- Trasferimento dei dati basato su appliance: i dati vengono inviati come file su appliance di storage sicure e ad alta capacità fornite da Oracle a un sito di trasferimento Oracle. Gli operatori del sito di trasferimento Oracle caricano i dati nel bucket di storage degli oggetti o dello storage di archivio designato nella tenancy.
Migrazione HDFS
È possibile eseguire la migrazione dei dati da un HDFS esterno a Oracle Cloud Infrastructure in diversi modi.
La considerazione principale è la quantità di dati da spostare e la possibilità di spostare i dati "in formato finale" in base al tempo e alle risorse necessari per spostare i dati. Se vi sono risorse di larghezza di banda e cluster di origine sufficienti per il supporto, saranno disponibili due opzioni:
- DistCp per lo storage degli oggetti
- Da DistCp a HDFS
Per la copia dello storage degli oggetti, solo il cluster di origine richiede la connettività a Internet e l'impostazione per la compatibilità HDFS Connector (Apache Hadoop) o S3 (Cloudera e Hortonworks). Se si usa la compatibilità S3, i dati possono essere copiati solo nell'area home per la tenancy.
Dopo aver effettuato i prerequisiti, trasferire i dati eseguendo DistCp su una destinazione HDFS di origine in un bucket di storage degli oggetti. La sintassi riportata di seguito illustra una copia nell'area Storage degli oggetti dell'area US East (Ashburn) (sostituire le variabili con i valori corretti).
hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>'
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<object_storage_namespace>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/
Al contrario, la destinazione HDFS e la destinazione S3 possono essere scambiate per copiare i dati dallo storage degli oggetti in HDFS. Questo metodo funziona per Cloudera, Hortonworks e Apache Hadoop.
La seconda opzione consiste nel stabilire un cluster Hadoop in Oracle Cloud Infrastructure, assicurarsi che il cluster di origine e il cluster Oracle Cloud Infrastructure abbiano connettività ed eseguire DistCp tra i cluster. Questo approccio funziona anche per Apache Hadoop, Cloudera e Hortonworks.
Per i cluster MapR, eseguire la migrazione dei dati impostando l'uso di copie sincronizzate remoto del volume tra i cluster.
Data Transfer Appliance
Oracle Data Transfer Appliance è un'altra opzione per il trasferimento dei dati quando non è possibile spostare i dati in formato finale.
I vincoli di larghezza di banda o risorsa potrebbero esistere sul cluster di origine o la prossimità di un'area Oracle Cloud Infrastructure potrebbe limitare la disponibilità di FastConnect. Il set di dati potrebbe inoltre richiedere troppo tempo per la copia. In questi casi, Oracle può inviare un'istanza Data Transfer Appliance che puoi distribuire nel data center e utilizzarla come destinazione DistCp per i dati HDFS.
Migrazione metadati cluster
L'approccio per la migrazione dei metadati del cluster a Oracle Cloud Infrastructure varia tra Cloudera, Hortonworks, MapR e Apache.
Cloudera
Per i cluster Cloudera, sono supportati tre tipi di database per i metadati del cluster: Postgres, MySQL e Oracle.
I passi per eseguire il backup dei database Cloudera Manager sono inclusi nella documentazione di Cloudera Enterprise. È quindi possibile importare questi dati in un cluster su cui è in esecuzione Cloudera su Oracle Cloud Infrastructure.
Hortonworks
Per Hortonworks, gli stessi database sono supportati per Cloudera. Per Ambari, è possibile esportare un progetto dal cluster esistente e utilizzarlo per configurare la distribuzione di Oracle Cloud Infrastructure Hortonworks.
MapR
Attenersi alla procedura descritta nella sezione Procedure ottimali di MapR per il backup della documentazione di MapR. È quindi possibile importare questi dati in un cluster Oracle Cloud Infrastructure MapR.
Apache
Per Apache Hadoop, gli stessi database sono supportati per Cloudera e Hortonworks, utilizzando le stesse procedure valide per Ambari, Hive e HBase.