Opzioni di migrazione dei dati
Oracle fornisce diverse opzioni per la migrazione dei dati HDFS, la migrazione dei dati in blocco mediante Oracle Data Transfer Appliance e la migrazione dei metadati del cluster.
Migrazione HDFS
È possibile eseguire la migrazione dei dati da un HDFS esterno a Oracle Cloud Infrastructure in diversi modi.
La considerazione principale è la quantità di dati da spostare e la possibilità di spostare i dati "in formato finale" in base al tempo e alle risorse necessari per spostare i dati. Se vi sono risorse di larghezza di banda e cluster di origine sufficienti per il supporto, saranno disponibili due opzioni:
- DistCp per lo storage degli oggetti
- Da DistCp a HDFS
Per la copia dello storage degli oggetti, solo il cluster di origine richiede la connettività a Internet e l'impostazione per la compatibilità HDFS Connector (Apache Hadoop) o S3 (Cloudera e Hortonworks). Se si usa la compatibilità S3, i dati possono essere copiati solo nell'area home per la tenancy.
Dopo aver effettuato i prerequisiti, trasferire i dati eseguendo DistCp su una destinazione HDFS di origine in un bucket di storage degli oggetti. La sintassi riportata di seguito illustra una copia nell'area Storage degli oggetti dell'area US East (Ashburn) (sostituire le variabili con i valori corretti).
hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>'
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<TENANCY>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/
Al contrario, la destinazione HDFS e la destinazione S3 possono essere scambiate per copiare i dati dallo storage degli oggetti in HDFS. Questo metodo funziona per Cloudera, Hortonworks e Apache Hadoop.
La seconda opzione consiste nel stabilire un cluster Hadoop in Oracle Cloud Infrastructure, assicurarsi che il cluster di origine e il cluster Oracle Cloud Infrastructure abbiano connettività ed eseguire DistCp tra i cluster. Questo approccio funziona anche per Apache Hadoop, Cloudera e Hortonworks.
Per i cluster MapR, eseguire la migrazione dei dati impostando l'uso di copie sincronizzate remoto del volume tra i cluster.
Data Transfer Appliance
Oracle Data Transfer Appliance è un'altra opzione per il trasferimento dei dati quando non è possibile spostare i dati in formato finale.
I vincoli di larghezza di banda o risorsa potrebbero esistere sul cluster di origine o la prossimità di un'area Oracle Cloud Infrastructure potrebbe limitare la disponibilità di FastConnect. Il set di dati potrebbe inoltre richiedere troppo tempo per la copia. In questi casi, Oracle può inviare un'istanza Data Transfer Appliance che puoi distribuire nel data center e utilizzarla come destinazione DistCp per i dati HDFS.
Migrazione metadati cluster
L'approccio per la migrazione dei metadati del cluster a Oracle Cloud Infrastructure varia tra Cloudera, Hortonworks, MapR e Apache.
Cloudera
Per i cluster Cloudera, sono supportati tre tipi di database per i metadati del cluster: Postgres, MySQL e Oracle.
I passi per eseguire il backup dei database Cloudera Manager sono inclusi nella documentazione di Cloudera Enterprise. È quindi possibile importare questi dati in un cluster su cui è in esecuzione Cloudera su Oracle Cloud Infrastructure.
Hortonworks
Per Hortonworks, gli stessi database sono supportati per Cloudera. Per Ambari, è possibile esportare un progetto dal cluster esistente e utilizzarlo per configurare la distribuzione di Oracle Cloud Infrastructure Hortonworks.
MapR
Attenersi alla procedura descritta nella sezione Procedure ottimali di MapR per il backup della documentazione di MapR. È quindi possibile importare questi dati in un cluster Oracle Cloud Infrastructure MapR.
Apache
Per Apache Hadoop, gli stessi database sono supportati per Cloudera e Hortonworks, utilizzando le stesse procedure valide per Ambari, Hive e HBase.