Opciones de Migración de Datos
Oracle proporciona varias opciones para migrar datos HDFS, la migración en bloque de datos mediante Oracle Data Transfer Appliance y la migración de metadatos de cluster.
Migración de HDFS
Puede migrar datos de un HDFS externo a Oracle Cloud Infrastructure de diferentes maneras.
La consideración principal es la cantidad de datos que se deben mover y si resulta práctico mover los datos" a través de la transferencia" , en caso de tiempo y recursos que sean necesarios para mover los datos. Si hay suficiente ancho de banda y recursos de cluster de origen para admitirlos, hay dos opciones relevantes:
- DistCp a Object Storage
- De DistCp a HDFS
Para la copia del almacenamiento de objetos, sólo el cluster de origen necesita conectividad de Internet y la configuración del conector HDFS (Apache Hadoop) o de compatibilidad de S3 (Cloudera y Hortonworks). Si utiliza Compatibilidad con S3, los datos solo se pueden copiar en la región de inicio del arrendamiento.
Una vez aplicados los requisitos, puede transferir los datos mediante la ejecución de DistCp en un destino HDFS de origen a un cubo de Object Storage. La siguiente sintaxis muestra una copia en la región de almacenamiento de objetos de la región US East (Ashburn) (reemplaza las variables por sus valores correctos):
hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>'
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<TENANCY>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/
Por el contrario, el destino de HDFS y el destino de S3 se pueden cambiar para copiar datos del almacenamiento de objetos a HDFS. Este método funciona para Cloudera, Hortonworks y Apache Hadoop.
La segunda opción es establecer un cluster de Hadoop en Oracle Cloud Infrastructure, asegurarse de que el cluster de origen y el cluster de Oracle Cloud Infrastructure tengan conectividad y ejecute DistCp entre los clusters. Este enfoque también funciona para Apache Hadoop, Cloudera y Hortonworks.
Para los clusters de MapR, puede migrar los datos configurando la duplicación remota de volúmenes entre clusters.
Dispositivo de transferencia de datos
Oracle Data Transfer Appliance es otra opción para la transferencia de datos cuando no es posible mover datos por el cable.
Es posible que existan restricciones de recursos o ancho de banda en el cluster de origen, o que la proximidad a una región de Oracle Cloud Infrastructure limite la disponibilidad de FastConnect. El conjunto de datos también puede ser tan grande que tarde demasiado en copiarse. En estos casos, Oracle puede enviar una aplicación de transferencia de datos que puede desplegar en el centro de datos y utilizarla como destino de DistCp para datos HDFS.
Migración de Metadatos de Cluster
El enfoque para migrar metadatos de cluster a Oracle Cloud Infrastructure varía entre Cloudera, Hortonworks, MapR y Apache.
Cloudera
Para los clusters Cloudera, se soportan tres tipos de bases de datos para metadatos de cluster: Postgres, MySQL y Oracle.
Los pasos para realizar una copia de seguridad de bases de datos Cloudera Manager se incluyen en la documentación de Cloudera Enterprise. A continuación, puede importar estos datos a un cluster que ejecute Cloudera en Oracle Cloud Infrastructure.
Hortonworks
Para Hortonworks, se admiten las mismas bases de datos para Cloudera. Para Ámbar, puede exportar un plan detallado del cluster existente y utilizarlo para configurar el despliegue de Hortonworks de Oracle Cloud Infrastructure.
MapR
Siga los pasos de la documentación de MapR Best Practices for Backing Up MapR. A continuación, puede importar estos datos a un cluster de Oracle Cloud Infrastructure MapR.
Apache
Para Apache Hadoop, las mismas bases de datos están soportadas para Cloudera y Hortonworks, mediante los mismos procedimientos que para Ambari, Hive y HBase.