Opciones de Migración de Datos
Oracle proporciona varias opciones para migrar datos HDFS, la migración en bloque de datos mediante Oracle Data Transfer Appliance y la migración de metadatos de cluster.
Directrices para la migración de datos
Después de decidir los datos que se deben mover y cómo se estructurará en Oracle Cloud Infrastructure, determine el método que se utilizará para mover los datos de su ubicación actual a Oracle Cloud Infrastructure. Un componente crítico de este proceso es la conexión a Oracle Cloud Infrastructure. El rendimiento global depende del tamaño de la conexión.
Oracle Cloud Infrastructure soporta muchos niveles de conectividad. Las conexiones pueden oscilar entre 10 Mbps y 10 Gbps. Tomar en cuenta el tamaño del juego de datos y el rendimiento global de la conexión, la migración de los datos puede ser tan sencilla como una copia directa o quizá necesite dispositivos especializados (como el servicio de transferencia de datos) para mover los datos.
Tiempo de carga de datos aproximado | |||||
---|---|---|---|---|---|
Tamaño de juego de datos | 10Mbps | 100Mbps | 1 Gbps | 10 Gbps | Servicio de transferencia de datos |
10 TB | 92 días | 9 días | 22 horas | 2 horas | 1 semana |
100 TB | 1,018 días | 101 días | 10 días | 24 horas | 1 semana |
500 TB | 5,092 días | 509 días | 50 días | 5 días | 1 semana |
1 PB | 10,185 días | 1,018 días | 101 días | 10 días | 2 semanas |
Servicio de transferencia de datos
- Transferencia de datos basada en disco: Los datos se envían como archivos de un disco de mercancía cifrado a un sitio de transferencia de Oracle. Los operadores del sitio de transferencia de Oracle cargan los archivos en el bloque de almacenamiento de objetos o almacenamiento de archivos designado en su modo de conexión.
- Transferencia de datos basada en aplicaciones: los datos se envían como archivos en dispositivos de almacenamiento seguros y de alta capacidad y suministrados por Oracle a un sitio de transferencia de Oracle. Los operadores del sitio de transferencia de Oracle cargan los datos en el bloque de almacenamiento de objetos o de archivos designado en su arrendamiento.
Migración de HDFS
Puede migrar datos de un HDFS externo a Oracle Cloud Infrastructure de diferentes maneras.
La consideración principal es la cantidad de datos que se deben mover y si resulta práctico mover los datos" a través de la transferencia" , en caso de tiempo y recursos que sean necesarios para mover los datos. Si hay suficiente ancho de banda y recursos de cluster de origen para admitirlos, hay dos opciones relevantes:
- DistCp a Object Storage
- De DistCp a HDFS
Para la copia del almacenamiento de objetos, sólo el cluster de origen necesita conectividad de Internet y la configuración del conector HDFS (Apache Hadoop) o de compatibilidad de S3 (Cloudera y Hortonworks). Si utiliza Compatibilidad con S3, los datos solo se pueden copiar en la región de inicio del arrendamiento.
Una vez aplicados los requisitos, puede transferir los datos mediante la ejecución de DistCp en un destino HDFS de origen a un cubo de Object Storage. La siguiente sintaxis muestra una copia en la región de almacenamiento de objetos de la región US East (Ashburn) (reemplaza las variables por sus valores correctos):
hadoop distcp -Dfs.s3a.secret.key='<SECRET_KEY>'
-Dfs.s3a.access.key='<ACCESS_KEY>' \
-Dfs.s3a.path.style.access=true
-Dfs.s3a.paging.maximum=1000 \
-Dfs.s3a.endpoint='https://<object_storage_namespace>.compat.objectstorage.us-ashburn-1.oraclecloud.com' \
/hdfs_target s3a://<BUCKET_NAME>/
Por el contrario, el destino de HDFS y el destino de S3 se pueden cambiar para copiar datos del almacenamiento de objetos a HDFS. Este método funciona para Cloudera, Hortonworks y Apache Hadoop.
La segunda opción es establecer un cluster de Hadoop en Oracle Cloud Infrastructure, asegurarse de que el cluster de origen y el cluster de Oracle Cloud Infrastructure tengan conectividad y ejecute DistCp entre los clusters. Este enfoque también funciona para Apache Hadoop, Cloudera y Hortonworks.
Para los clusters de MapR, puede migrar los datos configurando la duplicación remota de volúmenes entre clusters.
Dispositivo de transferencia de datos
Oracle Data Transfer Appliance es otra opción para la transferencia de datos cuando no es posible mover datos por el cable.
Es posible que existan restricciones de recursos o ancho de banda en el cluster de origen, o que la proximidad a una región de Oracle Cloud Infrastructure limite la disponibilidad de FastConnect. El conjunto de datos también puede ser tan grande que tarde demasiado en copiarse. En estos casos, Oracle puede enviar una aplicación de transferencia de datos que puede desplegar en el centro de datos y utilizarla como destino de DistCp para datos HDFS.
Migración de Metadatos de Cluster
El enfoque para migrar metadatos de cluster a Oracle Cloud Infrastructure varía entre Cloudera, Hortonworks, MapR y Apache.
Cloudera
Para los clusters Cloudera, se soportan tres tipos de bases de datos para metadatos de cluster: Postgres, MySQL y Oracle.
Los pasos para realizar una copia de seguridad de bases de datos Cloudera Manager se incluyen en la documentación de Cloudera Enterprise. A continuación, puede importar estos datos a un cluster que ejecute Cloudera en Oracle Cloud Infrastructure.
Hortonworks
Para Hortonworks, se admiten las mismas bases de datos para Cloudera. Para Ámbar, puede exportar un plan detallado del cluster existente y utilizarlo para configurar el despliegue de Hortonworks de Oracle Cloud Infrastructure.
MapR
Siga los pasos de la documentación de MapR Best Practices for Backing Up MapR. A continuación, puede importar estos datos a un cluster de Oracle Cloud Infrastructure MapR.
Apache
Para Apache Hadoop, las mismas bases de datos están soportadas para Cloudera y Hortonworks, mediante los mismos procedimientos que para Ambari, Hive y HBase.