Migración de Hadoop a Oracle mediante el migrador WANdisco LiveData

Acerca de la Migración de Datos de Hadoop

A continuación, se muestran los pasos típicos implicados en una migración de Apache Hadoop a la nube:

El diagrama siguiente ilustra la arquitectura y los componentes del flujo.

A continuación se muestra la descripción de hadoop-lakehouse-migration.png

Descripción de la ilustración hadoop-lakehouse-migration.png

Detección: identifique los conjuntos de datos y las cargas de trabajo que se van a migrar a la nube.
Planificación: Desarrolle un plan y una cronología para las fases en las que se realizará la migración.
Migración de datos: realice la migración de los datos necesarios del entorno local de Hadoop a la nube.
Migración de carga de trabajo: realice la migración de las cargas de trabajo y/o las aplicaciones del entorno local a la nube.
Nuevo desarrollo de análisis: comience a desarrollar nuevos análisis, IA y aprendizaje automático, aprovechando así el nuevo entorno en la nube.
Medición y acción: realice análisis para medir los KPI, evaluar el rendimiento, hacer predicciones y permitir que el negocio actúe de manera adecuada.

Para intentar simplificar su migración a la nube, muchas organizaciones eligen seguir una estrategia de migración a la nube. Esta estrategia hace la suposición simplista de que la migración se puede realizar sin realizar cambios en los datos ni en las aplicaciones. La lógica es "pasarlas a la nube". Esta suposición da como resultado muchos proyectos o proyectos fallidos que exceden su tiempo y sus costos. Necesita que los sistemas existentes se cierren para garantizar que no se produzcan cambios en los datos o que las organizaciones empleen tiempo desarrollando soluciones personalizadas para manejar los cambios de datos. Otras desventajas de esta estrategia son, en primer lugar, que requiere que las organizaciones realicen una migración a gran escala de todas las aplicaciones y datos al mismo tiempo y, en segundo lugar, no aprovecha las nuevas capacidades en la nube.

WANdisco fomenta un enfoque centrado en los datos para las migraciones de lago de datos. Un enfoque centrado en los datos se centra en conseguir que los datos se muevan rápidamente y no intentar migrar todas las aplicaciones existentes al mismo tiempo. Este enfoque hace que los datos estén disponibles para los científicos de datos más rápido para que puedan comenzar a trabajar con los datos migrados desde el primer día. Esto permite un tiempo mucho más rápido para obtener nuevas estadísticas e innovaciones en IA. Las organizaciones pueden demostrar un rendimiento de la inversión en la migración a la nube mucho más rápido, mientras que las cargas de trabajo de producción locales existentes pueden seguir sin verse afectadas. Este enfoque también proporciona flexibilidad para la migración de aplicaciones y cargas de trabajo. Evita cualquier enfoque de big-bang y proporciona a las organizaciones tiempo para optimizar las cargas de trabajo para el nuevo entorno en la nube, asegurándose de que funciona de manera óptima y aprovecha las nuevas capacidades disponibles. Las organizaciones pueden realizar tanto pruebas paralelas como sea necesario para garantizar que no experimenten ningún costo oculto, y un enfoque centrado en los datos también les da tiempo para determinar si algunas de las aplicaciones pueden no tener que migrar en absoluto, sino que en su lugar se sustituye por el nuevo desarrollo que se ha producido.

Definir orígenes y objetivos

Durante el despliegue, WANdisco LiveData Migrator detecta automáticamente el cluster de Apache Hadoop Distributed File System (HDFS) de origen para que solo necesite definir el entorno de destino.

Despliegue WANdisco LiveData Migrator.
Durante el despliegue, LiveData Migrator detecta automáticamente el cluster HDFS de origen.
Defina la configuración del sistema de archivos para el entorno de destino.
1. Tipo de sistema de archivos: seleccione una opción de la lista de tipos de sistema de archivos disponibles.
  Para Oracle, el tipo de sistema de archivos puede ser Oracle Cloud Infrastructure Object Storage o Apache Hadoop si el destino es Oracle Big Data Service (Oracle BDS), que utiliza la distribución de Apache Hadoop de Oracle.
2. Nombre mostrado: introduzca un nombre mostrado para el sistema de archivos.
  Por ejemplo, Oracle BDS Target.
3. Sistema de archivos predeterminado (FS): introduzca la dirección del sistema de archivos.
  Por ejemplo, hdfs://localhost:8020
4. Usuario: defina el nombre de usuario del sistema de archivos para realizar acciones de migración. Por ejemplo, hdfs.
Cuando la configuración de Kerberos del HDFS de origen se aplique al destino, asegúrese de que la autenticación entre dominios esté activada entre el origen y el destino.
Defina valores de propiedad de configuración adicionales, con la clave y el valor asociados, según sea necesario.
Por ejemplo, para Sustituciones de propiedades de configuración, introduzca la clave y el valor.
- Clave: dfs.client.use.datanode.hostname; valor: true
- Clave: dfs.datanode.use.datanode.hostname; valor: true

Definir la migración

Las migraciones transfieren los datos existentes del origen al destino definido. WANdisco LiveData Migrator migra los cambios realizados en los datos de origen mientras se migran y garantiza que el destino esté actualizado con esos cambios. Lo hace mientras continúa realizando la migración.

Los usuarios suelen crear varias migraciones para que puedan seleccionar contenido específico del sistema de archivos de origen por ruta. También puede migrar a varios sistemas de archivos independientes al mismo tiempo mediante la definición de varios destinos de migración.

Para crear una migración, proporcione un nombre de migración, seleccione los sistemas de archivos de origen y de destino y especifique la ruta del sistema de archivos de origen que desea migrar. Opcionalmente, puede aplicar exclusiones para especificar reglas para los datos que se deben excluir de una migración y puede aplicar otros valores de configuración opcionales.

LiveData Migrator también admite la migración de metadatos de Hive de metastores de origen a destino. LiveData Migrator se conecta a los metastores mediante el uso de agentes de metadatos locales o remotos. Las reglas de metadatos se utilizan para definir los metadatos que se van a migrar del origen al destino.

Al definir las migraciones, puede especificar que se inicie automáticamente la migración y determinar si debe ser una migración en directo, lo que significa que aplicará continuamente los cambios en curso de origen a destino.

Defina la configuración de migración.
1. Introduzca un nombre para la migración.
2. Seleccione un origen en la lista. Por ejemplo, CDH-SRC.
3. Seleccione un destino de la lista. Por ejemplo, Oracle BDS Target.
4. Introduzca la ruta de directorio del origen. Por ejemplo, /Data_Lake_Directory.
Revise las exclusiones por defecto. Haga clic en Gestionar exclusiones para realizar cambios, según sea necesario.
Seleccione la configuración Sobrescribir.
Seleccione las opciones de migración. Seleccione Inicio automático de migración y Migración en directo.
- Migración de inicio automático: la migración de datos se iniciará automáticamente. Si no se selecciona, la migración se debe iniciar manualmente mediante la opción "start migration (Iniciar migración).
- Migración en directo: la migración se ejecutará continuamente y replicará los cambios en tiempo real a medida que se produzcan desde el origen hasta el destino. Si no se selecciona, se realiza una migración única.
Haga clic en Crear.
Los datos comenzarán a migrar inmediatamente del origen al destino.

Supervisión y gestión de la migración

Use la interfaz de usuario (UI) WANdisco para supervisar y gestionar la migración.

Inicie sesión en la interfaz de usuario WANdisco.
Navegue hasta el panel de control para ver el uso del ancho de banda para los datos que se están moviendo, las migraciones en curso y las migraciones de metadatos.

Hay métricas de migración adicionales disponibles para comprender mejor el progreso de la migración, los eventos que aún no se han procesado, los eventos que aún se van a migrar y las rutas que se van a explorar.
Para gestionar migraciones existentes, utilice la interfaz de usuario y la interfaz de línea de comandos WANdisco.
Las acciones disponibles son:
- Asignación y eliminación de exclusiones de migraciones existentes
- Iniciar, detener y reanudar migraciones
- Suprimir una migración
- Restablecer una migración al estado en el que estaba antes de que se iniciara
- Supervise las operaciones fallidas para ver la fecha/hora, la ruta y el motivo del fallo