Obtenga más información sobre la automatización de la migración de datos de Hadoop a Oracle con WANdisco LiveData Migrator
Oracle Cloud Infrastructure Lakehouse proporciona una plataforma integrada de varios servicios en la nube de Oracle que funcionan junto con un movimiento sencillo de datos y una gobernanza unificada, y ofrece la capacidad de utilizar las mejores herramientas de código abierto y comerciales en función de sus casos de uso y preferencias.
Arquitectura
WANdisco LiveData Migrator automatiza el movimiento a gran escala de datos y metadatos desde los lagos de datos locales existentes, los entornos de Spark y Hadoop a Oracle Cloud Infrastructure (OCI). Aprovechando las capacidades LiveData de WANdisco, la migración de datos puede ocurrir mientras los datos de origen están en proceso de cambio activo, sin necesidad de ningún tiempo de inactividad del sistema de producción o interrupción del negocio, y admite la migración de datos completa y continua.
El siguiente diagrama ilustra la arquitectura funcional de la plataforma de datos moderna de OCI.

Descripción de la ilustración modern-data-platform.png
modern-data-platform-oracle.zip
- Los datos se recopilan de bases de datos operativas, aplicaciones empresariales, otras aplicaciones y sensores y eventos externos.
- Los datos se transfieren a Oracle Cloud Infrastructure Lakehouse mediante Oracle GoldenGate, Oracle Cloud Infrastructure Data Integration, aplicaciones asociadas, como WANdisco y aplicaciones de código abierto, como Apache y Kafka.
- Los datos los consumen Oracle Analytics Cloud, Oracle Cloud Infrastructure Data Science, Oracle Cloud Infrastructure AI Services y Oracle Machine Learning dentro de OCI y aplicaciones fuera de OCI.
Esta arquitectura admite los siguientes componentes:
- Oracle Cloud Infrastructure GoldenGate
Oracle Cloud Infrastructure GoldenGate es un servicio totalmente gestionado que permite la ingestión de datos de orígenes que residen en entornos locales o en cualquier nube. Para ello, aprovecha la tecnología GoldenGate de los CDC para obtener una captura y entrega de datos no intrusivas y eficientes a Oracle Autonomous Data Warehouse en tiempo real y a escala, a fin de poner la información relevante a disposición de los consumidores lo más rápido posible.
- Integración
Oracle Integration es un servicio totalmente gestionado que permite integrar las aplicaciones, automatizar los procesos, obtener información sobre los procesos de negocio y crear aplicaciones visuales.
- WANdisco LiveData Migrador
WANdisco LiveData Migrator automatiza el movimiento a gran escala de datos y metadatos desde los lagos de datos locales existentes, los entornos de Spark y Hadoop a OCI migra datos activos a escala desde una ubicación local. LiveData Migrator no requiere tiempo de inactividad, migra los cambios realizados a los datos antes, durante y después de la migración.
- Autonomous Data Warehouse
Oracle Autonomous Data Warehouse es un servicio de base de datos autogestionado, autoprotegido y autorreparable que se optimiza para cargas de trabajo de almacenamiento de datos. No es necesario configurar ni gestionar ningún hardware, o instalar cualquier software. Oracle Cloud Infrastructure gestiona la creación de la base de datos, así como la copia de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos.
-
Servicios de IA de Oracle Cloud Infrastructure
Oracle Cloud Infrastructure AI Services es una recopilación de servicios con modelos de aprendizaje automático incorporados que facilitan a los desarrolladores la aplicación de IA en aplicaciones y operaciones empresariales. Los modelos se pueden entrenar de forma personalizada para obtener resultados empresariales más precisos. Los equipos de una organización pueden reutilizar los modelos, los conjuntos de datos y las etiquetas de datos de los distintos servicios. Los servicios de IA de OCI permiten que los desarrolladores agreguen fácilmente aprendizaje automático a aplicaciones sin ralentizar el desarrollo de aplicaciones.
-
Oracle Machine Learning
Los servicios de Oracle Machine Learning proporcionan un marco común para la gestión y el despliegue del modelo de aprendizaje automático con Oracle Autonomous Database. Acelera la creación y el despliegue de modelos de aprendizaje automático para científicos de datos, al eliminar la necesidad de mover datos a sistemas de aprendizaje automático dedicados.
- Lago de datos de almacenamiento de objetos
El almacenamiento de objetos proporciona acceso rápido a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad de bases de datos, datos analíticos y contenido enriquecido, como imágenes y vídeos. Puede almacenar datos de forma segura y, a continuación, recuperarlos directamente desde Internet o desde la plataforma en la nube. Puede ampliar el almacenamiento sin problemas sin experimentar ninguna degradación del rendimiento o la fiabilidad del servicio. Utilice el almacenamiento estándar para el almacenamiento "en caliente" al que necesita acceder de forma rápida, inmediata y frecuente. Utilice el almacenamiento de archivos para el almacenamiento "en frío" que conserva durante largos períodos de tiempo y a los que rara vez se accede o que rara vez se accede.
Un lago de datos es un lugar para almacenar sus datos estructurados y no estructurados, así como un método para organizar grandes volúmenes de datos muy diversos de diversas fuentes. Los lagos de datos son cada vez más importantes, ya que las personas, especialmente en el sector empresarial y tecnológico, desean realizar una amplia exploración y detección de datos. Unir los datos en un único lugar o la mayor parte de ellos en un único lugar hace que sea más sencillo.
- Catálogo de datos
Oracle Cloud Infrastructure Data Catalog es una solución de descubrimiento y gobernanza de datos de autoservicio totalmente gestionada para los datos de su empresa. Proporciona a los ingenieros de datos, científicos de datos, administradores de datos y directores de datos un único entorno de colaboración para gestionar los metadatos técnicos, empresariales y operativos de la organización.
- Análisis
Oracle Analytics Cloud es un servicio en la nube pública ampliable y seguro que ofrece a los analistas empresariales funciones de autoservicio modernas y que funcionan con IA para la preparación de datos, la visualización, la generación de informes empresariales, los análisis aumentados y la generación y el procesamiento del lenguaje natural. Con Oracle Analytics Cloud, también obtiene capacidades de gestión de servicios flexibles, incluida la configuración rápida, la ampliación y la aplicación de parches sencillos y la gestión automatizada del ciclo de vida.
- Servicio Oracle Cloud Infrastructure Streaming
El servicio Oracle Cloud Infrastructure Streaming (OSS) proporciona una solución duradera, ampliable y totalmente gestionada para la ingestión y el consumo de flujos de datos de gran volumen en tiempo real. Utilice Streaming para cualquier caso de uso en el que los datos se produzcan y procesen de forma continua y secuencial en un modelo de mensajería de publicación-suscripción.
Acerca de Oracle Cloud Infrastructure Lakehouse
Las organizaciones pueden migrar fácilmente los lagos de datos existentes o crear nuevos de código abierto en Oracle Cloud Infrastructure Lakehouse con servicios totalmente gestionados como Oracle Big Data Service y Oracle Cloud Infrastructure Data Flow. Spark, VIHE, Hbase y muchos más servicios se pueden desplegar y ampliar fácilmente en OCI.
Oracle Big Data Service proporciona clusters de Apache Hadoop y Spark totalmente configurados, seguros, altamente disponibles y dedicados a demanda. Ofrece los componentes de Hadoop más utilizados, lo que facilita a las empresas la migración de las cargas de trabajo a la nube y garantiza la compatibilidad con las soluciones locales.
Oracle Cloud Infrastructure Data Flow es un servicio Spark sin servidor totalmente gestionado que permite centrarse en sus cargas de trabajo de Spark sin conceptos de infraestructura. Permite una entrega rápida de aplicaciones porque los desarrolladores pueden centrarse en el desarrollo de aplicaciones, no en la gestión de infraestructura.
Muchas organizaciones buscan migrar sus lagos de datos locales para aprovechar la arquitectura de Oracle Cloud Infrastructure Lakehouse. Sin embargo, la migración de un lago de datos desde entornos de Hadoop locales a la nube puede resultar todo un desafío sin el soporte adecuado.
Acerca de la migración de datos de Apache Hadoop con LiveData Migrator
La migración de datos de Apache Hadoop es difícil debido al volumen de datos y la cantidad de cambios de datos que suelen producirse en estos sistemas.
Los enfoques tradicionales de migración de datos se basaban en herramientas diseñadas para la transferencia de datos estáticos, como dispositivos de transferencia masiva o herramientas de código abierto como DistCp (Copia distribuida). Para ello, es necesario que los sistemas locales estén listos para evitar que se produzcan cambios en los datos durante el proceso de migración, o bien que los responsables de la migración identifiquen los cambios y desarrollen soluciones personalizadas para migrar los datos nuevos y modificados. Esto aumenta el tiempo y los riesgos para la migración de datos, y según los analistas del sector, más del 60% de las iniciativas de migración de datos pasan con el tiempo, superan el presupuesto o fracasan por completo.
- Cloudera, incluido CDP (Cloudera Data Platform)
- CDH (Hub de datos de Cloudera)
- HDP (Hortonworks Data Platform) versiones 2.6 y superiores de HDFS
Los sistemas de origen se pueden ejecutar en Oracle Big Data Appliance o en configuraciones de hardware personalizadas.