Patrones recomendados para lagos de datos basados en la nube

En función de su caso de uso, los data lakes se pueden crear en Object Storage o Hadoop. Ambos pueden ampliarse e integrarse a la perfección con los datos y las herramientas empresariales existentes. Considere los patrones Greenfield o Migración para su organización. Elija Greenfield o el patrón de migración en función de si planea una implantación completamente nueva o desea migrar su solución de big data existente a Oracle Cloud.

El siguiente flujo de trabajo muestra los patrones recomendados según sus requisitos.

A continuación se muestra la descripción de data-lake-solution-pattern.png

Descripción de la ilustración data-lake-solution-pattern.png

Nota:

En este documento, nos centramos en la migración de clusters de Big Data Appliance (BDA) y Big Data Cloud Services (BDCS) a OCI basada en Cloudera Distribution de Hadoop (CDH). Sin embargo, las recomendaciones aquí se aplican a otras distribuciones Hadoop locales y en la nube.

Crear nueva plataforma de datos en Oracle Cloud (Greenfield)

Tiene dos opciones para crear lagos de datos en Oracle Cloud para proyectos de Greenfield. Utilice Big Data Service (BDS) para lagos de datos basados en HDFS. Utilice servicios de datos nativos en la nube de OCI para lagos de datos basados en Object Storage sin utilizar HDFS.

Servicios de datos en la nube

Cree un data lake en OCI Object Storage y utilice servicios de IA y datos nativos en la nube. Estos servicios incluyen Data Flow, Data Integration, Autonomous Data Warehouse, Data Catalog y Data Science, junto con algunos otros.

Oracle recomienda estos servicios para crear un nuevo data lake:

Almacenamiento de objetos como tienda de data lake para todos los tipos de datos raw
Servicio de flujo de datos para procesos por lotes de Spark y para clusters de Spark efímeros
Servicio de integración de datos para la ingestión de datos y para trabajos de ETL
Autonomous Data Warehouse (ADW) para servir y presentar datos de capa
Data Catalog para la detección y el control de datos

Oracle recomienda estos servicios adicionales para crear un nuevo data lake:

Servicio de flujo para una ingestión gestionada de datos en tiempo real
Servicio de Data Transfer Appliance (DTA) para la transferencia masiva de datos puntual
Servicio GoldenGate para datos de captura de datos de cambio (CDC) y para análisis de transmisión
Servicio de ciencia de datos para requisitos de aprendizaje automático
Servicio Oracle Analytics Cloud (OAC) para requisitos de BI, análisis e informes

Servicio Big Data

Cree su data lake en HDFS utilizando Oracle Big Data Service (BDS). BDS proporciona los componentes de Hadoop más utilizados, incluidos HDFS, Hive, HBase, Spark y Oozie.

Oracle recomienda estos servicios para crear un nuevo data lake mediante clusters Hadoop:

Servicio de integración de datos para la ingestión de datos y para trabajos de ETL
Servicio de Data Transfer Appliance (DTA) para la transferencia masiva de datos puntual
Servicio GoldenGate para datos CDC y para análisis de transmisión
Servicio de catálogo de datos para la detección y el control de datos
Servicio de ciencia de datos para requisitos de aprendizaje automático
Servicio de OAC para requisitos de informes, análisis y BI
BDS para HDFS y otros componentes de Hadoop

Flujo de Trabajo de Patrón de Greenfield

Cuando cree un nuevo data lake, siga este flujo de trabajo desde los requisitos a través de pruebas y validación:

Requisitos: enumere los requisitos de nuevos entornos en OCI.
Evaluación: evalúe los servicios y herramientas de OCI necesarios
Diseño: diseño de la arquitectura de su solución y ajuste de tamaño para OCI
Plan: cree un plan detallado que asigne el tiempo y los recursos.
Aprovisionamiento: aprovisione y configure los recursos necesarios en OCI
Implantación: Implante las cargas de trabajo de datos y aplicaciones
Automatizar pipeline: Organice y programe pipelines de flujo de trabajo para la automatización.
Probar y validar: realice pruebas de validación, funcionales y de rendimiento para la solución integral

Migración de una plataforma de datos existente en Oracle Cloud

Puede migrar sus clusters de BDA, BDCS y otros clusters de Hadoop existentes desde un entorno local o en la nube a Oracle Cloud Infrastructure (OCI). Elija uno de estos patrones de migración analizados: reconstruya, cambie la plataforma o vuelva a alojar para migrar sus clusters de Hadoop existentes a lagos de datos basados en la nube de Oracle.

Volver a crear patrón

Utilice el patrón de reconstrucción si no desea utilizar clusters de Hadoop y desea migrar a servicios nativos en la nube en Oracle Cloud Infrastructure (OCI). Empiece por una pizarra limpia del arquitecto y empiece a implantarse desde cero en OCI. Aproveche los servicios gestionados nativos en la nube para todos los componentes principales de su pila. Por ejemplo, cree una pila mediante Data Flow, Data Catalog, Data Integration, Streaming, Data Science, ADW y OAC.

Oracle recomienda estos servicios para migrar a un data lake basado en la nube sin clusters Hadoop:

Servicio de almacenamiento de objetos como tienda de data lake para todo tipo de datos raw

Nota:
Puede utilizar Object Storage con un conector HDFS como almacén de HDFS en lugar de HDFS en el cluster de Hadoop o Spark.
Servicio de integración de datos para la ingestión de datos y para trabajos de ETL
Servicio de flujo para la ingestión gestionada de datos en tiempo real que puede reemplazar sus servicios de Kafka o Flume autogestionados
Dispositivo de transferencia de datos para la transferencia masiva de datos única
GoldenGate para datos CDC y para análisis de transmisión
Servicio de flujo de datos para procesos por lotes de Spark y para clusters de Spark efímeros
ADW para datos de la capa de presentación y presentación
Servicio de catálogo de datos para la detección y el control de datos
Servicio de ciencia de datos para requisitos de aprendizaje automático
Servicio de OAC para requisitos de informes, análisis y BI

Patrón de plataforma

Utilice el patrón de migración de la plataforma si desea utilizar clusters de Hadoop en la nube y sustituir algunos de los componentes por servicios nativos en la nube. Utilice Big Data Service para HDFS y otros componentes de Hadoop y vuelva a diseñar parte de su pila mediante nuestros servicios gestionados nativos en la nube adicionales.

Puede que necesite volver a diseñar la pila para utilizar el patrón de plataforma.

Incluir servicios nativos en la nube sin servidor junto con BDS en OCI
Aproveche los servicios gestionados en la nube donde sea posible

Puede sustituir algunos de estos componentes según sus necesidades.

BDS para HDFS y otros componentes de Hadoop como Hive, HBase, Kafka y Oozie
Servicio de integración de datos para la ingestión de datos y para trabajos de ETL
Servicio de Data Transfer Appliance para la transferencia masiva de datos puntual
Servicio GoldenGate para datos CDC y para análisis de transmisión
Servicio de catálogo de datos para la detección y el control de datos
Servicio de ciencia de datos para requisitos de aprendizaje automático
Servicio de OAC para requisitos de informes, análisis y BI

Patrón de Rehost

Migre su BDA, BDCS y otros clusters de Hadoop para crear su data lake en HDFS mediante Big Data Service (BDS). Puede utilizar un enfoque de elevación y cambio al utilizar el patrón Rehost. Todos los componentes de Hadoop más utilizados, incluidos HDFS, Hive, HBase, Spark y Oozie, están disponibles en los clusters de Hadoop gestionados que proporciona BDS.

Flujo de trabajo de patrón de migración

Al migrar su data lake a Oracle Cloud, siga este flujo de trabajo desde los requisitos hasta el nuevo entorno.

Detección y requisitos: descubra y cataloga el sistema actual para mostrar los requisitos del nuevo entorno de OCI.
Evaluación: evalúe los servicios y herramientas de OCI necesarios
Diseño: diseño de la arquitectura de su solución y ajuste de tamaño para OCI
Plan: cree un plan detallado que asigne el tiempo y los recursos.
Aprovisionamiento: aprovisione y configure los recursos necesarios en OCI
Migrar datos: transfiera los datos y metadatos al almacenamiento de datos de servicios de OCI seleccionado
Migrar carga de trabajo: migre las cargas de trabajo y las aplicaciones a los servicios de OCI mediante el patrón de migración seleccionado
Automatizar pipeline: Organice y programe pipelines de flujo de trabajo para la automatización.
Probar y validar: planifique las pruebas funcionales y de rendimiento y la validación para el entorno de OCI final.
Recuperación: desactive el entorno de origen y desplácese hasta que solo utilice el nuevo entorno basado en OCI.