Descubra cómo diseñar data lakes en Oracle Cloud

Explore cómo su organización puede migrar de un lago de datos local a Oracle Cloud Infrastructure (OCI). Las organizaciones que tienen data lakes on-premises se enfrentan a los desafíos de los altos costos iniciales y de mantenimiento. Deben planificar, adquirir, gestionar la infraestructura y gestionar cargas de trabajo desiguales. Los data lakes on-premises pueden ser difíciles de optimizar para el uso de recursos y no usar los recursos del servidor de manera eficiente. Los servicios en la nube le permiten disociar y ampliar sus recursos informáticos y almacenamiento de forma independiente, a la vez que proporcionan un entorno integrado, bien gestionado y altamente resistente.

OCI ofrece una cartera sólida y completa de datos de infraestructura y plataforma en la nube y servicios de IA para acceder, almacenar y procesar una amplia gama de tipos de datos de cualquier origen. OCI le permite implantar arquitecturas de IA y datos empresariales integrales en la nube. Esta estrategia de solución le ofrece una visión general de los servicios clave que le ayudan a crear y trabajar con lagos de datos en OCI. También puede aprender sobre otros servicios disponibles y diseñar sus soluciones de data lake basadas en algunos de nuestros patrones vetados y orientación de expertos.

Arquitectura

Esta arquitectura combina las capacidades de un data lake y un almacén de datos para procesar diferentes tipos de datos de una amplia gama de recursos de datos empresariales. Utilice esta arquitectura para diseñar arquitecturas de data lake completas en OCI.

Este diagrama muestra una arquitectura de alto nivel de los servicios de IA y datos de Oracle.

A continuación, se muestra la descripción de data-lakes.png
Descripción de la ilustración data-lakes.png

En esta arquitectura, los datos pasan por estas etapas:

  • Refinería de datos

    Ingesta y perfecciona los datos para su uso en cada una de las capas de datos de la arquitectura.

  • Persistencia de datos y procesamiento (capa de información personalizada)

    Facilita el acceso y la navegación de los datos para mostrar la vista de negocio actual. Para las tecnologías relacionales, los datos se pueden estructurar de forma lógica o física en formas relacionales, longitudinales, dimensionales u OLAP simples. Para datos no relacionales, esta capa contiene una o más agrupaciones de datos, ya sea la salida de un proceso analítico o los datos optimizados para una tarea analítica específica.

  • Interpretación de & de acceso

    Resuelve la vista lógica de negocio de los datos para los consumidores. Esta abstracción facilita el desarrollo ágil, la migración a la arquitectura de destino y el aprovisionamiento de una única capa de informes de varios orígenes federados.

Esta arquitectura tiene los siguientes componentes:

  • Servicio Big Data

    Oracle Big Data Service (BDS) es un servicio en la nube totalmente gestionado y automatizado que proporciona clusters con un entorno Hadoop. BDS facilita el despliegue de clústeres de Hadoop de todos los tamaños y simplifica el proceso de creación de clústeres de Hadoop tanto de alta disponibilidad como seguros. Basándose en las mejores prácticas de Oracle, BDS implanta alta disponibilidad y seguridad y reduce la necesidad de habilidades avanzadas de Hadoop. BDS ofrece los componentes de Hadoop más utilizados, lo que facilita a las empresas la migración de cargas de trabajo a la nube y garantiza la compatibilidad con soluciones locales.

    Oracle Cloud SQL es un servicio complementario disponible que permite a los clientes iniciar consultas de Oracle SQL en datos de HDFS, Kafka y Oracle Object Storage. Cualquier herramienta de usuario, aplicación o análisis puede funcionar con almacenes de datos para minimizar el movimiento de datos y acelerar las consultas. BDS interactúa con los servicios de integración de datos, ciencia de datos y análisis, al tiempo que permite a los desarrolladores acceder fácilmente a los datos mediante Oracle SQL. Las empresas pueden eliminar los silos de datos y garantizar que los lagos de datos no estén aislados de otros orígenes de datos corporativos.

  • Catálogo de datos

    Oracle Cloud Infrastructure Data Catalog es una solución de descubrimiento y gobernanza de datos de autoservicio totalmente gestionada para los datos de su empresa. Los catálogos de datos son esenciales para que una organización pueda buscar y buscar datos para analizar. Ayudan a los profesionales de datos a descubrir datos y respaldar la gobernanza de datos.

    Utilice Data Catalog como un entorno único colaborativo para gestionar metadatos técnicos, de negocio y operativos. Puede recopilar metadatos técnicos de una amplia gama de orígenes de datos soportados a los que se pueda acceder mediante direcciones IP públicas o privadas. Puede organizar, buscar, acceder, comprender, enriquecer y activar estos metadatos. Utilice la recogida automática bajo demanda o según programación para garantizar que el catálogo de datos siempre tenga información actualizada. Se beneficia de toda la seguridad, fiabilidad, rendimiento y escala de Oracle Cloud.

  • Flujo de Datos

    Oracle Cloud Infrastructure Data Flow es un servicio totalmente gestionado para ejecutar aplicaciones Apache Spark. Las aplicaciones de Data Flow son plantillas reutilizables que están formadas por una aplicación Spark, sus dependencias, los parámetros por defecto y una especificación de recurso de tiempo de ejecución por defecto. Puede gestionar todos los aspectos de Data Flow y el ciclo de vida de desarrollo de aplicaciones, realizar un seguimiento y ejecutar trabajos de Apache Spark mediante las API de REST a través del gateway de API y las funciones disponibles.

    Data Flow soporta la entrega rápida de aplicaciones al permitir a los desarrolladores centrarse en su desarrollo de aplicaciones. Proporciona gestión de logs y un entorno de tiempo de ejecución para ejecutar aplicaciones. Puede integrar las aplicaciones y los flujos de trabajo, así como acceder a las API mediante la interfaz de usuario. Elimina la necesidad de configurar la infraestructura, el aprovisionamiento de clusters, la instalación de software, el almacenamiento y la seguridad.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse es un servicio de base de datos de autogestión, autoprotección y autorreparación que se optimiza para las cargas de trabajo de almacenes de datos. No es necesario configurar ni gestionar ningún hardware, o instalar ningún software. Oracle Cloud Infrastructure gestiona la creación de la base de datos, así como la copia de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos.

  • Integración de datos

    La integración de datos de Oracle Cloud Infrastructure es un servicio en la nube sin servidor y totalmente gestionado para ingerir y transformar datos para ciencia y análisis de datos. Integración de datos ayuda a simplificar los procesos complejos de extracción, transformación y carga de datos (ETL/E-LT) en data lakes y almacenes para la ciencia y la analítica de datos con el diseñador de Data Flow de Oracle. Proporciona protección automatizada de deriva de esquemas con un flujo de integración basado en reglas que le ayuda a evitar flujos de integración rotos y a reducir el mantenimiento a medida que evolucionan los esquemas de datos.

  • Data Science

    Oracle Cloud Infrastructure Data Science es una plataforma totalmente gestionada y sin servidor que permite a los científicos de datos crear, entrenar y gestionar modelos de aprendizaje automático en Oracle Cloud Infrastructure. Los científicos de datos pueden utilizar la biblioteca de Oracle Accelerated Data Science (ADS) mejorada por Oracle para el aprendizaje automático (AutoML), la evaluación de modelos y la explicación del modelo.

    ADS es una biblioteca Python que contiene un conjunto completo de conexiones de datos, que permite a los científicos de datos acceder y utilizar datos de diferentes almacenes de datos para producir mejores modelos. La biblioteca ADS admite el propio AutoML de Oracle, así como herramientas de código abierto como H2O.ai y Auto-Sklearn.

    Los científicos de datos y los administradores de infraestructura pueden desplegar fácilmente modelos de ciencia de datos como Oracle Functions, una arquitectura muy escalable, on-demand y sin servidor en OCI. Los miembros del equipo pueden utilizar el catálogo de modelos para preservar y compartir los modelos de aprendizaje automático completados y los artefactos necesarios para reproducirlos, probarlos y desplegarlos.

Acerca de los data laakes

Un data lake es un repositorio ampliable y centralizado que puede almacenar datos sin formato y permite a una empresa almacenar todos sus datos en un entorno flexible y rentable. Un data lake proporciona un mecanismo de almacenamiento flexible para almacenar datos raw. Para que un data lake sea eficaz, una organización debe examinar sus necesidades de gobernanza específicas, flujos de trabajo y herramientas. La base de estos elementos principales crea un potente data lake que se integra perfectamente en arquitecturas existentes y conecta fácilmente datos a los usuarios.

Las organizaciones consideran estos motivos mientras se trasladan a implementaciones en la nube de data lake:
  • Aceleración de la toma de decisiones mediante el análisis y el aprendizaje automático
  • Recopilación y minería de big data para científicos, analistas y desarrolladores de datos.

Para que los datos no estructurados almacenados en un data lake sean útiles, debe procesar y prepararlos para el análisis. Esto suele ser difícil si no dispone de amplios recursos de ingeniería de datos.

A continuación, se enumeran los desafíos técnicos que supone mantener lagos de datos locales.

  • Costes iniciales y falta de flexibilidad: cuando las organizaciones crean su propia infraestructura local, deben planificar, adquirir y gestionar la infraestructura de hardware, poner en marcha los servidores y, además, hacer frente a las interrupciones y el tiempo de inactividad.
  • Costes de mantenimiento continuo: cuando se utiliza un data lake local, en su mayoría manifestado en costos de TI e ingeniería, las organizaciones deben tener en cuenta los costos de mantenimiento continuos. Esto también incluye los costos de la aplicación de parches, el mantenimiento, la actualización y el soporte de la infraestructura subyacente de hardware y software.
  • Falta de agilidad y tareas administrativas: las organizaciones de TI deben aprovisionar recursos, gestionar cargas de trabajo desiguales a gran escala y seguir el ritmo de innovación de software de código abierto, basada en la comunidad y en constante cambio.
  • Complejidad de creación de pipelines de datos: los ingenieros de datos deben abordar la complejidad de integrar una amplia gama de herramientas para ingerir, organizar, preprocesar, orquestar trabajos de ETL por lotes y consultar los datos almacenados en el lago.
  • Escalabilidad y utilización de recursos subóptima: a medida que crece la base de usuarios, su organización debe gestionar manualmente el uso de recursos y crear servidores adicionales para escalar verticalmente bajo demanda. La mayoría de los despliegues locales de Hadoop y Spark vinculan directamente los recursos informáticos y de almacenamiento a los mismos servidores creando un modelo inflexible.

A continuación, se enumeran las ventajas empresariales de trasladar los data lakes a la nube.

  • Menos costes de ingeniería y servicios gestionados: cree pipelines de datos preintegrados de forma más eficiente con herramientas basadas en la nube y reduzca los costes de ingeniería de datos. Transfiera la gestión de ampliación a su proveedor en la nube mediante servicios en la nube como Object Storage y Autonomous Data Warehouse (ADW) que proporcionan una ampliación transparente. No es necesario agregar máquinas ni gestionar clusters en lagos de datos basados en la nube.
  • Aproveche la infraestructura ágil y las tecnologías más recientes: diseñe su data lake para nuevos casos de uso con nuestra infraestructura en la nube flexible, ágil y on-demand. Puede actualizar rápidamente a la última tecnología y agregar nuevos servicios en la nube a medida que estén disponibles, sin rediseñar la arquitectura.