Desarrollo de aplicaciones modernas - Big data y análisis

Big data es un conjunto de capacidades y patrones que permiten gestionar, recopilar, almacenar, catalogar, preparar, procesar y analizar todos los tipos de datos (no estructurados, semiestructurados y estructurados) tanto si proceden de orígenes como bases de datos, vídeos, formularios, documentos, archivos log, páginas web o imágenes. Las capacidades de big data de Oracle abarcan diversos servicios y herramientas para que pueda comenzar su transición a big data en función de sus habilidades y preferencias.

Principios de diseño

Al implementar un patrón de análisis y big data, utilice los siguientes principios de diseño para el desarrollo de aplicaciones modernas.

  • Utilice servicios totalmente gestionados para eliminar la complejidad del desarrollo de aplicaciones, los tiempos de ejecución y la gestión de datos

    Sus datos son tan valiosos como su capacidad para utilizarlos. Las herramientas de big data son populares en la comunidad de código abierto, y la mayoría de sus capacidades se adoptaron de forma local mediante proyectos de código abierto como Hadoop, Spark y Hive.

    Utilice Oracle Big Data Service, que ofrece todos los componentes de Hadoop de código abierto más conocidos como servicio gestionado en Oracle Cloud. Para aplicaciones Spark, utilice Oracle Cloud Infrastructure Data Flow, que ofrece una plataforma Spark nativa en la nube, sin servidor y totalmente gestionada. El uso de estos servicios garantiza que pueda aprovechar las últimas innovaciones en la comunidad de código abierto y las habilidades existentes de su equipo sin preocuparse por el bloqueo del proveedor. Continúe utilizando la velocidad y el valor del código abierto con las capacidades de alto nivel nativas de Oracle, como las tablas externas de Oracle Autonomous Data Warehouse y Oracle Cloud SQL.

    El despliegue y el funcionamiento de servicios de big data, especialmente componentes de código abierto, pueden tener un impacto exponencial en los gastos operativos (OpEx). Empiece con nuestras ofertas de Hadoop gestionadas o servicios de PaaS como Data Flow antes de adoptar un enfoque DIY (hágalo usted mismo). A menudo, los servicios de código abierto gestionados son mucho menos costosos con el tiempo a la hora de factorizar en OpEx.

  • Automatización de la creación, la prueba y el despliegue

    DataOps es importante para garantizar que puede obtener el máximo beneficio de los pipelines de big data. Utilice el servicio Integración de datos de Oracle Cloud Infrastructure para ingerir datos, implantar el procesamiento de ETL y el ajuste de ELT, y cree pipelines para conectar tareas en una secuencia o en paralelo para facilitar un proceso. Los pipelines pueden incluir varios orígenes de datos populares dentro y fuera de Oracle Cloud. Utilice las capacidades de programación de Integración de datos para definir cuándo y con qué frecuencia se debe ejecutar cada tarea. Para los data lakes basados en Hadoop Distributed File System (HDFS) en Big Data Service, utilice herramientas como Oozie y Airflow para organizar los pipelines de datos de extremo a extremo. Utilice Oracle Database Cloud Service Management para definir los trabajos de base de datos que se ejecutan en un juego de bases de datos según un programa.

  • Utilice bases de datos convergentes con soporte completo en todos los datos

    Utilice las mejores herramientas que pueden simplificar, automatizar y acelerar la consolidación de datos para su uso con el máximo valor empresarial. Al crear data lakes para Oracle Cloud Infrastructure Data Science con datos no estructurados, semiestructurados y estructurados, utilice el servicio Object Storage para su data lake. Para aprovechar HDFS y herramientas de Hadoop de código abierto, utilice el Servicio de Big Data para crear su data lake. Para almacenes de datos, data marts departamentales y capas de servicio y presentación con datos estructurados, utilice Autonomous Data Warehouse, que está optimizado para estos escenarios. Autonomous Data Warehouse también proporciona conectividad con herramientas de análisis, inteligencia empresarial e informes como Oracle Analytics Cloud.

  • Seguimiento y supervisión integral del instrumento

    Las aplicaciones de big data suelen incluir varios servicios propiedad de diferentes equipos de negocio y aplicaciones. Las herramientas de observación son importantes para obtener visibilidad del comportamiento de estos sistemas distribuidos de manera inherente.

    Controle el estado operativo de los pipelines de datos integrales al tener todas sus cargas de trabajo que emiten métricas de estado a Oracle Cloud Infrastructure Monitoring. Defina umbrales de métrica personalizados para alarmas y reciba notificaciones o realice acciones cuando se alcance un umbral determinado. Utilice el registro de OCI para todos los logs del servicio OCI en su arrendamiento y los logs personalizados que envíe desde las aplicaciones de datos. Para solucionar problemas y optimizar el rendimiento, utilice OCI Database Management para Autonomous Data Warehouse con el fin de ver el estado de la base de datos, la media de sesiones activas, alarmas, uso de CPU, uso de almacenamiento, diagnóstico de flota y ajuste.

  • Implantar un enfoque de defensa en profundidad para garantizar el ciclo de vida de la aplicación

    Planifique mantener los datos seguros. Realice un seguimiento de todos los trabajos que incorporan datos y sacan datos de su data lake, conserve los metadatos del linaje de datos y asegúrese de que se actualicen las políticas de control de acceso. Utilice Data Catalog para ayudar con la gobernanza.

    Siga el principio de privilegio mínimo y asegúrese de que los usuarios y las cuentas de servicio solo tengan el privilegio mínimo necesario para realizar sus tareas. Controle quién tiene acceso a los componentes de la plataforma de datos mediante Oracle Cloud Infrastructure Identity and Access Management. Utilice la autenticación multifactor en Oracle Cloud Infrastructure Identity and Access Management para aplicar una autenticación compleja para los administradores. Almacene información confidencial, como contraseñas y tokens de autenticación, en el servicio Oracle Cloud Infrastructure Vault.

    Para Big Data Service, configure solo las reglas de seguridad necesarias para controlar la red y utilice Apache Ranger para gestionar la seguridad de los datos en el cluster de Hadoop. Utilice Oracle Data Safe para proteger sus datos en Autonomous Data Warehouse. Utilice contraseñas seguras para sus bases de datos. Cree recursos de base de datos en subredes privadas y utilice grupos de seguridad o listas de seguridad de red virtual en la nube (VCN) para aplicar el control de acceso de red a las instancias de base de datos. Proporcione permisos de supresión de base de datos a un número mínimo posible de usuarios y grupos de Oracle Cloud Infrastructure Identity and Access Management.

    Para proteger sus orígenes de datos contra cualquier vulnerabilidad de seguridad, proporcione credenciales a las cuentas de solo lectura solo para los servicios de Data Catalog e Data Integration.

Arquitectura

Puede utilizar las siguientes opciones de tecnología y arquitectura con opinión para implantar los principios de diseño. Los servicios de análisis y datos de Oracle Cloud Infrastructure (OCI) le permiten ingerir, almacenar, catalogar, preparar, procesar y analizar big data.
A continuación, se muestra la descripción de big-data-and-analytics.png
Descripción de la ilustración big-data-and-analytics.png

Esta arquitectura utiliza los siguientes orígenes de datos:

  • Aplicaciones de Empresa
  • Dispositivos
  • Usuario final
  • Eventos
  • Sensores
  • Cualquier activo digital

Esta arquitectura tiene los siguientes componentes en la VCN:

  • Red virtual en la nube (VCN)

    Una VCN es una red personalizable y definida por software que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes del centro de datos tradicionales, las VCN le proporcionan un control total de su entorno de red. Una VCN puede tener varios bloques CIDR no solapados que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, que se pueden acotar a una región o a un dominio de disponibilidad. Cada subred consta de un rango de direcciones contiguas que no se solapan con las otras subredes de VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

  • Integración de datos

    La integración de datos de Oracle Cloud Infrastructure es un servicio en la nube sin servidor totalmente gestionado que ingiere y transforma datos para la ciencia y los análisis de datos. Ayuda a simplificar ETL y ELT complejos en lagos y almacenes de datos con el moderno diseñador de flujos de datos sin código de Oracle. Puede utilizar uno de los operadores listos para usar como una unión, agregación o expresión para dar forma a los datos.

  • Flujo

    El servicio Oracle Cloud Infrastructure Streaming proporciona una solución duradera, ampliable y totalmente gestionada para la ingestión y el consumo de flujos de datos de gran volumen en tiempo real. Utilice Streaming para cualquier caso de uso en el que los datos se produzcan y procesen de forma continua y secuencial en un modelo de mensajería de publicación-suscripción. Por ejemplo, mensajería, ingestión de métricas y logs, ingestión de datos de actividad web o móvil, y procesamiento de eventos de infraestructura y aplicaciones.

  • Oracle Big Data Service

    Oracle Big Data Service es un servicio en la nube totalmente gestionado y automatizado que proporciona a los clusters un entorno de Hadoop. Big Data Service facilita a los clientes el despliegue de clústeres de Hadoop de todos los tamaños y simplifica el proceso de creación de clústeres de Hadoop tanto de alta disponibilidad como de seguridad.

  • Oracle Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse es un servicio de base de datos de autogestión, autoprotección y autorreparación que se optimiza para las cargas de trabajo de almacenes de datos. No es necesario configurar ni gestionar ningún hardware, o instalar ningún software. Oracle Cloud Infrastructure gestiona la creación de la base de datos, así como la copia de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos.

  • Object Storage

    El almacenamiento de objetos proporciona acceso rápido a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad de bases de datos, datos analíticos y contenido enriquecido, como imágenes y vídeos. Puede almacenar y, a continuación, recuperar los datos de manera segura directamente desde Internet o desde la plataforma en la nube. Puede escalar el almacenamiento sin problemas sin experimentar ninguna degradación en el rendimiento o la fiabilidad del servicio. Utilice el almacenamiento estándar para el almacenamiento "caliente" al que necesita acceder de forma rápida, inmediata y frecuente. Utilice el almacenamiento de archivos para el almacenamiento "en frío" que conserva durante largos períodos de tiempo y que rara vez tiene acceso.

  • Flujo de Datos

    Oracle Cloud Infrastructure Data Flow es una plataforma de análisis de Spark a nivel de PaaS totalmente gestionada que permite crear, editar y ejecutar trabajos de Spark a cualquier escala sin necesidad de disponer de clusters, de un equipo de operaciones o de conocimientos de Spark altamente especializados. Puesto que no tiene servidor, no hay infraestructura que desplegar ni gestionar. Las API de REST lo controlan completamente, lo que permite una integración sencilla con aplicaciones o flujos de trabajo.

  • Oracle Analytics Cloud

    Esta mejor plataforma de su clase para la analítica moderna en la nube potencia a los analistas y consumidores empresariales. Oracle Analytics Cloud ofrece modernas capacidades de análisis de autoservicio basadas en inteligencia artificial para la preparación, el descubrimiento y la visualización de datos; la empresa inteligente y la generación de informes on-demand junto con análisis aumentados; y el procesamiento y la generación de lenguaje natural. Tanto si es un analista empresarial, ingeniero de datos, ciudadano, jefe de departamento, experto en dominio o ejecutivo, Oracle Analytics Cloud puede ayudarle a convertir los datos en información clave.

  • Análisis, AA y aplicaciones personalizadas

    Servicios de analítica, Oracle Machine Learning y aplicaciones personalizadas que catalogarán, prepararán, procesarán y analizarán big data.

  • Catálogo de datos

    Oracle Cloud Infrastructure Data Catalog es una solución de descubrimiento y gobernanza de datos de autoservicio totalmente gestionada para los datos de su empresa. Proporciona a ingenieros de datos, científicos de datos, administradores de datos y directores de datos un único entorno de colaboración para gestionar los metadatos técnicos, empresariales y operativos de la organización.

Con este patrón de arquitectura, puede gestionar todos los tipos de datos no estructurados, semiestructurados y no estructurados con un patrón de casa moderno de data lake. Llevar a cabo la ingestión de todos los tipos de datos en un data lake basado en Object Storage mediante los servicios de integración de datos y Streaming. Utilice Oracle Cloud Infrastructure Data Flow y Oracle Big Data Service para el procesamiento, utilice Oracle Cloud Infrastructure Data Catalog para catalogar, utilice Oracle Autonomous Data Warehouse como tienda de servicios y utilice Oracle Analytics Cloud para análisis e inteligencia empresarial.

El siguiente proceso describe el flujo que se muestra en el diagrama:

  • Integración de datos de Oracle Cloud Infrastructure y Oracle Cloud Infrastructure Streaming de datos de ingestión procedentes de diferentes tipos de orígenes. El servicio que se utiliza depende de si los datos son registros de base de datos por lotes, de transmisión o sincronizados, y de si los datos son locales o en la nube.
  • Los datos se pueden entregar a Object Storage para un acceso compartido por servicios en la nube y para su procesamiento antes de que se almacenen en Oracle Autonomous Data Warehouse o Big Data Service.
  • Los datos también se pueden entregar directamente a Oracle Autonomous Data Warehouse y, a continuación, transformarse mediante capacidades de ELT, o bien los registros de otras bases de datos se pueden ingerir directamente. Los datos también se pueden entregar directamente tal cual a Servicio de Big Data.
  • Oracle Autonomous Data Warehouse puede consultar datos de Object Storage o ingerir datos de Object Storage a través de una API o con la ayuda de Data Integration. Big Data Service puede ingerir datos de Object Storage o consultarlos.
  • Oracle Analytics Cloud puede acceder a los datos de Oracle Autonomous Data Warehouse para cualquiera de las capacidades de visualización y análisis empresarial que proporciona el servicio.
  • Oracle Cloud Infrastructure Data Catalog utiliza metadatos de orígenes de datos de Oracle Autonomous Data Warehouse, Object Storage y Big Data Service Hive. Puede interactuar con Data Catalog para recopilar, buscar y gestionar los datos.
  • Puede implantar cualquier aplicación personalizada para cargas de trabajo de análisis y aprendizaje automático utilizando datos de Oracle Autonomous Data Warehouse, Big Data Service y Object Storage.
  • Los analistas empresariales pueden utilizar Oracle Analytics Cloud para consumir datos de Oracle Autonomous Data Warehouse y Big Data Service.
  • Los científicos de datos pueden utilizar Oracle Machine Learning Notebooks en Oracle Autonomous Data Warehouse y Oracle Machine Learning para Spark en Oracle Big Data Service para entrenar modelos de aprendizaje automático y trabajar con datos espaciales y gráficos.

Arquitecturas alternativas

Considere las alternativas a la arquitectura descrita en este patrón.

Utilice una sola base de datos o almacén de datos para almacenar y analizar todos los tipos de datos. En esta arquitectura alternativa, varios orígenes de datos (usuarios, dispositivos, eventos, sensores y aplicaciones finales) alimentan datos a la base de datos a través de la integración de datos (Oracle GoldenGate) y las colas de eventos transaccionales de Oracle para datos de transmisión. Los datos se almacenan en Oracle Autonomous Database (Oracle Autonomous Transaction Processing y Oracle Autonomous Data Warehouse) junto con soporte del almacén de objetos para big data mediante Cloud SQL. Utilice Oracle Machine Learning para la creación y el despliegue de modelos, y utilice Oracle Analytics Cloud y Oracle Data Cloud para obtener información sobre los datos.

El siguiente diagrama ilustra esta arquitectura alternativa.

A continuación se muestra la descripción de alt-architecture-big-data.png
Descripción de la ilustración alt-architecture-big-data.png

Esta arquitectura utiliza los siguientes orígenes de datos:

  • Aplicaciones de Empresa
  • Dispositivos
  • Usuario final
  • Eventos
  • Sensores
  • Cualquier activo digital

Esta arquitectura tiene los siguientes componentes en la VCN:

  • Red virtual en la nube (VCN)

    Una VCN es una red personalizable y definida por software que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes del centro de datos tradicionales, las VCN le proporcionan un control total de su entorno de red. Una VCN puede tener varios bloques CIDR no solapados que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, que se pueden acotar a una región o a un dominio de disponibilidad. Cada subred consta de un rango de direcciones contiguas que no se solapan con las otras subredes de VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

  • Integración de datos

    La integración de datos de Oracle Cloud Infrastructure es un servicio en la nube sin servidor totalmente gestionado que ingiere y transforma datos para la ciencia y los análisis de datos. Ayuda a simplificar ETL y ELT complejos en lagos y almacenes de datos con el moderno diseñador de flujos de datos sin código de Oracle. Puede utilizar uno de los operadores listos para usar como una unión, agregación o expresión para dar forma a los datos.

  • Colas de eventos transaccionales (TEQ) de Oracle Cloud Infrastructure en ADB

    Las colas de eventos transaccionales de Oracle en una base de datos autónoma proporcionan la funcionalidad de colas de mensajes integrada en la base de datos. Esta implantación muy optimizada y particionada aprovecha las funciones de la base de datos Oracle para que los productores y consumidores puedan intercambiar mensajes con alto rendimiento, almacenando mensajes de forma persistente y propagando mensajes entre colas en diferentes bases de datos. Las colas de eventos transaccionales de Oracle son una implantación particionada de alto rendimiento con varios flujos de eventos por cola

  • Oracle Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse es un servicio de base de datos de autogestión, autoprotección y autorreparación que se optimiza para las cargas de trabajo de almacenes de datos. No es necesario configurar ni gestionar ningún hardware, o instalar ningún software. Oracle Cloud Infrastructure gestiona la creación de la base de datos, así como la copia de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos.

    Este servicio de almacén de datos en la nube elimina todas las complejidades que entraña operar un almacén de datos, proteger los datos y desarrollar aplicaciones basadas en datos. Automatiza el aprovisionamiento, la configuración, la protección, el ajuste, la ampliación y la realización de copias de seguridad del almacén de datos. Incluye herramientas para la carga de datos de autoservicio, transformaciones de datos, modelos de negocio, estadísticas automáticas y capacidades de base de datos convergente integradas que permiten consultas más sencillas en varios tipos de datos y análisis de aprendizaje automático.

  • Object Storage

    El almacenamiento de objetos proporciona acceso rápido a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad de bases de datos, datos analíticos y contenido enriquecido, como imágenes y vídeos. Puede almacenar y, a continuación, recuperar los datos de manera segura directamente desde Internet o desde la plataforma en la nube. Puede escalar el almacenamiento sin problemas sin experimentar ninguna degradación en el rendimiento o la fiabilidad del servicio. Utilice el almacenamiento estándar para el almacenamiento "caliente" al que necesita acceder de forma rápida, inmediata y frecuente. Utilice el almacenamiento de archivos para el almacenamiento "en frío" que conserva durante largos períodos de tiempo y que rara vez tiene acceso.

    Esta plataforma de almacenamiento en Internet de alto rendimiento ofrece durabilidad de datos fiable y rentable. El servicio Object Storage puede almacenar una cantidad ilimitada de datos no estructurados de cualquier tipo de contenido, incluidos los datos analíticos y el contenido enriquecido, como imágenes y vídeos.

  • Base de datos autónoma

    Las bases de datos autónomas de Oracle Cloud Infrastructure son entornos de base de datos totalmente gestionados y preconfigurados que puede utilizar para el procesamiento de transacciones y las cargas de trabajo de almacenamiento de datos. No es necesario configurar ni gestionar ningún hardware, o instalar ningún software. Oracle Cloud Infrastructure gestiona la creación de la base de datos, así como la copia de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos.

  • Oracle Machine Learning en una base de datos autónoma

    Oracle Machine Learning de Oracle Autonomous Database (Autonomous Transaction Processing y Autonomous Data Warehouse).

  • Oracle Analytics Cloud

    Esta mejor plataforma de su clase para la analítica moderna en la nube potencia a los analistas y consumidores empresariales. Oracle Analytics Cloud ofrece modernas capacidades de análisis de autoservicio basadas en inteligencia artificial para la preparación, el descubrimiento y la visualización de datos; la empresa inteligente y la generación de informes on-demand junto con análisis aumentados; y el procesamiento y la generación de lenguaje natural. Tanto si es un analista empresarial, ingeniero de datos, ciudadano, jefe de departamento, experto en dominio o ejecutivo, Oracle Analytics Cloud puede ayudarle a convertir los datos en información clave.

  • Análisis, AA y aplicaciones personalizadas

    Servicios de analítica, Oracle Machine Learning y aplicaciones personalizadas que catalogarán, prepararán, procesarán y analizarán big data.

  • Catálogo de datos

    Oracle Cloud Infrastructure Data Catalog es una solución de descubrimiento y gobernanza de datos de autoservicio totalmente gestionada para los datos de su empresa. Proporciona a ingenieros de datos, científicos de datos, administradores de datos y directores de datos un único entorno de colaboración para gestionar los metadatos técnicos, empresariales y operativos de la organización.

    Oracle Cloud Infrastructure Data Catalog es un servicio de gestión de metadatos que ayuda a los profesionales de datos a detectar datos y soportar la gobernanza de datos.

  • Oracle GoldenGate

    Este servicio totalmente gestionado ofrece una plataforma de software de replicación y captura de datos de cambios (CDC) en tiempo real basada en log para satisfacer las necesidades de las aplicaciones actuales basadas en transacciones. El software proporciona captura, enrutamiento, transformación y entrega de datos transaccionales en entornos heterogéneos en tiempo real.

Una alternativa es crear y ejecutar sus propias plataformas de código abierto en Oracle Cloud Infrastructure Compute. Sin embargo, esta opción puede dar como resultado OpEx alto.

Consideraciones y antipatrones

Tenga en cuenta lo siguiente para big data y la analítica.

  • Reducción del movimiento y las copias de datos

    El movimiento de datos es costoso, consume recursos y tiempo, y puede reducir la fidelidad de los datos. Elija el servicio adecuado para almacenar y procesar sus datos, según los tipos de datos, la calidad de los datos y las transformaciones necesarias. Utilice Object Storage para su almacenamiento en el data lake para todos los tipos de datos raw. Utilice Oracle Big Data Service para aprovechar las herramientas del ecosistema HDFS y Hadoop. Utilice Oracle Autonomous Data Warehouse para almacenar datos transformados para su presentación. El uso del almacén derecho le ayuda a evitar copiar y mover datos y reducir las copias duplicadas de los datos, que pueden ser difíciles de mantener y mantener sincronizadas.

  • Proporcionar a los usuarios la interfaz de datos que necesitan

    Las plataformas analíticas y de datos empresariales tienen muchos tipos de usuarios: ingenieros de datos, analistas de datos, desarrolladores de aplicaciones, ingenieros de big data, administradores de bases de datos, analistas de negocios, científicos de datos, administradores de datos y otros consumidores. Todos ellos tienen necesidades y preferencias diferentes para consumir datos. Es importante conocer todos los casos de uso y los requisitos del consumidor de datos. Para las herramientas del ecosistema de Hadoop, utilice Big Data. Para consultas SQL e interfaz con herramientas de inteligencia empresarial, utilice Autonomous Data Warehouse. Para aplicaciones Spark, utilice el servicio Oracle Cloud Infrastructure Data Flow.

  • Cataloge los activos de datos y establezca un vocabulario común

    Los datos de las empresas suelen ser un activo compartido entre varios equipos. Utilice Data Catalog para recopilar metadatos de orígenes de datos en OCI y locales para crear un inventario de activos de datos. Esto ayuda a los consumidores de datos a encontrar fácilmente los datos que necesitan para realizar análisis. Utilice Data Catalog para crear y gestionar glosarios empresariales con categorías, subcategorías y términos de negocio con el fin de crear una taxonomía de conceptos de negocio con etiquetas agregadas por el usuario para aumentar la productividad de la búsqueda.

  • Tenga en cuenta los costos y el rendimiento

    Los costes de las plataformas de datos y análisis pueden aumentar rápidamente a menos que las plataformas estén diseñadas y funcionen correctamente. Todos los datos tienen determinados requisitos de rendimiento relacionados con la latencia y el rendimiento. Ajuste el tamaño de sus entornos con la unidad de computación más pequeña y la menor cantidad de almacenamiento del servicio que aún cumple los requisitos de rendimiento. Termine los recursos no utilizados. Utilice Data Flow para aplicaciones Spark porque puede elegir el número de núcleos que se utilizarán para su trabajo, lo que le proporciona el rendimiento que necesita al tiempo que minimiza los costos. Para Autonomous Data Warehouse, amplíe el número de núcleos de CPU o la capacidad de almacenamiento de la base de datos según sus necesidades. También utilice su función de escala automática, que permite a la base de datos usar automáticamente hasta tres veces el número base actual de núcleos de CPU en cualquier momento y reduce automáticamente el número de núcleos cuando no es necesario.

Antipatrones

Al diseñar una implantación, tenga en cuenta lo siguiente:

  • La falta de control y de catalogación de datos puede convertir lagos de datos en pantanos de datos.
  • El almacenamiento de datos de data lake en volúmenes en bloque en lugar de almacenamiento de objetos conduce a una solución de mayor costo.

Patrón de big data y análisis

Este patrón de arquitectura proporciona orientación sobre cómo utilizar los servicios de análisis y datos de Oracle Cloud Infrastructure (OCI) para ingerir, almacenar, catalogar, preparar, procesar y analizar big data para implantar varios casos de uso.

Estos casos de uso incluyen almacenamiento de datos; análisis, inteligencia empresarial e informes; extracción, transformación y carga (ETL) y patrones de extracción, carga y transformación (ELT); patrones de lago de datos y casas de lago; y formación de modelos de aprendizaje automático.

En el siguiente diagrama se muestran los servicios de Oracle relacionados con datos y análisis.

A continuación, se muestra la descripción de big-data-and-analytics-pattern.png
Descripción de la ilustración big-data-and-analytics-pattern.png
  • Utilice Oracle Autonomous Data Warehouse para escribir consultas SQL para datos estructurados, así como sobre tablas externas de datos no estructurados y semiestructurados.
  • Utilice Oracle Big Data Service para utilizar las herramientas del ecosistema Apache Hadoop como Hive, Spark, Kafka y HBase para ingerir, almacenar y procesar todo tipo de datos no estructurados y semiestructurados.
  • Utilice Oracle Cloud Infrastructure Object Storage para almacenar big data y crear lagos de datos para todos los tipos de datos.
  • Utilice Oracle Cloud Infrastructure Data Flow para los trabajos nativos de Apache Spark.
  • Utilice Integración de datos de Oracle Cloud Infrastructure para ingerir datos de distintos orígenes de datos, además de simplificar el procesamiento de ETL (extracción, transformación y carga) y ELT (extracción, carga y transformación).
  • Utilice el catálogo de datos de Oracle Cloud Infrastructure para recopilar metadatos de varios orígenes de datos para crear un inventario de activos, un glosario de negocio y un meastore común para data lakes.
  • Utilice la transmisión para asimilar flujos de datos en tiempo real con API compatibles con Kafka.

Ejemplo de casos de uso:

A continuación, se muestran ejemplos de implantaciones que utilizan los servicios de análisis y datos de Oracle Cloud Infrastructure (OCI) para ingerir, almacenar, catalogar, preparar, procesar y analizar big data.

  • Data Warehousing y análisis de negocio

    Utilice Oracle Autonomous Data Warehouse como almacén de datos o data mart con Oracle Analytics Cloud.

    • La integración de datos ingiere datos de los orígenes deseados. El tipo de integración de datos utilizado depende de si los datos son registros de base de datos por lotes, de transmisión o sincronizados, y de si los datos son locales o en la nube.
    • Los datos se pueden entregar a Object Storage para un acceso compartido por servicios en la nube y para su procesamiento antes de que se almacenen en Autonomous Data Warehouse o Big Data. Los datos también se pueden entregar directamente a Autonomous Data Warehouse y, a continuación, transformarse mediante funciones de ELT, o se pueden ingerir directamente registros de otras bases de datos.
    • Oracle Analytics Cloud proporciona visualización de datos en la base de datos, incluidos los resultados de aprendizaje automático. Oracle Analytics Cloud aplica todo el procesamiento posible a Autonomous Data Warehouse para el procesamiento del flujo de datos.
    • Object Storage es opcional para el archivo activo o el uso compartido de datos. Un archivo activo es donde los datos que se utilizan con menos frecuencia se trasladan de ADW a un nivel de almacenamiento de menor costo (Object Storage). Los datos se pueden consultar desde Object Storage, pero el rendimiento es más lento. El almacenamiento de objetos también se puede utilizar para almacenar datos compartidos entre servicios en la nube.
    • Oracle Cloud Infrastructure Data Catalog utiliza metadatos de orígenes de datos de Autonomous Data Warehouse y Object Storage. Puede interactuar con Data Catalog para utilizar y gestionar el catálogo.
  • Gestionar todos los tipos de datos con un lago de datos y un almacén de datos para un patrón de casa de lago

    Gestione datos de Autonomous Data Warehouse y de Big Data y utilice Oracle Analytics Cloud para la visualización de los datos.

    • La integración de datos ingiere datos de los orígenes deseados. El tipo de integración de datos utilizado depende de si los datos son registros de base de datos por lotes, de transmisión o sincronizados, y de si los datos son locales o en la nube.
    • Los datos se pueden entregar a Object Storage para un acceso compartido por servicios en la nube y para su procesamiento antes de que se almacenen en Autonomous Data Warehouse u Oracle Big Data Service. Los datos también se pueden entregar directamente a Autonomous Data Warehouse y, a continuación, transformarse mediante funciones de ELT, o se pueden ingerir directamente registros de otras bases de datos. Los datos también se pueden entregar directamente tal cual a Big Data.
    • Autonomous Data Warehouse puede consultar datos de Object Storage o ingerir datos de Object Storage a través de una API o con la ayuda de Oracle Cloud Infrastructure Data Integration. Big Data puede ingerir datos o consultar datos en Object Storage.
    • Los datos se pueden transferir de Big Data a Autonomous Data Warehouse mediante los conectores de Big Data.
    • Oracle Analytics Cloud puede acceder a datos de varios orígenes, incluidos Autonomous Data Warehouse y Big Data, para ofrecer capacidades de análisis aumentados, visualizaciones de datos y análisis empresariales de autoservicio.
    • Los analistas empresariales pueden utilizar Oracle Analytics Cloud para consumir datos de Autonomous Data Warehouse y Big Data.
    • Data Catalog recopila metadatos de orígenes de datos de Autonomous Data Warehouse, Object Storage y Big Data Hive. Puede interactuar con Data Catalog para recopilar, buscar y gestionar los datos.
  • Cree un data lake con servicios en la nube OCI

    Cree un data lake en Object Storage y utilice los datos nativos en la nube y servicios de IA para modernizar y aprovechar las últimas innovaciones técnicas.

    • Utilice Flujo de datos para procesos por lotes de Spark y para clusters de Spark efímeros.
    • Utilice Object Storage con el conector del sistema de archivos distribuidos de Hadoop (HDFS) como almacén de HDFS, en lugar de HDFS en el cluster de Apache Hadoop o Spark.
    • Utilice Integración de datos de Oracle Cloud Infrastructure para ingerir datos y trabajos de ETL.
    • Utilice Oracle Cloud Infrastructure Data Catalog para la detección y el control de datos.
    • Utilice Oracle Cloud Infrastructure Data Science para los requisitos de aprendizaje automático.
    • Utilice Oracle Cloud Infrastructure Streaming para la ingestión gestionada de flujos y utilice Data Integration para un servicio de integración gestionado. Estos servicios podrían reemplazar Kafka o Flume autogestionados.
    • Para el resto de los componentes de la pila para los que no es fácil utilizar un servicio nativo de OCI gestionado, utilice el servicio de almacenamiento y Oracle Cloud Infrastructure Compute.
  • Cree un data lake basado en HDFS con Oracle Big Data Service

    Utilice Oracle Big Data Service para crear su data lake en HDFS. Todos los componentes de Apache Hadoop, incluidos Hive, HBase, Spark y Oozie, están disponibles con los clusters de Hadoop gestionados que proporciona Oracle Big Data Service y puede utilizarlos según sus requisitos. Utilice servicios gestionados nativos en la nube siempre que sea posible.

    • Utilice Big Data para HDFS y otros componentes de Hadoop, incluidos Hive, HBase y Oozie.
    • Se ha utilizado Data Flow para los procesos por lotes de Spark y para los clusters efímeros de Spark para reducir el tamaño del cluster de Big Data siempre que sea posible.
    • Utilice Data Catalog para la detección y el control de datos.
    • Utilice Data Science para los requisitos de aprendizaje automático.
  • Laboratorio de datos con Oracle Big Data Service

    Explore y pruebe con datos. Oracle Big Data Service proporciona las herramientas básicas de gestión de datos y ciencia de datos en este caso de uso.

    • Oracle Analytics Cloud proporciona capacidades adicionales para visualizar datos útiles para comprender los datos de origen y los resultados del aprendizaje automático.
    • El almacenamiento de objetos proporciona almacenamiento de bajo costo adicional para compartir datos con otros servicios en la nube y mantener datos en Oracle Big Data cuando se suspende el laboratorio de datos.
    • Data Integration se puede agregar para ingerir datos en Object Storage si es necesario.
    • Data Catalog almacena metadatos de Object Storage y Big Data Hive. Interactúa con Data Catalog para utilizar y gestionar el catálogo.
    • Los científicos de datos utilizan Oracle Machine Learning para Spark en Oracle Big Data a fin de crear modelos de aprendizaje automático.
  • Detección y control de datos de autoservicio con Oracle Cloud Infrastructure Data Catalog

    Data Catalog utiliza metadatos de diferentes tipos de orígenes de datos para crear un catálogo de entidades de datos y sus atributos. Los analistas empresariales, científicos de datos, ingenieros de datos y administradores de datos pueden buscar en el catálogo y crear un glosario de negocio para los atributos.

  • Procesamiento de Spark con Oracle Cloud Infrastructure Data Flow

    Los trabajos de Spark se envían a Data Flow. Cuando se ejecuta el trabajo, los datos se leen de Object Storage y se procesan según el código de trabajo, y el resultado se vuelve a escribir en Object Storage. Otros servicios pueden recuperar los resultados del almacenamiento de objetos según sea necesario.

  • Modelos de aprendizaje automático de formación directamente en Oracle Autonomous Data Warehouse y Oracle Big Data Service

    Consulte el modelo de aprendizaje automático basado en ciencia de datos para obtener más información sobre la formación de modelos de aprendizaje automático mediante Oracle Cloud Infrastructure Data Science. El objetivo de este caso de uso es gestionar datos tanto en Oracle Autonomous Data Warehouse como en Oracle Big Data Service. Oracle Analytics Cloud proporciona visualización de datos, incluidos los resultados de aprendizaje automático. La funcionalidad está limitada a las capacidades de Oracle Machine Learning.

    • Oracle Cloud Infrastructure Data Integration ingiere datos de orígenes deseados. El tipo de integración de datos utilizado depende de si los datos son registros de base de datos por lotes, de transmisión o sincronizados, y de si los datos son locales o en la nube.

    • Los datos se pueden entregar a Object Storage para un acceso compartido por servicios en la nube y para su procesamiento antes de que se almacenen en Oracle Autonomous Data Warehouse u Oracle Big Data Service. Los datos se pueden entregar directamente a Oracle Autonomous Data Warehouse y, a continuación, transformarse mediante funciones de ELT, o los registros de otras bases de datos se pueden ingerir directamente. Los datos también se pueden entregar directamente tal cual a Oracle Big Data Service.
    • Oracle Autonomous Data Warehouse puede consultar datos de Object Storage o ingerir datos de Object Storage a través de una API o con la ayuda de Data Integration. Oracle Big Data Service puede ingerir datos de Object Storage o consultarlos.
    • Los datos se pueden transferir de Oracle Big Data Service a Oracle Autonomous Data Warehouse mediante los conectores de Big Data.
    • Oracle Analytics Cloud puede acceder a datos de varios orígenes, incluidos Oracle Autonomous Data Warehouse y Oracle Big Data Service, para ofrecer capacidades de analítica aumentada, visualizaciones de datos y análisis empresarial de autoservicio.
    • Los analistas de negocio y los científicos de datos pueden utilizar Oracle Analytics Cloud para consumir datos de Oracle Autonomous Data Warehouse y Oracle Big Data Service.
    • Los científicos de datos pueden utilizar Oracle Machine Learning Notebooks en Oracle Autonomous Data Warehouse para crear modelos de aprendizaje automático y trabajar con datos espaciales. También pueden utilizar Oracle Machine Learning para Spark en Big Data para crear modelos de aprendizaje automático y trabajar con datos espaciales y gráficos.
    • Oracle Cloud Infrastructure Data Catalog utiliza metadatos de orígenes de datos de Oracle Autonomous Data Warehouse, Big Data Hive y Object Storage. Puede interactuar con Data Catalog para utilizar y gestionar el catálogo.