Plataforma de datos: almacén de datos con integración compleja

Los datos de aplicaciones empresariales a menudo se distribuyen en varios sistemas de toda la empresa y no se pueden integrar y analizar fácilmente para producir estadísticas útiles.

Esta arquitectura de referencia proporciona un marco para enriquecer los datos de las aplicaciones empresariales con datos raw de otras fuentes y para utilizar modelos de aprendizaje automático que permitan incorporar la inteligencia y las estadísticas predictivas a los procesos de negocio.

Esta arquitectura de referencia posiciona la solución tecnológica dentro del contexto de negocio general:



A medida que los departamentos consolidan los datos de varias fuentes en data marts para obtener estadísticas específicas, el almacén de datos empresarial debe cambiar y adaptarse para poder aprovechar los data marts disponibles y otros orígenes estructurados y no estructurados.

Los almacenes de datos separan la carga de trabajo de análisis de la carga de trabajo de transacciones y permiten a una organización consolidar datos de varios orígenes. Esto facilita la consulta y el análisis de datos históricos en un formato orientado al negocio que puede sobrevivir a los cambios en los sistemas transaccionales. Aprovechar los datos almacenados para el aprendizaje automático y el análisis predictivo es clave para incorporar la inteligencia a los procesos de negocio. Los procesos de negocio inteligentes ayudan a gestionar de forma proactiva los eventos de negocio esenciales, como la recomendación de los productos adecuados en el canal adecuado para los clientes adecuados o la detección de eventos potencialmente fraudulentos.

Arquitectura

Esta arquitectura recopila y combina datos de aplicaciones para el análisis y el aprendizaje automático con el fin de proporcionar estadísticas útiles.



oci-poliglo-arquitectura-oracle.zip

En el siguiente diagrama se muestra una asignación de la arquitectura anterior a los servicios proporcionados en Oracle Cloud Infrastructure (OCI) mediante las mejores prácticas.



oci-poliglo-physical-arch-oracle.zip

La arquitectura se centra en las siguientes divisiones lógicas:

  • Ingestión, transformación

    Ingiere y refina los datos para su uso en cada una de las capas de datos de la arquitectura.

  • Conservar, curar, crear

    Facilita el acceso y la navegación de los datos para mostrar la vista de negocio actual e histórica. Contiene datos sin procesar, así como datos curados granulares y agregados. Para las tecnologías relacionales, los datos pueden estar lógicos o físicamente estructurados en formas relacionales, longitudinales, dimensionales u OLAP simples. Para datos no relacionales, esta capa contiene una o más agrupaciones de datos, ya sea la salida de un proceso analítico o los datos optimizados para una tarea analítica específica.

  • Análisis, aprendizaje y previsión

    Resume la vista de negocio lógica de los datos para los consumidores. Esta abstracción facilita enfoques ágiles del desarrollo, la migración a la arquitectura de destino y el suministro de una única capa de informes de varios orígenes federados.

La arquitectura tiene los siguientes componentes:

  • Ingestión de lote

    La ingestión de lotes es útil para datos que no se pueden ingerir en tiempo real o que son demasiado costosos para adaptarse a la ingestión en tiempo real. También es importante para transformar los datos en información fiable y fiable que se pueda curar y mantener para su consumo regular. Puede utilizar los siguientes servicios de forma conjunta o independiente para lograr un flujo de trabajo de transformación e integración de datos altamente flexible y eficaz.

    • Oracle Cloud Infrastructure Data Integration es un servicio totalmente gestionado, sin servidor y nativo en la nube que extrae, carga, transforma, limpia y rediseña datos de una variedad de orígenes de datos a servicios de destino de Oracle Cloud Infrastructure, como Autonomous Data Warehouse y Oracle Cloud Infrastructure Object Storage. ETL (carga de transformación de extracción) aprovecha el procesamiento de ampliación totalmente gestionado en Spark, y ELT (transformación de carga de extracción) aprovecha las capacidades push-down de SQL completas de Autonomous Data Warehouse a fin de minimizar el movimiento de datos y mejorar el tiempo de rentabilidad de los datos recién ingeridos. Los usuarios diseñan procesos de integración de datos mediante una interfaz de usuario intuitiva y sin código que optimiza los flujos de integración para generar el motor y la orquestación más eficientes, asignando y ampliando automáticamente el entorno de ejecución. Oracle Cloud Infrastructure Data Integration proporciona exploración y preparación de datos interactivas y ayuda a los ingenieros de datos a protegerse contra el cambio de esquema mediante la definición de reglas para manejar los cambios de esquema.

    • Las transformaciones de datos de Oracle se basan en la herramienta de integración de Oracle Data Integrator (ODI) que se puede desplegar desde las acciones de base de datos de Oracle Autonomous Database (Data Studio). Proporciona una solución completamente unificada para la creación, el despliegue y la gestión de almacenes de datos complejos o como parte de las arquitecturas centradas en datos en un entorno SOA o de inteligencia empresarial. Además, combina todos los elementos de la integración, el movimiento, la sincronización, la calidad y la gestión de datos para garantizar que la información sea puntual, precisa y consistente en los sistemas complejos.

      Oracle Data Integrator proporciona una integración de datos completa desde cargas por lotes de alto volumen y alto rendimiento hasta procesos de integración de alimentación triple controlados por eventos para servicios de datos compatibles con SOA. Un enfoque de diseño declarativo garantiza un desarrollo y mantenimiento más rápidos y sencillos, y proporciona un enfoque único para extraer la transformación de carga (ELT) que ayuda a garantizar el máximo nivel de rendimiento posible para los procesos de transformación y validación de datos. Las transformaciones de datos de Oracle utilizan una interfaz web para simplificar la configuración y la ejecución de ELT y ayudar a los usuarios a crear y programar datos y flujos de trabajo con un enfoque de diseño declarativo.

    Según el caso de uso, estos componentes se pueden utilizar de forma independiente o conjunta para lograr una transformación e integración de datos altamente flexible y eficaz.

  • Ingesta en tiempo real

    Oracle Cloud Infrastructure GoldenGate es un servicio totalmente gestionado que permite la ingestión de datos de orígenes que residen on-premises o en cualquier nube, mediante la tecnología CDC GoldenGate para una captura no intrusiva y eficiente de datos y entrega a Oracle Autonomous Data Warehouse en tiempo real y a escala con el fin de poner la información relevante a disposición de los consumidores lo antes posible.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse es un servicio de base de datos de autogestión, autoprotección y autorreparación que se optimiza para las cargas de trabajo de almacenes de datos. No es necesario configurar ni gestionar ningún hardware, o instalar ningún software. Oracle Cloud Infrastructure gestiona la creación de la base de datos, así como la copia de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos.

    Los datos de almacenamiento masivo o en frío que residen en el almacenamiento de objetos se pueden unir con los datos de almacén como tablas externas y tablas particionadas híbridas.

    Autonomous Data Warehouse puede utilizar metadatos almacenados previamente en el catálogo de datos para crear tablas externas y sincronizar automáticamente las actualizaciones de metadatos en el catálogo de datos con la definición de tablas externas para mantener la consistencia, simplificar la gestión y reducir el esfuerzo.

    Además, Data Lake Accelerator, un componente de Oracle Autonomous Database, puede consumir datos del almacenamiento de objetos sin problemas, ampliar el procesamiento para proporcionar consultas rápidas, ajustar automáticamente la instancia informática de la base de datos cuando sea necesario y reducir el impacto en la carga de trabajo de la base de datos aislando las consultas de almacenamiento de objetos de la instancia informática de la base de datos.

  • Almacenamiento de objetos

    El almacenamiento de objetos proporciona acceso rápido a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad de bases de datos, datos analíticos y contenido enriquecido, como imágenes y vídeos. Puede almacenar y, a continuación, recuperar los datos de manera segura directamente desde Internet o desde la plataforma en la nube. Puede escalar el almacenamiento sin problemas sin experimentar ninguna degradación en el rendimiento o la fiabilidad del servicio. Utilice el almacenamiento estándar para el almacenamiento "caliente" al que necesita acceder de forma rápida, inmediata y frecuente. Utilice el almacenamiento de archivos para el almacenamiento "en frío" que conserva durante largos períodos de tiempo y que rara vez tiene acceso.

  • Análisis

    Oracle Analytics Cloud es un servicio en la nube público escalable y seguro que proporciona un conjunto completo de capacidades para explorar y realizar análisis de colaboración para usted, su grupo de trabajo y su empresa. Apoya a los ciudadanos científicos de datos, la formación avanzada de analistas empresariales y los modelos de aprendizaje automático (ML). Los modelos de aprendizaje automático se pueden ejecutar en el servicio de análisis o directamente en Oracle Autonomous Data Warehouse como modelos integrados por OML para predicciones por lotes a gran escala que aprovechan la potencia de procesamiento, la escalabilidad y la elasticidad del almacén.

    Con Oracle Analytics Cloud, también obtiene capacidades flexibles de gestión de servicios, como la configuración rápida, la ampliación y aplicación de parches sencillos y la gestión automatizada del ciclo de vida.

  • aprendizaje automático

    Oracle Machine Learning proporciona potentes capacidades de aprendizaje automático estrechamente integradas en Oracle Autonomous Database, con soporte para Python y AutoML. Admite modelos que utilizan algoritmos en la base de datos escalables y de código abierto que reducen el movimiento y la preparación de los datos. AutoML ayuda a los científicos de datos a acelerar la obtención de resultados de las iniciativas de aprendizaje automático de la compañía mediante la selección automática de algoritmos, el muestreo adaptativo de datos, la selección automática de funciones y el ajuste automático de modelos.

    Con los servicios de Oracle Machine Learning disponibles en Oracle Autonomous Data Warehouse, no solo puede gestionar modelos, sino también desplegarlos como puntos finales REST para democratizar las predicciones en tiempo real dentro de la empresa, lo que permite a las empresas reaccionar ante eventos relevantes a medida que ocurren en lugar de hacerlo después del hecho.

  • Ciencia de datos

    Data Science proporciona herramientas de infraestructura, tecnologías de código abierto, bibliotecas, paquetes y ciencia de datos para que los equipos de ciencia de datos creen, entrenen y gestionen modelos de aprendizaje automático (ML) en Oracle Cloud Infrastructure. El espacio de trabajo de colaboración y controlado por proyectos proporciona una experiencia de usuario integral coherente y soporta el ciclo de vida de modelos predictivos.

    La función de despliegue de modelos de ciencia de datos permite a los científicos de datos desplegar modelos entrenados como puntos finales HTTP totalmente gestionados que pueden proporcionar predicciones en tiempo real, incorporar inteligencia a procesos y aplicaciones y permitir que el negocio reaccione ante eventos relevantes a medida que se producen.

  • Catálogo de datos

    Oracle Cloud Infrastructure Data Catalog proporciona visibilidad de activos técnicos, como atributos de metadatos y metadatos, y permite mantener un glosario de negocio asignado a los metadatos técnicos. Oracle Cloud Infrastructure Data Catalog también proporciona metadatos a Autonomous Data Warehouse para facilitar la creación de tablas externas en el almacén de datos.

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida para recopilar y combinar datos de la aplicación para el análisis y el aprendizaje automático.

Los requisitos pueden ser diferentes de la arquitectura que se describe aquí.

  • Oracle Autonomous Data Warehouse

    Esta arquitectura utiliza Oracle Autonomous Data Warehouse en una infraestructura compartida. Active la ampliación automática para proporcionar a las cargas de trabajo de la base de datos hasta tres veces la potencia de procesamiento.

    Considere el uso de Oracle Autonomous Data Warehouse en una infraestructura dedicada si desea la capacidad de base de datos de autoservicio dentro de un entorno de nube de base de datos privada que se ejecuta en la nube pública.

    Considere el uso de la función Tablas particionadas híbridas de Autonomous Data Warehouse para los datos que no se suelen consumir y para los que no necesita el mismo rendimiento. Con esta función, puede mover particiones de datos al almacenamiento de objetos y combinarlos con particiones almacenadas en Autonomous Data Warehouse para una entrega perfecta.

    Considere el uso de la función Tablas externas para consumir datos almacenados en el almacenamiento de objetos en tiempo real sin necesidad de replicarlos en Autonomous Data Warehouse. Esto permite al almacén de datos consumir datos curados independientemente del formato (parquet, avro, orc, json, csv, etc.).

    Considere el uso de Data Lake Accelerator al consumir datos de almacenamiento de objetos para ofrecer una experiencia de usuario mejorada y más rápida a los usuarios que consumen y unen datos entre el almacén de datos y el lago de datos.

  • Despliegue del modelo de Oracle Machine Learning y Oracle Cloud Infrastructure Data Science

    Esta arquitectura aprovecha Oracle Machine Learning y Oracle Cloud Infrastructure Data Science para ejecutar predicciones en tiempo real a fin de proporcionar resultados a personas y aplicaciones.

    Puede desplegar un gateway de API si los partners y las entidades externas están consumiendo predicciones en tiempo real para proteger y controlar el consumo del modelo desplegado.

  • Catálogo de datos

    Para tener una vista completa e integral de los datos almacenados y que fluyen en la plataforma, considere la posibilidad de recopilar no solo almacenes de datos que soporten la capa de persistencia de datos, sino también los almacenes de datos de origen. La asignación de estos metadatos técnicos recopilados al glosario de negocio y su enriquecimiento con propiedades personalizadas permite asignar conceptos de negocio y documentar y controlar definiciones de seguridad y acceso.

    Para facilitar la creación de tablas externas en Autonomous Data Warehouse que virtualizan los datos almacenados en el almacenamiento de objetos, aproveche los metadatos recopilados anteriormente almacenados en Oracle Cloud Infrastructure Data Catalog. Esto simplifica la creación de tablas externas, fuerza la coherencia de los metadatos en los almacenes de datos y es menos proclive a errores humanos.

Consideraciones

Al recopilar y combinar datos de aplicaciones y datos de eventos de transmisión para análisis y aprendizaje automático, tenga en cuenta las siguientes opciones de implantación.

Guía Refinería de datos Plataforma de persistencia de datos Interpretación de & de acceso
Recomendado
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure GoldenGate
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
  • Oracle Analytics Cloud
  • Ciencia de datos de Oracle Cloud Infrastructure
  • Oracle Machine Learning
Otras opciones
  • Oracle Data Integrator
  • Transformaciones de datos en Oracle Autonomous Database
Oracle Exadata Database Service Herramientas de terceros
Racional

Oracle Cloud Infrastructure Data Integration proporciona una plataforma ETL nativa en la nube, sin servidor y totalmente gestionada que es ampliable y rentable.

Oracle Cloud Infrastructure GoldenGate proporciona una plataforma de replicación de datos no intrusiva, sin servidor y totalmente gestionada y que se puede desplegar en entornos híbridos.

Oracle Autonomous Data Warehouse es una base de datos fácil de usar y totalmente autónoma que se amplía de forma flexible, ofrece un rápido rendimiento de consultas y no requiere administración. También ofrece acceso directo a los datos desde el almacenamiento de objetos mediante tablas particionadas externas o híbridas.

Oracle Cloud Infrastructure Object Storage almacena datos ilimitados en formato raw.

Oracle Analytics Cloud es una solución totalmente gestionada e integrada con los datos curados de Oracle Autonomous Data Warehouse.

Oracle Cloud Infrastructure Data Science es una plataforma de autoservicio totalmente gestionada que permite a los equipos de ciencia de datos crear, entrenar y gestionar modelos de aprendizaje automático (ML) en Oracle Cloud Infrastructure. El servicio de ciencia de datos proporciona herramientas de infraestructura y ciencia de datos como AutoML y capacidades de despliegue de modelos.

Oracle Machine Learning es una plataforma de autoservicio totalmente gestionada y disponible con Autonomous Data Warehouse que aprovecha la potencia de procesamiento del almacén para crear, entrenar, probar e implementar modelos de aprendizaje automático a escala sin necesidad de mover los datos fuera del almacén.

Desplegar

El código de Terraform para esta arquitectura de referencia está disponible en GitHub. Puede extraer el código de Oracle Cloud Infrastructure Resource Manager con un solo clic, crear la pila y desplegarla. También puede descargar el código de GitHub en la computadora, personalizar el código y desplegarlo mediante la CLI de Terraform.

  • Realice el despliegue con Oracle Cloud Infrastructure Resource Manager:
    1. Haga clic en Despliegue en Oracle Cloud.

      Si aún no ha iniciado sesión, introduzca las credenciales de usuario y arrendamiento.

    2. Revise y acepte las condiciones.
    3. Seleccione la región en la que desea desplegar la pila.
    4. Siga las indicaciones e instrucciones en pantalla para crear la pila.
    5. Después de crear la pila, haga clic en Acciones de Terraform y seleccione Plan.
    6. Espere a que finalice el trabajo y revise el plan.

      Para realizar cambios, vuelva a la página Detalles de pila, haga clic en Editar pila y realice los cambios necesarios. A continuación, vuelva a ejecutar la acción Plan.

    7. Si no es necesario realizar más cambios, vuelva a la página Detalles de pila, haga clic en Acciones de Terraform y seleccione Aplicar.
  • Realice el despliegue con la CLI de Terraform:
    1. Vaya a GitHub.
    2. Descargue o clone el código en su equipo local.
    3. Siga las instrucciones del archivo README (Léame).

Log de Cambios

Este log muestra cambios significativos: