Despliegue un lago de datos aprovechando Power BI en Oracle Database@Azure

Muchas empresas aprovechan Microsoft Power BI con data lakes en Microsoft Azure para obtener información empresarial procesable.

Puede ampliar estas capacidades mediante una arquitectura de medallón que incluye Azure Data Factory, Azure Data Lake Storage, Azure Compute, Oracle Database@Azure (ya sea una instancia de Oracle Autonomous Database totalmente gestionada o una instancia de Oracle Exadata Database Service gestionada conjuntamente) y Power BI para abordar varios desafíos de datos clave a los que se enfrentan los clientes:

  • Silos de datos e integración: Azure Data Factory ingiere datos de diversas fuentes en un lago de datos unificado, desglosa los silos y proporciona una única fuente de datos.
  • Calidad y coherencia de datos: Autonomous Data Warehouse en la capa Curation garantiza datos limpios, coherentes y de alta calidad a través de reglas de desduplicación y calidad, reduciendo errores y mejorando la toma de decisiones.
  • Escalabilidad y rendimiento: los recursos informáticos escalables de Azure y la arquitectura sin servidor de Autonomous Data Warehouse o Oracle Exadata Database Service manejan el procesamiento de datos a gran escala de manera eficiente, al tiempo que mantienen un rendimiento óptimo a medida que crecen los volúmenes de datos y la adopción (concurrencia) de los usuarios.
  • Transformaciones complejas: Azure Compute y Autonomous Data Warehouse u Oracle Exadata Database Service realizan transformaciones y análisis complejos de manera eficiente, lo que reduce el tiempo de procesamiento y se centra en las estadísticas.
  • Gestión de costos: los modelos sin servidor y de pago por consumo para servicios de Azure y Autonomous Data Warehouse u Oracle Exadata Database Service optimizan los costos, lo que garantiza que solo pague por lo que utiliza.
  • Gobernanza de datos y conformidad: las capas de gestión de datos estructuradas facilitan una mejor gobernanza, trazabilidad y conformidad normativa.
  • Análisis incorporado: los usuarios pueden aplicar análisis directamente a sus datos mediante el uso de funciones incorporadas como inteligencia artificial (IA), aprendizaje automático (ML), análisis de gráficos, espaciales y de texto.

Entre los casos de uso habituales se incluyen:

  • Retail Analytics: integra datos de ventas en línea, transacciones en tienda y comentarios de clientes, optimizando las estrategias de inventario y marketing.
  • Servicios financieros: analiza los datos de las transacciones para detectar fraudes y cumplir con las normativas, mitigando los riesgos.
  • Análisis de la sanidad: integra los datos de los pacientes de registros médicos electrónicos, resultados de laboratorio y dispositivos ponibles, lo que mejora la atención al paciente y la gestión de la salud.

Esta arquitectura permite a los clientes empresariales de todos los sectores aprovechar los datos de forma eficaz para permitir a los usuarios profesionales tomar decisiones fundamentadas a fin de obtener mejores resultados empresariales.

Arquitectura Lógica

El lago de datos analítico puede ingerir datos de varios orígenes y puede proporcionar información empresarial mediante Power BI que se ejecuta en Microsoft Azure.

  • Orígenes de datos: el lago de datos analítico puede ingerir datos de varios orígenes. Azure Data Factory puede ingerir datos de Microsoft SQL Server y Azure Blob Storage. Oracle Database@Azure puede ingerir datos de Oracle Cloud ERP, Oracle Cloud Infrastructure Object Storage, Azure Cosmos Database, Azure SQL Database, varios tipos de datos de almacenamiento de tablas (Azure, PostgresSQL, Azure MariaDB) y otros tipos de bases de datos relacionales locales.
  • Nivel de datos: Oracle Database@Azure ingiere datos de origen de Azure Data Lake Storage junto con Azure Data Factory.
  • Nivel de consumo: Oracle Database@Azure proporciona estadísticas para Microsoft Power BI que se ejecuta en Microsoft Azure.

El siguiente diagrama ilustra la arquitectura funcional:



data-lake-db-azure-process-oracle.zip

Arquitectura del Medallón

En esta sección se muestra cómo puede desplegar Oracle Database@Azure como almacén de datos dentro de la arquitectura de medallón de Azure.

La arquitectura del medallón es un marco de gestión de datos que estructura el manejo de datos en un data lakehouse en distintas etapas (bronce, plata y oro), representando las diferentes etapas del procesamiento de datos:

  • Etapa de bronce: los datos de varias fuentes se ingieren, validan y curan.
  • Etapa de plata: los datos se almacenan y procesan para análisis e informes.
  • Etapa dorada: los datos refinados se entregan para el análisis y la generación de informes.

En el siguiente diagrama, se ilustra la arquitectura:



data-lake-db-azure-medallion-oracle.zip

Las etapas del medallón se dividen en las siguientes áreas de despliegue:

  • Ingestion Framework: ingiere datos de varios orígenes de datos mediante Azure Data Factory. Los datos raw se almacenan en Azure Data Lake Storage Gen 2 y Delta Lake. Este marco garantiza la coherencia y precisión de los datos en los sistemas de origen y de depósito. Este marco constituye un sólido conjunto de scripts para garantizar la calidad mediante el uso de mecanismos de auditoría, equilibrio y control en todas las plataformas.
  • Validación: los datos raw se ingieren en Oracle Autonomous Data Warehouse Serverless u Oracle Exadata Database Service para la desduplicación y la comprobación de la calidad de los datos. Este flujo de trabajo realiza un enmascaramiento de limpieza básica de datos de PII y PHI junto con la validación de archivos raw mediante un marco controlado por reglas para realizar comprobaciones de esquema. El marco de validación se puede implementar mediante Azure Data Factory.
  • Flujo de trabajo de rechazo: cualquier registro que se rechace durante la etapa de ingestión debido a errores de validación u otros errores de procesamiento se almacena en área temporal en una ruta de almacenamiento independiente de Azure Data Lake. Las notificaciones automatizadas por correo electrónico mediante Logic App se envían al equipo de soporte según los acuerdos de licencia de software (SLA) definidos. Los datos estandarizados permanecen en Oracle Autonomous Data Warehouse sin servidor u Oracle Exadata Database Service.
  • Orquestación: un sistema de programación gestiona trabajos de procesamiento de datos, programación y dependencias de trabajos. Azure Data Factory se puede utilizar para la orquestación de trabajos de ETL. La etapa de orquestación incluye Oracle Autonomous Data Warehouse Serverless u Oracle Exadata Database Service, Delta Lake y Azure Data Lake Storage Gen 2.
  • Informes/análisis: la etapa de informes incluye Power BI y servicios de datos, como fuentes externas y monetización de datos.

La arquitectura tiene los siguientes componentes de infraestructura:

  • Región

    Una región de Azure es un área geográfica en la que residen uno o más centros de datos físicos de Azure, denominados zonas de disponibilidad. Las regiones son independientes entre sí y pueden separarse grandes distancias (entre países o incluso continentes).

    Las regiones de Azure y OCI son áreas geográficas localizadas. Para Oracle Database@Azure, una región de Azure está conectada a una región de OCI, con zonas de disponibilidad (AZ) en Azure conectadas a dominios de disponibilidad (AD) en OCI. Se seleccionan pares de regiones de Azure y OCI para minimizar la distancia y la latencia.

  • Zona de disponibilidad

    Una zona de disponibilidad es un centro de datos físicamente separado dentro de una región diseñada para estar disponible y tolerante a fallos. Las zonas de disponibilidad están lo suficientemente cerca como para tener conexiones de baja latencia a otras zonas de disponibilidad.

  • Red virtual (VNet) y subred

    Una VNet es una red virtual que se define en Azure. Un VNet puede tener varias subredes de bloques CIDR no solapadas que puede agregar después de crear el VNet. Puede segmentar VNet en subredes, las cuales se pueden acotar a una región o a zonas de disponibilidad. Cada subred está formada por un rango contiguo de direcciones que no se superponen con las demás subredes de VNet. Utilice VNet para aislar los recursos de Azure de forma lógica en el nivel de red.

  • Azure ExpressRoute

    Azure ExpressRoute le permite configurar una conexión privada entre VNet y otra red, como su red local o una red en otro proveedor de nube. ExpressRoute es una alternativa más fiable y rápida a las conexiones de Internet habituales, ya que el tráfico a través de ExpressRoute no atraviesa la red pública de Internet.

  • Gateway de red virtual

    Un gateway de red virtual permite el tráfico entre Azure VNet y una red fuera de Azure, ya sea a través de la red pública de Internet o mediante ExpressRoute, según el tipo de gateway que especifique.

  • Tabla de rutas

    Las tablas de rutas dirigen el tráfico entre subredes de Azure, VNets y redes fuera de Azure.

  • Grupo de seguridad de red

    Un grupo de seguridad de red contiene reglas para controlar el tráfico de red entre los recursos de Azure en VNet. Cada regla especifica el origen o el destino, el puerto, el protocolo y la dirección del tráfico de red que se permite o deniega.

  • Site-to-Site VPN

    Proporciona una VPN IPSec de sitio a sitio entre la red local y la VCN mediante una conexión cifrada y segura.

La arquitectura tiene los siguientes productos y servicios de Oracle:

  • Oracle Database@Azure

    Oracle Database@Azure es el servicio de Oracle Database (Oracle Exadata Database Service on Dedicated Infrastructure y Oracle Autonomous Database Serverless) que se ejecuta en Oracle Cloud Infrastructure (OCI), desplegado en centros de datos de Microsoft Azure. El servicio ofrece funciones y paridad de precios con OCI. Adquiera el servicio en Azure Marketplace.

    Oracle Database@Azure integra tecnologías de Oracle Exadata Database Service, Oracle Real Application Clusters (Oracle RAC) y Oracle Data Guard en la plataforma Azure. Los usuarios gestionan el servicio en la consola de Azure y con las herramientas de automatización de Azure. El servicio se despliega en Azure Virtual Network (VNet) e integrado con el sistema de gestión de identidad y acceso de Azure. Las métricas genéricas de OCI y Oracle Database y los logs de auditoría están disponibles de forma nativa en Azure. El servicio requiere que los usuarios tengan una suscripción a Azure y un arrendamiento de OCI.

    Autonomous Database se basa en la infraestructura de Oracle Exadata, es autogestionada, autoprotegida y autorreparable, lo que ayuda a eliminar la gestión manual de bases de datos y los errores humanos. Autonomous Database permite el desarrollo de aplicaciones escalables basadas en IA con cualquier dato mediante capacidades de IA integradas utilizando su elección de modelo de lenguaje grande (LLM) y ubicación de despliegue.

    Tanto Oracle Exadata Database Service como Oracle Autonomous Database Serverless se aprovisionan fácilmente a través del portal nativo de Azure, lo que permite el acceso al ecosistema más amplio de Azure.

  • Oracle Cloud Infrastructure Object Storage

    Oracle Cloud Infrastructure Object Storage almacena el contenido como objetos dentro de contenedores de almacenamiento denominados cubos. Cada objeto incluye los datos y los metadatos descriptivos para facilitar la recuperación y gestión.

La arquitectura tiene los siguientes productos y servicios de Microsoft:

  • Fábrica de datos de Azure

    Azure Data Factory (ADF) es un servicio de integración de datos basado en la nube proporcionado por Microsoft Azure. Está diseñado para crear, programar y orquestar flujos de trabajo de datos a escala. ADF permite a las organizaciones ingerir, transformar y mover datos de diversos orígenes a destinos, lo que permite la toma de decisiones y el análisis basados en datos.

  • Funciones de Azure

    Azure Functions es una solución sin servidor que le permite escribir menos código, mantener menos infraestructura y ahorrar en costos.

  • Azure Service Bus

    Azure Service Bus es un broker de mensajes empresarial totalmente gestionado con colas y temas de publicación-suscripción.

  • Supervisión de Azure

    Azure Monitor proporciona métricas y registros de infraestructura de nivel base para la mayoría de los servicios de Azure. Los logs de diagnóstico de Azure los emite un recurso y proporcionan datos enriquecidos y frecuentes sobre el funcionamiento de ese recurso. Azure Data Factory (ADF) puede escribir registros de diagnóstico en Azure Monitor.

  • Azure DevOps (CICD)

    Azure Data Factory se integra con GitHub y Azure DevOps Git para permitir el control de origen, la gestión de versiones y la integración y despliegue continuos. Con el control de origen, los desarrolladores pueden colaborar, realizar un seguimiento de los cambios y guardarlos en una rama de su elección (en este caso, será una rama DEV). Estos cambios se fusionarán en la rama principal y se desplegarán en los entornos de nivel superior (QA, UAT, Prod), donde también se probarán y validarán.

  • Azure Active Directory

    La plataforma de big data en los servicios de Azure se puede integrar con los servicios existentes de Azure Active Directory para proporcionar un control de seguridad detallado. Esto permite a la organización reutilizar el proceso de inicio de sesión único existente para acceder a datos y servicios en la nube de Azure.

  • AA de Azure

    Azure ML es un entorno de desarrollo integrado basado en GUI para construir e implementar el flujo de trabajo de aprendizaje automático en Azure.

  • Power BI

    Power BI es el conjunto de herramientas de análisis empresarial de Microsoft diseñado para ayudar a las organizaciones a visualizar datos, compartir información y tomar decisiones informadas. Permite a los usuarios conectarse a una amplia gama de orígenes de datos, crear paneles de control e informes interactivos y colaborar entre equipos. Power BI es parte de Microsoft Power Platform y se integra a la perfección con otros productos de Microsoft como Excel, Teams y servicios de Azure.

    Componentes clave de Power BI:

    • Power BI Service: plataforma basada en la nube donde los usuarios pueden compartir, publicar y colaborar en informes y paneles de control para permitir la supervisión y el uso compartido de datos en tiempo real entre las organizaciones.
    • Power BI Mobile: aplicaciones móviles para dispositivos iOS, Android y Windows para acceder a paneles de control e informes sobre la marcha.
    • Power BI Embedded: servicio que permite a los desarrolladores integrar visuals y análisis de Power BI en aplicaciones, portales o sitios web personalizados.
  • Azure SQL Server

    Azure SQL Server es un servicio de base de datos relacional basado en la nube proporcionado por Microsoft Azure. Forma parte de la familia SQL de Azure y ofrece un entorno de plataforma como servicio (PaaS) totalmente gestionado para alojar y gestionar bases de datos de SQL Server en la nube. Azure SQL Server es altamente escalable, seguro y proporciona funciones para alta disponibilidad, copias de seguridad automatizadas y recuperación ante desastres.

  • Azure PostgreSQL

    Azure Database for PostgreSQL es un servicio de base de datos relacional gestionado proporcionado por Microsoft Azure. Está diseñado para simplificar el despliegue, la ampliación y la gestión de bases de datos PostgreSQL en la nube, a la vez que ofrece alta disponibilidad, seguridad y escalabilidad. Azure Database for PostgreSQL permite a los desarrolladores centrarse en crear aplicaciones sin preocuparse por la gestión de la infraestructura.

  • Cosmos de Azure

    Azure Cosmos DB es un servicio de base de datos multimodelo distribuido globalmente proporcionado por Microsoft Azure. Está diseñado para crear aplicaciones con alta capacidad de respuesta, escalables y disponibles a nivel mundial. Cosmos DB admite varios modelos de datos y API, lo que la convierte en una opción versátil para diversos escenarios de aplicaciones.

  • Azure BLOB Storage

    Azure Blob Storage es la solución de almacenamiento de objetos de Microsoft Azure para la nube, diseñada para almacenar grandes cantidades de datos no estructurados. Es altamente escalable, seguro y rentable, por lo que es ideal para varios casos de uso, incluido el desarrollo de aplicaciones, el archivado de datos y el almacenamiento de medios.

  • Delta Lake

    Delta Lake es una capa de almacenamiento de código abierto que aporta fiabilidad a los lagos de datos. Está diseñado para proporcionar transacciones ACID (atomicidad, coherencia, aislamiento, durabilidad), manejo de metadatos escalables y unifica el procesamiento de datos por lotes y de transmisión. Cuando se integra con Azure Data Lake Service, Delta Lake mejora las capacidades de los servicios de almacenamiento y análisis de datos de Azure.

  • Azure Data Lake Storage

    Azure Data Lake Storage (ADLS) es un servicio de almacenamiento de datos altamente escalable y seguro optimizado para el análisis de big data. Combina la escalabilidad del almacenamiento de objetos con las funciones de rendimiento y seguridad de un sistema de archivos jerárquico, lo que lo hace ideal para gestionar datos a gran escala y permitir análisis avanzados y aprendizaje automático.

    Comparación con Azure Blob Storage

    Función Azure Data Lake Storage Azure Blob Storage
    Caso de uso Análisis de big data, datos jerárquicos Almacenamiento de objetos de uso general
    Espacio de Nombres Jerárquica (como sistema de archivos) Plano (sin estructura de directorios)
    Integración Optimizado para marcos de big data Uso general y almacenamiento de aplicaciones
    Control de Acceso ACL de nivel de archivo y RBAC Tokens RBAC y SAS

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida para desplegar un pipeline de análisis de datos en Microsoft Azure mediante Oracle Database@Azure. Los requisitos pueden diferir de los descritos aquí.
  • Asegúrese de tener acceso a una suscripción y directorio de Azure.
  • Asegúrese de que tiene acceso a un arrendamiento de Oracle Cloud Infrastructure (OCI).
  • Asegúrese de que tiene un enlace multinube activo de Oracle Database@Azure entre Azure y OCI (esta conexión se crea por defecto al aprovisionar Oracle Database@Azure y está gestionada por Oracle).
  • Asegúrese de que tiene bloques CIDR no solapados entre cualquier VNets de Azure y las VCN de OCI.
  • Asegúrese de que tiene el límite de servicio adecuado de Oracle Exadata Database Service u Oracle Autonomous Database Serverless antes del aprovisionamiento.

Consideraciones

Al desplegar un pipeline de análisis de datos en Microsoft Azure mediante Oracle Database@Azure, tenga en cuenta lo siguiente.

  • Recuperación ante desastres (DR)

    La recuperación ante desastres no está representada en esta arquitectura y es responsabilidad del cliente.

  • Configuración de redes para Oracle Database@Azure
    • Entorno de Azure: utiliza una red virtual de Azure (VNet) para las redes y crea tarjetas de interfaz de red virtual (VNIC) dentro de una subred delegada creada previamente.
    • Entorno de OCI: Oracle Database@Azure se conecta a una subred de cliente dentro de una red virtual en la nube (VCN) de Oracle Cloud Infrastructure (OCI).
  • Conectividad de Cliente

    Esta configuración de red permite la conectividad del cliente desde los recursos de Azure.

  • Redes de Oracle Autonomous Database Serverless
    • Utilice una VNet con 1 subred de base de datos en Azure. Utilice una subred /27, pero permita un crecimiento futuro planificado.
    • Cree y delegue la subred de la base de datos a Oracle Database@Azure antes de desplegar Oracle Autonomous Database Serverless.
    • Reutilice (o comparta) la subred delegada con bases de datos adicionales.
  • Azure ExpressRoute

    El costo de Azure ExpressRoute varía de una región a otra. Azure tiene más de un SKU disponible para una ruta rápida; Oracle recomienda utilizar el valor Local, porque no tiene cargos de entrada o salida independientes, y comienza con el ancho de banda mínimo de 1 Gbps. Las configuraciones Standard y Premium ofrecen un ancho de banda inferior, pero incurren en cargos de salida independientes en una configuración medida.

  • Oracle Autonomous Database Serverless
    • Integración

      Oracle Autonomous Database cuenta con servicios de integración integrados para más de 100 aplicaciones, bases de datos y almacenes de objetos. Utilice la interfaz gráfica de usuario de Data Studio para diseñar transformaciones de datos para la integración de datos con Autonomous Database.

    • Análisis

      Oracle Autonomous Database cuenta con servicios de análisis integrados que le permiten aplicar una gama de análisis (gráficos, espaciales, aprendizaje automático e IA) directamente a sus datos, lo que reduce la latencia analítica para proporcionar rápidamente información útil.

    • Costo

      El aprovisionamiento y las funciones de gestión básicas para una instancia de Oracle Autonomous Database Serverless se realizan desde la página Oracle Database@Azure. Hay funciones de gestión adicionales disponibles en el portal de Oracle Cloud Infrastructure (OCI) mediante el enlace a la instancia de Autonomous Database específica de la página de Oracle Database@Azure.

      Controle el uso de recursos mediante las siguientes opciones de configuración:
      • El recuento de ECPU permite definir el recuento de ECPU de 2 a 512.
      • La escala automática de recursos informáticos permite escalar automáticamente su asignación de recursos informáticos hasta 512. Por defecto está seleccionado.
      • Storage permite configurar la asignación de almacenamiento de 1 TB a 383 TB o de 20 GB a 393216 GB.
      • El tamaño de unidad de almacenamiento permite seleccionar si el almacenamiento está asignado en GB o TB.
      • La escala automática de almacenamiento permite escalar automáticamente su asignación de almacenamiento hasta 383 TB o 393216 GB. Por defecto no está seleccionado
    • Rendimiento
      • Se proporciona alta disponibilidad (HA) para Oracle Autonomous Database Serverless.
      • Compruebe y mida la latencia de red como parte de las pruebas de rendimiento de la aplicación.
      • Considere la afinidad de regiones. La latencia de red entre aplicaciones y bases de datos alojadas en diferentes centros de datos en la nube debe ser inferior a 10 ms. Recomendamos seleccionar regiones cercanas de aplicaciones y bases de datos para lograr un rendimiento integral óptimo.
    • Disponibilidad

      Oracle Autonomous Database Serverless está disponible en varias regiones de Microsoft Azure.

      Consulte el enlace del acuerdo de licencia de servicio (SLA) en la sección Explorar más.

  • Oracle Exadata Database Service on Dedicated Infrastructure
    • Costo
      • La infraestructura desplegada tiene un costo consistente y se puede cerrar en cualquier momento (se cobra un mínimo de 48 horas).
      • Los costos de tiempo de ejecución vienen determinados por el número de OCPU asignadas a la máquina virtual, que es escalable.
      • Las opciones de licencia incluyen Traiga su propia licencia (BYOL) y Licencia incluida.
      • Oracle Support Rewards está disponible para BYOL
    • Rendimiento
      • Los clientes experimentan el mismo rendimiento que experimentarían con cualquier otro despliegue de Exadata (Oracle Exadata Database Service, Oracle Exadata Database Service on Cloud@Customer o local).
      • La latencia (un trayecto de ida y vuelta) de una máquina virtual de Azure de cualquier tipo al servicio Oracle Database@Azure es únicamente la provincia de los servicios en la nube de Azure. El objetivo es .5ms, pero puede variar debido a las consideraciones de red de Azure.
      • Oracle no cobra ninguna tarifa de salida de datos por Oracle Database@Azure, pero según la arquitectura de Azure, Microsoft puede cobrar tarifas de movimiento de datos.
    • Disponibilidad

      Los despliegues de Exadata tienen un objetivo de nivel de servicio (SLO) del 99,99 %. Se puede acceder a números más altos mediante una arquitectura de máxima disponibilidad (MAA), que puede incluir la configuración de un sitio de recuperación ante desastres y el uso de capacidades de copia de seguridad y restauración, como Oracle Database Zero Data Loss Autonomous Recovery Service.

Confirmaciones

  • Autores: Amrita Mukherjee, CCSP
  • Contribuyentes: : Wei Han, Roger Simon, Tammy Bednar, Martin Gubar, Roy Rodan, Robert Lies