En este diagrama se muestran los componentes y las etapas de la arquitectura del medallón para un data lakehouse.
La gestión de datos empresariales para la arquitectura es proporcionada por Microsoft Purview. Los servicios de infraestructura y seguridad proporcionados para la arquictectura incluyen supervisión, DevOps e integración y despliegue continuos, gestión y cifrado de identidad y acceso, y failover de recuperación ante desastres en varias regiones.
Los orígenes de datos incluyen sistemas de origen, sistemas de gestión de bases de datos relacionales (RDBMS) internos, RDBMS en la nube, dispositivos de Internet de las cosas (IoT) y otros orígenes de datos no estructurados.
La arquitectura del medallón divide el movimiento de datos de origen en distintas etapas enumeradas en la parte superior del diagrama:
- Etapa de bronce: los datos de varias fuentes se ingieren, validan y curan.
- Etapa de plata: los datos se almacenan y procesan para análisis e informes.
- Etapa dorada: los datos refinados se entregan para el análisis y la generación de informes.
En estas etapas, los grupos de componentes se identifican aún más si proporcionan funcionalidad de almacenamiento o recursos informáticos:
- Recursos informáticos: pipelines de ingeniería de datos que procesan y transforman datos y desempeñan un papel fundamental en la preparación de datos para el análisis y la generación de informes mediante la ejecución de varias reglas de transformación, como la desduplicación, la calidad de los datos, la aplicación de reglas de modelado de datos para el esquema de estrella, etc.
- Almacenamiento: los datos se ingieren, almacenan y gestionan como base para la recuperación de datos por parte de Azure Data Lake Service, Oracle Database@Azure, pools SQL, etc.
Las etapas del medallón se dividen en las siguientes áreas de despliegue a través de las cuales los datos se mueven secuencialmente:
- Azure SQL Database (compute): ingiere datos mediante Azure Data Factory.
- Aterrizaje: vista de zona sin formato (almacenamiento): los archivos se almacenan en Azure Data Lake Storage.
- Raw: vista de zona raw (almacenamiento): la etapa Ingestion Framework gestiona archivos y cambios en los datos en Azure Data Lake Storage mediante un Delta Lake y el servicio de supervisión.
- Curación (recursos informáticos): la etapa de validación ingiere datos raw en Oracle Autonomous Data Warehouse sin servidor u Oracle Exadata Database Service para la desduplicación y la comprobación de la calidad de los datos.
- Data Lake - curado (almacenamiento): en la etapa de flujo de trabajo de rechazo, la gobernanza de datos garantiza que cualquier registro que se rechace durante la etapa de ingestión debido a errores de validación u otros errores de procesamiento se almacene temporalmente en una ruta separada de Azure Data Lake Storage. El servicio DevOps e CI/CD proporciona entrada a esta etapa.
- Estandarizado (cálculo): en la etapa Flujo de trabajo de rechazo, la gobernanza de datos garantiza que cualquier registro que se rechace durante la etapa de ingestión debido a errores de validación u otros errores de procesamiento se almacene temporalmente en una ruta de almacenamiento independiente de Azure Data Lake. El servicio DevOps e CI/CD proporciona entrada a esta etapa.
- Almacén de datos: capa de consumo (almacenamiento): en la etapa de orquestación, un sistema de programación gestiona los trabajos de procesamiento de datos, la programación y las dependencias de trabajos. Azure Data Factory se puede utilizar para la orquestación de trabajos de ETL. La etapa de orquestación incluye Oracle Autonomous Data Warehouse Serverless u Oracle Exadata Database Service, Delta Lake y Azure Data Lake Storage Gen 2
- Informes/análisis: esta etapa incluye Power BI y servicios de datos como fuentes externas y monetización de datos.