Dieses Diagramm zeigt die Komponenten und Phasen in der Medallion-Architektur für ein Data Lakehouse.
Das Unternehmensdatenmanagement für die Architektur wird von Microsoft Purview bereitgestellt. Zu den für die Archiktektur bereitgestellten Infrastruktur- und Sicherheitsservices gehören Monitoring, DevOps und CI/CD, Identity and Access Management und Encyption sowie Disaster Recovery Failover mit mehreren Regionen.
Datenquellen umfassen Quellsysteme, On-Prmises relationale Datenbankmanagementsysteme (RDBMS), Cloud-RDBMS, Internet der Dinge (IoT)-Geräte und andere unstrukturierte Datenquellen.
Die Medaillonarchitektur teilt die Verschiebung von Quelldaten in verschiedene Phasen auf, die oben im Diagramm aufgeführt sind:
- Bronzebühne: Daten aus verschiedenen Quellen werden aufgenommen, validiert und kuratiert.
- Silberstufe: Die Daten werden für Analysen und Berichte gespeichert und verarbeitet.
- Goldstufe: Raffinierte Daten werden für Analysen und Berichte bereitgestellt.
In diesen Phasen werden Komponentengruppen weiter dadurch identifiziert, ob sie Compute- oder Speicherfunktionen bereitstellen:
- Compute: Data Engineering-Pipelines, die Daten verarbeiten und transformieren und eine wichtige Rolle bei der Vorbereitung von Daten für Analysen und Berichte spielen, indem sie verschiedene Transformationsregeln wie Deduplizierung, Datenqualität, Datenmodellierungsregeln für Star-Schema usw. ausführen.
- Speicher: Daten werden als Grundlage für den Datenabruf durch Azure Data Lake Service, Oracle Database@Azure, SQL-Pools usw. aufgenommen, gespeichert und verwaltet.
Die Medaillonstufen sind weiter in die folgenden Einsatzbereiche unterteilt, durch die Daten sequenziell verschoben werden:
- Azure SQL Database (compute): Nimmt Daten mit Azure Data Factory auf.
- Landing - Raw-Zonenansicht (Speicher): Dateien werden in Azure Data Lake Storage gespeichert.
- Raw - Raw-Zonenansicht (Speicher): In der Phase "Aufnahme-Framework" werden Dateien und Datenänderungen in Azure Data Lake Storage mit einem Delta Lake und dem Überwachungsservice verwaltet.
- Curation (Compute): Die Validierungsphase nimmt Rohdaten zur Deduplizierung und Datenqualitätsprüfung in Oracle Autonomous Data Warehouse Serverless oder Oracle Exadata Database Service auf.
- Data Lake - kuratiert (Speicher): In der Phase "Ablehnungsworkflow" stellt Data Governance sicher, dass alle Datensätze, die während der Aufnahmephase aufgrund von Validierungsfehlern oder anderen Verarbeitungsfehlern abgelehnt werden, in einem separaten Azure Data Lake-Speicherpfad zwischengespeichert werden. Der DevOps- und CI/CD-Service liefert Input für diese Phase.
- Standardisiert (Berechnung): In der Phase "Ablehnungsworkflow" stellt Data Governance sicher, dass jeder Datensatz, der während der Aufnahmephase aufgrund von Validierungsfehlern oder anderen Verarbeitungsfehlern abgelehnt wird, in einem separaten Azure Data Lake Storage-Pfad bereitgestellt wird. Der DevOps- und CI/CD-Service liefert Input für diese Phase.
- Data Warehouse – Verbrauchsschicht (Speicher): In der Orchestrierungsphase verwaltet ein Planungssystem Datenverarbeitungsjobs, Terminierung und Jobabhängigkeiten. Azure Data Factory kann für die Orchestrierung von ETL-Jobs verwendet werden. Die Orchestrierungsphase umfasst Oracle Autonomous Data Warehouse Serverless oder Oracle Exadata Database Service, Delta Lake und Azure Data Lake Storage der 2. Generation
- Reporting/Analytics: Diese Phase umfasst Power BI und Datenservices wie externe Feeds und Datenmonetarisierung.