Questo diagramma mostra i componenti e le fasi dell'architettura medaglione per un data lakehouse.
La gestione dei dati aziendali per l'architettura è fornita da Microsoft Purview. I servizi di infrastruttura e sicurezza forniti per l'architettura includono monitoraggio, DevOps e CI/CD, gestione e cifratura delle identità e degli accessi e failover per il disaster recovery multi-region.
Le origini dati includono sistemi di origine, sistemi RDBMS (Relational Database Management System) on-prmise, RDBMS cloud, dispositivi Internet of Things (IoT) e altre origini dati non strutturate.
L'architettura del medaglione divide lo spostamento dei dati di origine in fasi distinte elencate nella parte superiore del diagramma:
- Fase Bronzo: i dati provenienti da varie fonti vengono inclusi, convalidati e curati.
- Fase Silver: i dati vengono memorizzati ed elaborati per l'analisi e il reporting.
- Fase Gold: vengono forniti dati raffinati per l'analisi e il reporting.
All'interno di queste fasi, i gruppi di componenti vengono ulteriormente identificati se forniscono funzionalità di calcolo o storage:
- Computazione: pipeline di ingegneria dei dati che elaborano e trasformano i dati e svolgono un ruolo fondamentale nella preparazione dei dati per l'analisi e il reporting eseguendo varie regole di trasformazione come la deduplicazione, la qualità dei dati, l'applicazione di regole di modellazione dei dati per lo schema a stella e così via.
- Storage: i dati vengono inclusi, memorizzati e gestiti come base per il recupero dei dati da parte di Azure Data Lake Service, Oracle Database@Azure, pool SQL e così via.
Le fasi del medaglione sono ulteriormente suddivise nelle seguenti aree di distribuzione attraverso le quali i dati si spostano in sequenza:
- Database SQL di Azure (computazione): contiene dati utilizzando Azure Data Factory.
- Landing - raw zone view (storage): i file vengono memorizzati in Azure Data Lake Storage.
- Raw - raw zone view (storage): la fase Ingestion Framework gestisce i file e le modifiche ai dati in Azure Data Lake Storage utilizzando Delta Lake e il servizio di monitoraggio.
- Curation (computazione): la fase di convalida include dati non elaborati in Oracle Autonomous Data Warehouse Serverless o Oracle Exadata Database Service per la deduplicazione e il controllo della qualità dei dati.
- Data Lake - curato (storage): nella fase del flusso di lavoro di rifiuto, la governance dei dati assicura che qualsiasi record rifiutato durante la fase di inclusione a causa di errori di convalida o altri errori di elaborazione venga posizionato nell'area intermedia di un percorso di memorizzazione di Azure Data Lake distinto. Il servizio DevOps e CI/CD fornisce input per questa fase.
- Standardizzato (computazione): nella fase Flusso di lavoro rifiuto, la governance dei dati assicura che qualsiasi record rifiutato durante la fase di inclusione a causa di errori di convalida o altri errori di elaborazione venga posizionato nell'area intermedia di un percorso di memorizzazione Azure Data Lake distinto. Il servizio DevOps e CI/CD fornisce input per questa fase.
- Data Warehouse - Livello di consumo (storage): nella fase Orchestrazione, un sistema di schedulazione gestisce i job di elaborazione dati, la schedulazione e le dipendenze dei job. Azure Data Factory può essere utilizzato per l'orchestrazione dei job ETL. La fase di orchestrazione include Oracle Autonomous Data Warehouse Serverless o Oracle Exadata Database Service, Delta Lake e Azure Data Lake Storage Gen 2
- Reporting/Analytics: questa fase include Power BI e servizi dati quali feed esterni e monetizzazione dei dati.