Ce diagramme présente les composants et les étapes de l'architecture des médaillons pour un entrepôt avec lac de données.
La gestion des données d'entreprise pour l'architecture est fournie par Microsoft Purview. Les services d'infrastructure et de sécurité fournis pour l'archictecture comprennent la surveillance, DevOps et l'intégration et le développement en continu, la gestion des identités et des accès, le chiffrement et le basculement de reprise après sinistre multirégion.
Les sources de données comprennent les systèmes sources, les systèmes de gestion de base de données relationnelle (SGBDR) sur place, les SGBDR en nuage, les appareils utilisant l'Internet des objets (IoT) et d'autres sources de données non structurées.
L'architecture de médaillon divise le mouvement des données sources en différentes étapes répertoriées en haut du diagramme :
- Phase de bronze : Les données provenant de diverses sources sont ingérées, validées et organisées.
- Phase d'argent : Les données sont stockées et traitées pour l'analyse et la production de rapports.
- Phase Gold : Les données affinées sont fournies pour analyse et production de rapports.
Au cours de ces étapes, les groupes de composants sont davantage identifiés selon qu'ils fournissent des fonctionnalités de calcul ou de stockage :
- Calcul : Pipelines d'ingénierie des données qui traitent et transforment les données et jouent un rôle essentiel dans la préparation des données pour l'analyse et la production de rapports en exécutant diverses règles de transformation telles que la déduplication, la qualité des données, l'application de règles de modélisation des données pour le schéma en étoile, etc.
- Stockage : Les données sont ingérées, stockées et gérées comme base pour l'extraction de données par le service Azure Data Lake, Oracle Database@Azure, les groupes SQL, etc.
Les étapes du médaillon sont en outre divisées en zones de déploiement suivantes par lesquelles les données se déplacent séquentiellement :
- Base de données Azure SQL (calcul) : Ingère des données à l'aide d'Azure Data Factory.
- Débarquement - vue de zone brute (stockage) : Les fichiers sont stockés dans Azure Data Lake Storage.
- RAW - Vue de zone brute (stockage) : L'étape Ingestion Framework gère les fichiers et les modifications des données dans Azure Data Lake Storage à l'aide d'un lac Delta et du service de surveillance.
- Curation (calcul) : L'étape de validation ingère des données brutes dans Oracle Autonomous Data Warehouse sans serveur ou Oracle Exadata Database Service à des fins de déduplication et de vérification de la qualité des données.
- Lac de données - organisé (stockage) : Dans l'étape Flux de travail de rejet, la gouvernance des données garantit que tout enregistrement rejeté lors de l'étape d'ingestion en raison d'erreurs de validation ou d'autres erreurs de traitement est stocké temporairement sur un chemin de stockage Azure Data Lake distinct. Le service DevOps et d'intégration continue/développement continu fournit une entrée pour cette étape.
- Normalisé (calcul) : Dans l'étape Flux de travail de rejet, la gouvernance des données garantit que tout enregistrement rejeté lors de l'étape d'ingestion en raison d'erreurs de validation ou d'autres erreurs de traitement est inscrit dans une table intermédiaire sur un chemin de stockage Azure Data Lake distinct. Le service DevOps et d'intégration continue/développement continu fournit une entrée pour cette étape.
- Entrepôt de données - Couche de consommation (stockage) : Dans l'étape Orchestration, un système de programmation gère les tâches de traitement de données, la programmation et les dépendances de tâche. Azure Data Factory peut être utilisé pour l'orchestration des tâches d'ETC. L'étape d'orchestration comprend Oracle Autonomous Data Warehouse Serverless ou Oracle Exadata Database Service, Delta Lake et Azure Data Lake Storage Gen 2
- Reporting/Analytics : Cette étape comprend Power BI et des services de données tels que les flux externes et la monétisation des données.