Ce diagramme présente les composants et les étapes de l'architecture médaillon d'un data lakehouse.
La gestion des données d'entreprise pour l'architecture est fournie par Microsoft Purview. Les services d'infrastructure et de sécurité fournis pour l'archictecture comprennent la surveillance, DevOps et l'intégration continue et le déploiement continu, la gestion et l'encyption des identités et des accès, ainsi que le basculement en cas d'incident de récupération après sinistre dans plusieurs régions.
Les sources de données incluent les systèmes source, les systèmes de gestion de base de données relationnelle (SGBDR) sur site, les SGBDR cloud, les appareils Internet des objets (IoT) et d'autres sources de données non structurées.
L'architecture médaillon divise le mouvement des données source en étapes distinctes répertoriées dans la partie supérieure du diagramme :
- Étape du bronze : Les données provenant de diverses sources sont ingérées, validées et organisées.
- Phase Silver : Les données sont stockées et traitées pour l'analyse et le reporting.
- Phase Gold : Les données affinées sont fournies pour analyse et reporting.
Au cours de ces étapes, les groupes de composants sont identifiés en fonction de leur capacité de calcul ou de stockage :
- Calcul : pipelines d'ingénierie des données qui traitent et transforment les données et jouent un rôle essentiel dans la préparation des données pour l'analyse et le reporting en exécutant diverses règles de transformation telles que la déduplication, la qualité des données, l'application de règles de modélisation des données pour le schéma en étoile, etc.
- Stockage : les données sont ingérées, stockées et gérées comme base de l'extraction de données par Azure Data Lake Service, Oracle Database@Azure, les pools SQL, etc.
Les étapes de médaillon sont en outre divisées en zones de déploiement suivantes à travers lesquelles les données se déplacent séquentiellement :
- Base de données SQL Azure (calcul) : ingère des données à l'aide d'Azure Data Factory.
- Atterrissage - vue de zone brute (stockage) : les fichiers sont stockés dans le stockage Azure Data Lake.
- Vue brute de zone brute (stockage) : l'étape de structure d'ingestion gère les fichiers et les modifications des données dans le stockage de lac de données Azure à l'aide d'un lac Delta et du service de surveillance.
- Curation (calcul) : la phase de validation ingère des données brutes dans Oracle Autonomous Data Warehouse Serverless ou Oracle Exadata Database Service pour la déduplication et la vérification de la qualité des données.
- Lac de données - organisé (stockage) : lors de l'étape de workflow de rejet, la gouvernance des données garantit que tout enregistrement rejeté lors de l'étape d'assimilation en raison d'erreurs de validation ou d'autres erreurs de traitement est préparé sur un chemin de stockage de lac de données Azure distinct. Le service DevOps et CI/CD fournit des entrées à cette étape.
- Standardisé (calcul) : lors de l'étape de workflow de rejet, la gouvernance des données garantit que tout enregistrement rejeté lors de l'étape d'inclusion en raison d'erreurs de validation ou d'autres erreurs de traitement est préparé sur un chemin de stockage de lac de données Azure distinct. Le service DevOps et CI/CD fournit des entrées à cette étape.
- Data Warehouse - Couche de consommation (stockage) : lors de la phase d'orchestration, un système de planification gère les travaux de traitement des données, la planification et les dépendances de travail. Azure Data Factory peut être utilisé pour l'orchestration de travaux ETL. La phase d'orchestration inclut Oracle Autonomous Data Warehouse sans serveur ou Oracle Exadata Database Service, Delta Lake et Azure Data Lake Storage Gen 2
- Reporting/Analytics : cette étape comprend Power BI et des services de données tels que les flux externes et la monétisation des données.