下图显示了数据湖仓一体奖章体系结构中的组件和阶段。
该架构的企业数据管理由 Microsoft Purview 提供。为档案提供基础设施和安全服务包括监测、DevOps 和 CI/CD、身份和访问管理和百科全书以及多区域灾难恢复故障转移。
数据源包括源系统、本地关系数据库管理系统 (RDBMS)、云 RDBMS、物联网 (IoT) 设备以及其他非结构化数据源。
奖章体系结构将源数据移动划分为图表顶部列出的不同阶段:
- 青铜阶段:来自各种来源的数据被摄取,验证和策划。
- 白银阶段:数据被存储和处理,用于分析和报告。
- 黄金阶段:提供精细数据进行分析和报告。
在这些阶段中,组件组通过提供计算功能还是存储功能进一步标识:
- 计算:数据工程管道,通过执行重复数据删除、数据质量、为星型模式应用数据建模规则等各种转换规则,处理和转换数据,并在准备分析和报告数据方面发挥关键作用。
- 存储:数据作为 Azure Data Lake Service、Oracle Database@Azure 、SQL 池等数据检索的基础进行摄取、存储和管理。
奖章阶段进一步分为以下部署区域,数据将按顺序移动:
- Azure SQL 数据库(计算):使用 Azure Data Factory 获取数据。
- 着陆 - 原始区域视图(存储):文件存储在 Azure 数据湖存储中。
- 原始区域视图(存储):摄取框架阶段使用 Delta Lake 和监视服务管理 Azure Data Lake Storage 中的文件和数据更改。
- 持续时间(计算):验证阶段将原始数据摄取到 Oracle Autonomous Data Warehouse Serverless 或 Oracle Exadata Database Service 以进行重复数据删除和数据质量检查。
- 数据湖 - 整理(存储):在“拒绝工作流”阶段,数据治理可确保在摄取阶段因验证错误或其他处理错误而被拒绝的任何记录都暂存在单独的 Azure 数据湖存储路径中。DevOps 和 CI/CD 服务提供了对此阶段的输入。
- 标准化(计算):在“拒绝工作流”阶段,数据治理可确保在摄取阶段因验证错误或其他处理错误而被拒绝的任何记录都暂存在单独的 Azure 数据湖存储路径中。DevOps 和 CI/CD 服务提供了对此阶段的输入。
- 数据仓库 - 消耗层(存储):在编排阶段,调度系统管理数据处理作业、调度和作业相关性。Azure 数据工厂可用于 ETL 作业的编排。编排阶段包括 Oracle Autonomous Data Warehouse Serverless 或 Oracle Exadata Database Service 、Delta Lake 和 Azure Data Lake Storage Gen 2
- 报告/分析:此阶段包括 Power BI 和数据服务,如外部馈送和数据货币化。