此圖表顯示資料湖倉儲之中介架構中的元件和階段。
架構的企業資料管理是由 Microsoft Purview 提供。為架構提供的基礎架構和安全服務包括監控、DevOps 和 CI/CD、身分識別和存取管理和加密,以及多區域災害復原容錯移轉。
資料來源包括來源系統、企業內部部署關聯式資料庫管理系統 (RDBMS)、雲端 RDBMS、物聯網 (IoT) 裝置及其他非結構化資料來源。
中介架構會將來源資料移動分成圖表頂端所列的不同階段:
- 銅級階段:從各種來源擷取、驗證及策劃資料。
- 銀級階段:資料會儲存並處理以進行分析與報告。
- 金級階段:提供精簡資料以進行分析和報告。
在這些階段中,元件群組會透過提供運算或儲存功能來進一步識別:
- 運算:資料工程管線可處理及轉換資料,並透過執行各種轉換規則 (例如去除重複項、資料品質、套用星狀綱要的資料模型製作規則等),在準備資料以進行分析和報告時扮演關鍵角色。
- 儲存體:資料是擷取、儲存及管理為 Azure Data Lake Service、Oracle Database@Azure 、SQL 集區等資料擷取的基礎。
中介階段會進一步劃分為下列部署區域,資料會循序移動:
- Azure SQL 資料庫 (運算):使用 Azure Data Factory 擷取資料。
- 登陸 - 原始區域檢視 (儲存):檔案儲存在 Azure Data Lake Storage 中。
- 原始 - 原始區域檢視 (儲存):「攝取架構」階段會使用差異湖和監控服務,管理 Azure 資料湖儲存中的檔案和資料變更。
- 策劃 (運算):驗證階段會將原始資料擷取至 Oracle Autonomous Data Warehouse Serverless 或 Oracle Exadata Database Service 以進行重複資料刪除和資料品質檢查。
- 資料湖 - 精選 (儲存):在「拒絕工作流程」階段,資料治理可確保擷取階段因驗證錯誤或其他處理錯誤而被拒絕的任何記錄都會暫存在個別的 Azure 資料湖儲存路徑上。DevOps 和 CI/CD 服務會提供此階段的輸入。
- 標準化 (運算):在「拒絕工作流程」階段,資料治理可確保擷取階段因驗證錯誤或其他處理錯誤而被拒絕的任何記錄都會暫存在個別的 Azure 資料湖儲存路徑上。DevOps 和 CI/CD 服務會提供此階段的輸入。
- 資料倉儲 - 耗用量層 (儲存):在「協調」階段,排程系統會管理資料處理工作、排程及工作相依性。Azure Data Factory 可以用於協調 ETL 工作。協調流程階段包括 Oracle Autonomous Data Warehouse 無伺服器或 Oracle Exadata Database Service 、Delta Lake 及 Azure Data Lake Storage Gen 2
- 報告 / 分析:此階段包括 Power BI 與資料服務,例如外部饋送與資料貨幣化。