資料平台 - 分散式資料平台

使用資料湖庫即時收集和分析事件,並從裝置串流資料,並將其與廣泛的企業資料資源建立關聯,以獲得所需的洞察力。

行銷、財務或物流等各種團隊 (例如行銷、財務或物流) 在處理網域特定資料的同時,也能確保跨網域的資料共用和使用安全,而無需複製資料並建立資料孤島?

採用網域導向的資料架構,為整個組織的團隊和部門提供高效率使用資料及開發業務所需的資料產品所需的靈活性和彈性。

此參考架構會將技術解決方案定位在整體業務內容中,策略意圖促成可測量的策略結果。這些成果可產生新的策略意圖,有效地提供持續的資料導向業務改進。



每個網域會獨立遵循上面顯示的高階程序來建立其網域資料產品。網域導向的資料架構可避免依賴單一競爭點 (例如完全集中式資料平台和 IT 團隊),以及培養靈活創新以在每個網域內產生受信任的資料產品,進而提供組織所需的彈性。



分散式資料平台簡介 -oracle.zip

每個網域的目標是取得網域相關資料,然後產生其他網域或最終資料用戶使用的資料產品。

網域可以是:

  • 來源對齊:直接從相關網域資料來源 (例如企業應用程式) 取得資料來源,並產生聚總或消費者對齊網域所消耗的資料產品。這些資料產品代表特定網域的事實來源。資料是在網域內和跨網域進行精細、策劃及基礎。
  • 聚總:使用和結合來源對齊的資料、建立可促進重複使用、減少重複,以及構成消費者對齊網域所需之基礎業務邏輯的聚總和增值資料產品。
  • 消費者調整:使用來源調整和聚總網域的資料,建立滿足特定使用案例的資料產品,並滿足指定網域內資料消費者的需求。

資料領域團隊及其主題專家 (SME) 可靈活地選擇策劃資料產品所需的技術、減少長期技術選擇流程的摩擦力和複雜性,以及縮短交付資料產品的時間。

選擇的技術通常是在企業層級決定,以符合安全性、擴展性、抗逆力和高可用性需求。此架構假設任何網域都可以使用與資料湖倉儲搭配使用的任何 Oracle Cloud Infrastructure (OCI) 服務。

資料網域團隊經常使用自動化來部署網域架構類型,讓預先設定的技術能夠快速上線新網域,同時確保強制實行企業層級需求 (例如安全性)。

建立資料產品之後,就會提供給其他網域或一般使用者與應用程式。資料產品會持續進行策劃,以提供資訊和見解。

資料產品可以是多種類型。使用一個以上的介面即可提供單一資料產品。
  • 資料集
  • API
  • 儀表板
  • 串流
  • 滿足特定需求的 AI 和機器學習 (ML) 模型

此參考架構主要使用資料共用作為基礎機制,在網域之間提供及使用資料產品。

Oracle Autonomous Data Warehouse 能夠共用資料,並允許在 Autonomous Data Warehouse 執行處理之間即時共用資料,或與符合 Delta Sharing 開放協定之任何技術中的版本化資料共用。

功能架構

此架構描述一個分散式平台,其中每個網域都是整體資料平台的子集,而每個網域都可以選擇使用的技術與服務。

此架構使用資料湖倉儲來儲存及提供資料,不論其資源配置或形式為何。為了簡化起見,架構將描述一些使用可用資料湖倉儲服務子集的網域。

使用資料湖倉儲架構的分散式資料平台可提供:

  • 可互通的模組化湖庫架構,資料領域可針對任何使用案例擷取及策劃任何類型的資料
  • 為每個資料網域靈活運用所需的 Oracle Cloud Infrastructure (OCI) 服務,以支援建立資料產品
  • 使用資料共用、串流、API、儀表板或應用程式安全地共用的資料產品策劃
  • 靈活地建立資料產品,減少網域間相依性,但交換資料產品所需的相依性除外
  • 使用接受的資料交換機制和合約在網域之間交換資料,提高資料網域隔離率並降低資料交換複雜性
  • 由於知識主題專家 (SME) 為其網域策劃資料和資料產品,因此提高資料治理和資料信任度
  • 使用基礎架構即程式碼 (IaC) 輕鬆上線新的資料網域,使用預先建置且經過測試的 Terraform 堆疊將部署自動化
  • 資料領域團隊使用資源和成本效益來調整建立資料產品時所使用的特定服務大小
  • 針對每個資料領域承擔適當的成本責任,並選擇在特定領域中進行微點成本控制

下圖說明功能架構。為了簡化,只會顯示四個資料網域,而且只會顯示資料網域可使用的部分資料湖倉儲功能。



分散式資料平台邏輯 -oracle.zip

由於部署分散式資料平台的特定產業和組織決定了資料網域,因此此參考架構並不規定應如何定義資料網域。描述的資料網域只是一個範例。

此架構著重於所有網域使用的下列邏輯分區:

  • 連線、擷取、轉換

    連接到資料來源,並擷取和精簡其資料,以用於架構中的每個資料層。

    來源對齊的資料網域會從內部和外部資料來源,以及從使用其資料產品的其他網域取得來源資料。聚總和與一致的消費者資料領域通常會從其他網域資料產品取得資料。所有網域都可以從外部來源取得相關網域資料。

  • 持續、策劃、建立

    協助存取與瀏覽資料以顯示目前的業務檢視。對於關聯式技術,資料在邏輯上或實體上可能會結構化成簡單的關聯式、縱向、維度或 OLAP 表單。對於非關聯式資料,此圖層包含一或多個資料集區,可從分析處理輸出,或針對特定分析任務最佳化的資料。

    在此層中,每個資料領域會策劃用來建立和公開資料產品的資料。通常,資料會根據其價值和品質,使用可將資料從銅、銀、黃金提升至金塊的中介架構進行策劃和組織。

    資料產品通常提供黃金層或銀層的資料。如果資料產品提供精細的資料,則會從銀層提供該資料。如果資料產品提供已彙總或已經是進一步擴增資料集的資料,則通常從黃金層提供該資料。

  • 分析、學習、預測

    抽象取用者資料的邏輯業務視圖。此抽象概念有助於開發、移轉至目標架構,以及提供來自多個資料來源的單一報告層。

    每個資料網域通常都有自己的資料用戶,例如使用儀表板、資料應用程式、串流或 API 格式策劃資料的網域使用者、應用程式或系統。

    資料網域可作為組織跨專案資料共用的方式,將資料產品提供給其他資料網域及自己的網域內。

此架構具有下列功能特性:

  • 描述四個資料網域。每個網域會策劃該網域的特定資料、根據該策劃資料建立資料產品,然後將這些資料產品共用至組織內的其他網域或外部實體。
  • 網域可以從內部資料來源、由其他網域策劃的資料產品,或由外部實體共用的資料進行資料來源。
  • 客戶和財務領域是來源一致領域,可從內部系統擷取和策劃資料、擁有自己的使用者,並策劃資料產品以服務到其他領域。
  • 「風險」網域是彙總網域,可從「客戶」與「財務」網域取得資料,以分別取得「客戶」設定檔與財務增強交易。此資料可用來建置和訓練儀表板所使用的機器學習 (ML) 風險模型和關鍵績效指標 (KPI),並與行銷網域共用。
  • 「行銷」網域是與消費者一致的網域,專門從「客戶」與「風險」網域取得「客戶」設定檔與「風險傾向」資料。此網域會建立區隔 ML 模型,以決定最佳個人化優惠。這些是透過使用推論 API 供內部應用程式使用,而批次推論結果則以資料產品形式分享給執行出埠行銷活動的合作夥伴。
  • 所有網域都共用一個包含其資料資產、資料實體和業務詞彙相關資訊的通用資料目錄。
  • 每個資料網域團隊及其資料產品擁有者都會維護其特定的資料目錄物件。使用 Oracle Cloud Infrastructure Identity and Access Management 原則保證安全隔離,此原則定義哪些團隊可以管理哪些資料目錄實體。
  • 通用資料目錄實體 (例如整個組織使用的業務詞彙術語) 是由由所有網域產品擁有者組成的資料治理主體所維護。
  • 資料產品會標示在資料目錄中,以便可供搜尋、包含自己的語意,以及與業務詞彙相關。
  • 資料共用可用來在網域之間共用即時或啟動多版本功能的資料產品。使用即時或版本化資料產品的選擇取決於每個資料產品和使用案例。

架構主要功能元件包括:

  • 來源一致網域:客戶和財務

    這些網域著重於策劃衍生自結構化與非結構化資料的客戶與財務資料。

    「客戶」網域使用下列功能來建立「客戶資料檔」資料產品:

    • 批次擷取 (Oracle Cloud Infrastructure Data Integration):從 CRM、網站及客戶方面的應用程式擷取資料。
    • 批次處理 (Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure Data Flow):使用低程式碼 ELT、以程式碼為中心的 ETL 或兩者來建立客戶設定檔資料產品,以處理結構化和非結構化資料。
    • 服務 (Oracle Autonomous Data Warehouse):策劃並提供「客戶資料檔」資料給風險和行銷網域。
    • 雲端儲存 / 資料湖 (Oracle Cloud Infrastructure Object Storage):儲存客戶文件、合約或表單。
    • 視覺化 / 學習 (Oracle Analytics Cloud):為網域一般使用者提供增強分析服務,包括客戶相關的 KPI,例如壽命時間值 (LTV)、保留率、客戶滿意度分數 (CSAT),以及淨促銷者分數 (NPS)。
    • AI 和生成式 AI 服務:Oracle Cloud Infrastructure Document Understanding 從客戶表單和文件擷取資料,而 Oracle Cloud Infrastructure Language 會處理文字資料,並使用情感分析、命名實體識別或文字分類來強化資料。

    財務領域使用下列功能來建立「擴增財務交易」資料產品:

    • 即時擷取 (Oracle Cloud Infrastructure GoldenGate):以近乎即時且非侵入的方式從核心銀行系統擷取財務交易。
    • 批次處理 (Oracle Cloud Infrastructure 資料轉換):使用低程式碼 ELT,它會對支出種類、特約商店明細或地點資料的財務交易資料進行分類和擴增,以驗證、塑造原始資料並將其轉換為精選資料產品。
    • 服務 (Oracle Autonomous Data Warehouse):保留策劃的資料,並提供擴增交易給風險網域。
    • 雲端儲存 / 資料湖 (Oracle Cloud Infrastructure Object Storage):儲存儲存在 Oracle Autonomous Data Warehouse 的財務交易記錄中參考的財務相關表單。
  • 彙總網域:風險

    此領域專注於建構、訓練和執行機器學習模型,以根據內部資料 (例如客戶設定檔和擴增交易) 和外部資料 (例如經濟和宏觀經濟資料) 偵測風險。

    這個域名專門為中小企進行風險分析和預防,並為所有其他需要其數據產品的領域提供服務。該網域具有使用增強分析的內部使用者,但其大部分工作是共用機器學習批次推論結果。例如,批次推論可能會根據客戶的生活方式和支出,計算客戶訂閱金融服務的風險傾向,以及經濟成長、通貨膨脹或失業率等宏觀經濟因素。

    此網域使用下列功能來建立風險傾向資料產品:

    • 服務 (Oracle Autonomous Data Warehouse):處理轉換和功能工程以饋送 ML 模型,以及儲存批次推論結果並產生風險相關 KPI。風險彙總網域是客戶設定檔與擴增交易資料的消費者,分別由客戶與財務網域共用。它提供行銷領域的風險傾向資料。
    • 學習與預測 (Oracle Cloud Infrastructure Data Science):涵蓋從探索資料分析、模型開發、執行到持續改進的完整機器學習作業生命週期。它會產生批次推斷結果,這是風險傾向共用資料的基礎。
  • 消費者調整網域:行銷

    此網域著重於策劃資料,以支援個人化和目標行銷活動。它使用其他網域共用的資料作為輸入,並透過使用 API 導向推論及與執行行銷活動並分享行銷活動執行結果的第三方行銷合作夥伴共用資料,即時提供區隔與下一個最佳優惠資料。

    此網域使用下列功能來建立行銷活動區隔資料產品:

    • 批次處理 (Oracle Cloud Infrastructure 資料轉換):處理和塑造從資料共用使用的資料。它也可以用來從資料共用複製資料至 Oracle Autonomous Data Warehouse
    • 服務 (Oracle Autonomous Data Warehouse):儲存指定行銷活動的策劃資料、行銷活動資訊、區隔及目標優惠。
    • 雲端儲存 / 資料湖 (Oracle Cloud Infrastructure Object Storage):儲存網域使用的任何非結構化資料。
    • 視覺化 / 學習 (Oracle Analytics Cloud):為網域一般使用者提供增強分析服務,例如行銷活動目標和執行 KPI。
    • 學習與預測 (Oracle Machine Learning):涵蓋從探索資料分析到模型部署的完整機器學習作業生命週期。使用者可以利用 AutoML 加速建置和訓練模型。視行銷活動而定,批次推論模型結果是使用資料共用給執行行銷活動的外部合作夥伴,或透過 Oracle Machine Learning 部署提供,以便即時推論客戶導向的應用程式所呼叫。
    • API (Oracle Cloud Infrastructure API Gateway):保護及管理 Oracle Machine Learning 部署 API 端點。
  • 共用服務

    所有網域用於資料治理和安全性的服務包括:

    • 資料治理 (Oracle Cloud Infrastructure Data Catalog):將業務詞彙表和所有網域資料實體編入目錄,將哪些項目分類為資料產品,以便找到這些項目。
    • 資料安全 (Oracle Data SafeOCI 稽核OCI 記錄日誌OCI 保存庫 ):增加所有網域的安全態勢。

架構變異:共用部署

分散式資料平台不需要針對指定的網域完全分散雲端資源。

分散式平台可在共用資料平台上執行,而共用資料平台的一組通用服務執行處理則支援不同的資料網域團隊。

主要架構可為每個網域提供最高等級的隔離和彈性,而且具有高度擴展性,可因應具有大量網域的分散式資料平台。分散式資料平台的需求可能會有所不同,對於特定使用案例,不同的架構模式變異可能較適合。

下圖顯示分散式平台樣式的共用部署變化。



分散 - 變量共享 -oracle.zip

所有網域之間都會共用單一 Oracle Autonomous Data Warehouse 執行處理,而這些網域會透過角色型存取 (RBAC) 和不同的綱要來隔離。資料湖中的資料也會使用 Oracle Cloud Infrastructure Identity and Access Management 原則和不同的區間,為每個網域隔離。資料產品在各自的綱要中經過精心策劃,並使用即時和版本化共用加以共用。

對於資料擷取與處理,網域 A 和 B 使用相同的 Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure Data Flow 執行處理和應用程式。C 和 D 領域對資料擷取和處理具有非常具體的需求,因此擁有不同的執行個體。

相同的邏輯適用於網域 A 和 B 共用單一分析雲端實例 (使用 RBAC 隔離) 的耗用層,而網域 C 和 D 則使用自己的服務實例。

您也可以使用混合式解決方案,而不要讓所有網域擁有單一執行處理,或讓每個網域擁有一個執行處理,有些網域可能會使用共用執行處理,而其他網域則具有專用執行處理。

這類混合式解決方案通常受功能需求以外的需求驅動,例如對某些網域而言,效能、安全性、高可用性或災難復原需求,且需要個別的執行處理來滿足這些需求,而不會對其他網域的工作負載造成負面影響。

架構變異:Hub 與 Spoke

通常,具有不同區域和國家 / 地區子公司的大型組織必須獨立執行其資料平台,而不需要集中式資料平台來服務所有子公司的工作負載,同時仍需與總部共用資料,以取得全球可見性和關鍵績效指標 (KPI)。

分散式資料平台是此案例的一個良好解決方案,其中有一個需要安全且有效率地交換資料的集線器 (總部) 和數個發言人 (子公司)。

此變體使用地理區域作為集線器與網輻模式的範例,但相同的模式也可以套用至其他範例,例如控股公司及其子公司。

發言可以部署在與中樞相同的租用戶,也可以部署在不同的租用戶中。

下圖顯示建置在不同區域的集線器與數個網輻,以及使用 Delta Sharing 通訊協定啟用的版本化共用來交換資料。此圖表僅顯示服務引擎功能元件。其餘的功能架構與主要功能架構中顯示的類似。



分散式變量中樞軸輻 -oracle.zip

由於資料會安全地交換,並且會透過網際網路跨區域傳輸,因此您應該考慮延遲時間。如果網輻與集線器之間共用的資料產品是聚總資料集與 KPI,而非大量精細資料,則此模式對於部署、維護及操作相當簡單。

另一種方法是使用 Oracle Autonomous Database 雲端連結,即使執行處理位於其他區域,也能跨執行處理進行無縫資料共用。

為了跨區域資料共用,必須將來源 Oracle Autonomous Data Warehouse 實例複製到目的地區域,讓中樞 Autonomous Data Warehouse 實例能夠無縫存取。您可以定期重新整理複製項 (不論是手動還是自動),讓中樞 Autonomous Data Warehouse 可以使用輪輻共用的最新資料產品。

由於中樞很可能使用屬於網輻曲線之整個資料集子集的資料產品,因此網輻可以擁有專用的 Autonomous Data Warehouse 執行處理,只是為了保留要與中樞共用的資料產品,最佳化可重新整理複製項。

可重新整理複製項的網路流量會透過 Oracle 骨幹遞送,在移動位於支點 Autonomous Data Warehouse 執行處理的大型資料產品時,會有較低的延遲和更高的頻寬。

使用版本化共用或雲端連結的選擇主要受到效能和成本影響,而不是受到功能需求的影響。

無論使用的選項為何,中樞和軸輻都有自己的本機資料平台,可使用此架構中顯示的分散式方法。

架構變異:異質資料生態系統

主要參考架構描述如何為單一組織部署分散式資料平台。

不過,您可以使用相同的架構來支援異質資料生態系統,讓不同組織能夠使用不同技術和不同目的共用資料。

使用案例可能包括與大學共用匿名資料的醫院,以供研究之用,或與汽車製造商共用零件資料的供應商。

使用 Oracle Autonomous Data Warehouse 作為服務引擎的組織,可以提供及使用其他支援差異共用開放通訊協定之技術的共用資料。

Delta Sharing 是支援資料生態系統的絕佳選擇,因為它提供廣泛的支援,並且由於其安全地提供和使用資料的簡單性。

您也可以使用其他機制 (例如 API 或資料串流) 共用資料。

實體架構

此分散式資料平台的實體架構支援下列各項:

  • 使用 Oracle Cloud Infrastructure Identity and Access Management 區間和原則進行網域隔離,個別團隊只有獲得授權才能在其區間中使用及部署雲端資源
  • 網域部署在其各自的工作負載 VCN 中,以提高隔離水平和安全性狀態
  • 使用部署在區間和 VCN 中的雲端資源,由網域團隊管理的資料擷取、儲存、處理和服務流程
  • 支援非功能需求,例如擴展性、高可用性、災害復原、安全性及服務層次目標 (SLO),因為每個網域團隊都會根據其特定網域需求使用不同的雲端資源
  • 針對每個網域雲端資源使用狀況精細控制成本
  • 使用專用端點和部署在專用子網路中的執行處理,提供完全安全且專用的端對端流量

    此外,也可以根據公司安全規則,在個別網域部署部分服務與公用端點。

  • Oracle Autonomous Data Warehouse 能夠使用即時共用或啟動多版本功能的共用,以及是否提供最新或啟動多版本功能的資料 (視使用案例而定)
  • 所有網域的集中式資料目錄,資料目錄子實體會使用 Oracle Cloud Infrastructure Identity and Access Management 原則依網域隔離,但需要尋找的資料產品除外
  • 由於每個新網域都可以使用基礎架構即程式碼 (IaC) 自動化功能加入,而不會影響現有的資料網域,因此可高度擴展部署

下圖說明此參考架構。



分散式資料平台實體 -oracle.zip

實體架構圖說明兩個網域,說明每個網域的雲端網路和服務配置方式。一般而言,所有網域網路和區間都相同,除非有特定非功能需求所驅動的異常狀況。

實體架構的設計:

  • 針對包含該網域工作負載的每個資料網域,使用中樞 VCN 和一個 VCN
  • 運用 Oracle Cloud Infrastructure FastConnect 和網站至網站 VPN 的內部部署連線來進行備援
  • 將內部部署和網際網路的所有內送流量先遞送至中樞 VCN,然後傳送至資料網域工作負載 VCN
  • 保護傳輸中和靜態的所有資料
  • 在專用端點部署服務以提高安全性狀態
  • 將 VCN 分為數個私有子網路,以增加安全狀態
  • 提供每個網域的區間以進行資源隔離
  • 使用動態路由閘道 (DRG),讓雲端資源支援其他網域 VCN 的輸入和輸出流量
  • Autonomous Data Warehouse 執行處理放置在資料專用子網路中以提高安全性,但是如果建立路由來啟用該流量,則可以提供及使用來自其他網域 Autonomous Data Warehouse 執行處理的即時和版本化共用

簡單性假的部署未描述潛在的設計改善包括:

  • 利用完全符合 CIS 規範的登陸區
  • 在中樞 VCN 中部署網路防火牆,透過檢查所有流量並強制實行原則來改善整體安全態勢

建議

本節中提供的建議特別著重於分散式資料平台,並且是「探索更多」區段中所列資料湖庫參考架構中提供的建議。

使用下列建議作為安全共用資料的起點。您的需求可能與此處所述的架構不同。

Oracle Autonomous Data Warehouse

此架構在共用基礎架構上使用 Oracle Autonomous Data Warehouse

  • 針對湖庫使用牌面架構,並根據銀層 (粒狀、擴增) 和金層 (強化、彙總) 建立資料產品。
  • 請考慮使用 Autonomous Data Warehouse 與其對異質資料共用的原生支援來共用資料產品,以提供更簡單、更安全且更可靠的架構。
  • 請考慮共用 Autonomous Data Warehouse 中公開的外部資料作為外部表格或混合表格,以便從啟動多版本功能或即時共用的安全功能中受益。
  • 請考慮為您的資料產品表格建立檢視,以區分基礎物件 (表格) 與共用物件 (檢視)。
  • 若要在與即時共用共用共用共用資料時提高安全性,請考慮使用與基礎綱要和表格不同的名稱空間和名稱值來隱藏內部物件名稱。
  • 若要在使用與雲端連結的即時共用時提高安全性,請讓資料集註冊管理員為您的使用案例定義最嚴格的資料集範圍。
  • 使用與雲端連結的即時共用時,請考慮啟用快取以改善資料取用者查詢效能。
  • 與大量資料產品的雲端連結使用即時共用時,請考慮將查詢卸載至可重新整理複製項,以改善資料取用者效能和工作負載隔離。
  • 如果您有大量的網域 Autonomous Data Warehouse 執行個體,或者您的執行個體運算需求很高,請考慮將其整合到彈性集區中。

OCI Object Storage

此架構使用可高度擴展且持久的 Oracle Cloud Infrastructure Object Storage 作為資料湖儲存。

請考慮使用多個精細區間來組織資料網域和資料網域內的團隊,以使用 Oracle Cloud Infrastructure Identity and Access Management 原則來協助隔離工作負載。

Oracle Cloud Infrastructure 資料目錄

此架構使用 Oracle Cloud Infrastructure Data Catalog 來管理資料產品的技術、業務及作業描述資料,使其可自我探索。

  • 請考慮為所有網域使用單一資料目錄執行處理,以集中描述資料和資料產品治理
  • 請考慮只對網域使用者的資料資產授予管理存取權
  • 請考慮將讀取存取權授予所有使用者,以便他們尋找跨組織維護的資料產品
  • 請考慮使用自訂特性,以資料產品擁有者、可用性、上次更新日期、版本等特性強化作業中繼資料。

資料網域部署

此架構使用資料湖倉一體模式和可用的 OCI 服務來支援端對端資料、分析及 AI 工作負載。

  • 請考慮為每個網域使用不同的 VCN 來隔離網域,以增加部署雲端資源時的安全性狀態和網域彈性。
  • 請考慮運用區間和 IAM 原則,區隔每個網域使用的不同 OCI 服務。

資料產品共用

  • 如果您需要使用 API 來服務資料產品,請考慮使用 Oracle REST Data Services。
  • 如果您使用 Oracle REST Data Services 共用資料產品,請考慮使用 Oracle Cloud Infrastructure API Gateway 來保護 API。
  • 如果您需要串流資料產品,請考慮使用 Oracle Cloud Infrastructure GoldenGateOracle Cloud Infrastructure Streaming

確認

  • Author: José Cruz
  • Contributors: Massimo Castelli, Mike Blackmore, Larry Fumagalli, Robert Lies