實作多雲端資料湖整合架構
此參考架構說明組織如何將多個來源的資料整合至 Oracle Cloud Infrastructure (OCI) 資料湖。
此參考架構代表大型企業組織的使用案例,其業務策略包含收購新組織作為其長期成長計畫的一部分。組織正在使用分析平台建置資料湖,而成本分析則是範圍內的其中一個模組。
組織已為儲存商業發票資料的財務導入 Oracle Fusion Cloud Applications 。
組織最近取得了一個新組織,目前正使用 Amazon Web Services (AWS) 來代管發票處理應用程式。將發票資料從 AWS 導入 Oracle Cloud Infrastructure (OCI) 後,在載入資料湖之前,必須先以成本中心 / 供應商資訊充實大量發票資料。成本中心資料源自 Oracle Fusion Cloud Applications ,供應商資料源自內部部署的 MySQL 資料庫。
架構
此參考架構說明如何將來自不同雲端提供者和內部部署資料來源的資料,帶到由 OCI 代管的資料湖。此架構涵蓋批次整合、資料整合、即時整合及以事件為基礎的整合案例。
下圖說明此參照架構的資料流程。
oci_multicloud_datalake_flow.png 圖解描述
oci-multicloud-datalake-flow-oracle.zip
- 連線並擷取下列位置的資料:
- 透過原生轉接器進行 AWS 服務和 Azure 服務。
- 透過專用連線 (FastConnect/VPN) 提供的企業內部部署資料來源。
- 透過 BICC 連接器進行 Oracle SaaS 應用程式。
- 對擷取的資料執行轉換。
- 透過轉接器 (ADB/ 物件儲存) 將資料載入 OCI 資料湖中。
- 透過原生轉接器,接收來自各種來源系統 (例如 Oracle SaaS 應用系統 /IOT/ 串流處理服務 / 社群媒體 / 內部部署系統 / 其他雲端提供者) 的即時資料。
- 執行轉換 / 協調邏輯。
- 透過轉接器 (ADB/ 物件儲存) 將資料載入 OCI 資料湖中。
下圖說明此參照架構。
oci-multicloud-datalake-oracle.zip
- 藉由從多個異質來源系統擷取資料並整合至單一永久存放區,來合併資料。這通常使用擷取、轉換與載入 (ETL) 常式來完成。
- 從代管於專用 / 公用網路 (客戶內部部署、第三方雲端網路 (Azure VNet、AWS VPC)) 中的來源系統 (HDFS、Oracle Autonomous database、MySQL、Oracle Database、Azure Synapse、AWS Redshift、物件儲存體、S3、Microsoft SQL、PostgreSQL 等) 擷取大量資料,然後載入 OCI 資料湖中。
- 透過 BICC/BI Publisher 連線從 Oracle Fusion Cloud Applications 擷取資料,然後載入 OCI 資料湖中。
- 使用協調模式從多個來源擷取大量資料。
- 實行排定的 (每日、每月、每週、每月、Cron 表示式等等) ETL 工作。
Oracle Integration Cloud (OIC) 用於下列情況:
- 即時從 Oracle Cloud 應用系統、CRM、電子商務及企業內部部署 / 第三方雲端應用系統接收資料,然後載入資料湖。
- 將資料從資料來源產生的檔案 (無磁碟區) 載入資料湖。
- 將 Oracle Integration Cloud REST API 暴露在 Webhook 平台,即時接收資料並載入資料湖中。
- 某些 IOT 平台 (Geotab、CheckSafe 等) 具有 Webhook 拍賣性,可將資料傳送至任何 https api 以取得新的事件,以便直接連線至 API 閘道。
- 從社群媒體平台 (Facebook、LinkedIn、Twitter、Slack 等) 接收資料,並載入至 OCI 資料湖。
- 使用可從您網路存取的專用端點發布 OIC API 和應用系統 API,或視需要公開至公用網際網路。端點支援 API 驗證、要求和回應轉換、CORS、認證和授權,以及要求限制。
- 解脫 API 開發中的安全性和業務邏輯。
- 使用可能會將資料饋送至下游資料湖的安全控制將 API 暴露在受限制的來源。
架構具有下列元件:
- 區域
Oracle Cloud Infrastructure 區域是一個本地化的地理區域,包含一或多個資料中心 (稱為可用性網域)。區域與其他區域無關,因此廣大的距離可加以區隔 (跨國家或甚至洲)。
- 可用性網域
可用性網域是區域內的獨立資料中心。每個可用性網域中的實體資源會與其他可用性網域中的資源隔離,以提供容錯能力。可用性網域並不共用基礎設施,例如電力或冷卻系統或內部可用性網域網路。因此,一個可用性網域發生失敗並不會影響區域中的其他可用性網域。
- 虛擬雲端網路 (VCN) 和子網路
VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。就像傳統的資料中心網路,VCN 可讓您完全控制網路環境。VCN 可以有多個非重疊 CIDR 區塊,而您可以在建立 VCN 之後進行變更。您可以將 VCN 區隔成子網路,然後對區域或可用性網域進行調整。每個子網路都是由不與 VCN 中其他子網路重疊的連續位址範圍所組成。您可以在建立子網路後變更其大小。子網路可以是公用網路或專用子網路。
- 整合
Oracle Integration 是一項完全託管的服務,可讓您整合應用系統、將流程自動化、深入瞭解業務流程,以及建立視覺化應用系統。
- Oracle Data Integration,資料整合
Oracle Cloud Infrastructure Data Integration 是一個完全受管理、無伺服器的雲端原生服務,可從各種資料來源擷取、載入、轉換、清理及重新塑造資料,並放入目標 Oracle Cloud Infrastructure 服務,例如 Autonomous Data Warehouse 和 Oracle Cloud Infrastructure Object Storage 。ETL (擷取轉換載入) 運用 Spark 完全管理的橫向擴展處理,而 ELT (擷取載入轉換) 運用 Autonomous Data Warehouse 的完整 SQL 推送功能將資料移動降到最低,並縮短新擷取資料的時間。使用者可透過直觀且無程式碼的使用者介面設計資料整合流程,將整合流程最佳化,以產生最有效率的引擎和協調、自動配置及調整執行環境。Oracle Cloud Infrastructure Data Integration 提供互動式探索和資料準備,並定義處理綱要變更的規則,協助資料工程師避免發生綱要差異。
- Oracle Business Intelligence 雲端連接器
Oracle BI Cloud Connector (BICC) 可用來擷取 Fusion 的資料,並將資料儲存在 CSV 格式的共用資源中,例如 Oracle Universal Content Management (UCM) Server 或雲端儲存。
- OIC 連線代理程式
有了 OIC 連線代理程式,您便可以在專用或企業內部部署網路與 Oracle Integration Cloud 的應用系統之間,建立混合式整合及交換訊息。
- 資料湖
資料湖是可擴展的集中式儲存區域,它可以儲存原始資料,並讓企業將其所有資料儲存在符合成本效益且具有彈性的環境中。資料湖提供儲存原始資料的彈性儲存機制。
- 物件儲存
物件儲存可快速存取任何內容類型的大量結構化與非結構化資料,包括資料庫備份、分析資料,以及豐富內容 (例如影像和影片)。您可以安全地儲存,然後直接從網際網路或雲端平台內擷取資料。您可以無縫擴充儲存,而不會發生任何效能或服務可靠性的降低。針對快速、立即和經常存取的「熱」儲存,使用標準儲存。將封存儲存用於長時間且鮮少存取的「冷」儲存。
- Autonomous Database
Oracle Cloud Infrastructure Autonomous Database 是一個完全受管理且預先設定的資料庫環境,可用來處理交易和資料倉儲工作負載。您不需要設定或管理任何硬體,或是安裝任何軟體。Oracle Cloud Infrastructure 可處理建立資料庫,以及備份、打補丁、升級及調整資料庫。
- 分析
Oracle Analytics Cloud 是一項可擴展且安全的公有雲服務,可為業務分析師提供資料準備、視覺化、企業報告、增強分析和自然語言處理與產生的現代化 AI 驅動自助服務分析功能。透過 Oracle Analytics Cloud ,您還可以獲得靈活的服務管理功能,包括快速設定、輕鬆擴展和修補,以及自動化生命週期管理。
- 資料目錄
Oracle Cloud Infrastructure Data Catalog 是一個完全受管理的自助服務資料探索與治理解決方案,適用於您的企業資料。它為資料工程師、資料科學家、資料管理人員和資料主管提供單一的協同合作環境,以管理組織的技術、業務及營運描述資料。
建議
- 安全
所有連線都是透過專用網路建立,而所有 ETL 交易都會透過 Fastconnect 針對內部部署、Colt for AWS、Azure Interconnect for Azure 進行路由。建議您在來源和目標使用加密與解密。這將確保運輸的安全性。
注意事項
部署此參照架構時,請考量以下各點。
- 安全使用 OCI 身分識別與存取管理 (IAM) 原則控制可存取您雲端資源的人員,以及可執行的作業。若要保護資料庫密碼或任何其他加密密碼,請考慮使用 OCI 保存庫服務。
- 將 IAM 使用者與群組的最低權限存取指派給
dis-family中的資源類型。 - 為了將被授權的使用者或惡意刪除所導致的資料遺失減至最低,Oracle 建議將
DIS_WORKSPACE_DELETE權限指派給一組最小的 IAM 使用者和群組。只將DIS_WORKSPACE_DELETE權限指派給租用戶和區間管理員。 - 若要保護您的資料來源不受任何安全性漏洞影響,請只將證明資料提供給唯讀帳戶。資料整合只需具備從資料資產擷取資料的讀取存取權。
- 將 IAM 使用者與群組的最低權限存取指派給
- 成本
- 如果經常透過雲端界限傳輸大規模資料,資料流程的方向就至關重要。雲端提供者通常不會收取資料輸入費用,但所有提供者都會收取資料輸出費用。資料輸出速率因雲端提供者而異。將輸出成本納入多雲端設計考量是很重要的。此外,移動資料時,必須考量資料常駐。
- OCI FastConnect:所有 OCI 區域的 FastConnect 成本相同。
- Microsoft Azure ExpressRoute:Microsoft Azure ExpressRoute 成本因不同區域而異。Azure 有多個可供快速路由使用的 SKU。Oracle 建議使用「本機」設定,因為它沒有個別的傳入或傳出費用,並且從 1 Gbps 的最小頻寬開始。標準版和進階版組態提供較低的頻寬,但在計量付費的設定中會產生個別的輸出費用。
- 使用低成本的封存儲存體服務可儲存極少被存取但必須長期保留的資料。定義生命週期管理原則,在指定的持續時間內自動將資料搬移至封存儲存或刪除資料。
- 高可用性
每個互連迴路 (ExpressRoute 和 FastConnect) 在同一個 POP 上都有備援迴路,但實體路由器不同,可提供高可用性。
