在 OCI 和 Microsoft Azure 之間建立多雲端資料解決方案
組織可以建立企業資料湖庫或資料倉儲,將即時和封存的資料儲存在單一集中位置。
此方法可簡化建立集中式資料存放區的程序,作為所有資料分析需求的全方位解決方案。
藉由運用多雲端資料分析解決方案,組織可以使用與各種資料來源 (包括 Fusion SaaS、純文字檔、內部部署和雲端資料庫、Salesforce 及電子商務網站) 整合的中央資料湖庫或資料倉儲,有效率地進行分析。
最終目標是建立由業務單位擷取與分析的集中式資料儲存庫,以提升端對端業務可見度並提供資料導向的洞察力。各項福利包括:
- 統一資料分析管線
簡化對各種雲端和內部部署來源 (例如資料庫和物件存放區) 資料的存取。
- 輕鬆整合
跨各種系統、格式、API、應用程式和裝置無縫整合資料,確保安全協作和遵守安全協定,無需手動編寫程式碼。
- 高效能分析
有效率的資料查詢可加快決策速度並改善客戶服務。
- 成本、安全性和可用性
將 CapEx 和 OpEx 最小化,同時達到最佳成本效益、效能、安全性及可用性。
架構
此參考架構說明企業多雲端資料管線,可收集並格式化來自各種來源的資料,並將其傳輸至企業資料湖或資料倉儲。它包括批次整合、資料整合和即時整合案例。
Oracle Interconnect for Microsoft Azure 將 Azure ExpressRoute 和 Oracle Cloud Infrastructure FastConnect 連結在一起,有效連接兩個獨立的雲端網路。
Azure 的虛擬網路 (VNet) 流量會透過與 OCI 虛擬雲端網路 (VCN) 的專用互連進行路由。
下圖說明此參考架構。
oci-azure-multicloud-data-solution 圖表 -oracle.zip
OCI Data Integration 使用原生轉接器從內部部署和雲端來源連線及擷取資料、使用 BICC 連線器存取 Oracle SaaS 應用程式、對資料進行轉換,以及透過轉接器將其載入 OCI 資料湖 (Oracle Autonomous Database 或 OCI Object Storage)。
Oracle 應用程式整合服務會透過原生轉接器收集來自各種來源系統的即時資料,例如 Oracle SaaS 應用程式、things 網際網路 (IoT)、串流服務、社群媒體、內部部署系統以及其他雲端提供者。接著,它會執行轉換和協調流程,再使用轉接器 (Oracle Autonomous Database 或 OCI Object Storage) 將資料載入 OCI 資料湖中。
OCI GoldenGate captures data from Oracle Autonomous Database and replicates it to Azure Data Lake Gen2 and Azure Synapse Analytics in near real-time via OCI FastConnect.Synapse 複製涉及在 Azure Data Lake Storage Gen2 的微批次中暫存和合併變更資料,然後再將其合併至 Synapse 目標表格中。
事件流程
- 資料擷取與傳輸
- 客戶資料會直接從資料來源傳輸至 OCI Object Storage ,或透過預設的來源特定驅動程式進行傳輸。
- 內部部署純文字檔會使用客戶的 Python 指令碼移至 OCI Object Storage ,或透過與 OCI Object Storage 建立 FTP 連線,以順暢地連線至 Oracle Integration Cloud Service 。
- 資料會以原始形式安全地上傳到具有加密功能的 OCI Object Storage 儲存桶。
- 資料擷取與轉換
- OCI Data Integration 會從 OCI Object Storage 和其他來源擷取資料,使用 Apache Spark 和建議的架構流程根據業務需求進行轉換,然後將轉換的資料儲存回 OCI Object Storage 以及自治式資料庫。
- 此處理作業會遵循作用中 ACID 特性和壓縮的 Delta Lake 架構。資料現在已結構化、可以查詢,並準備好進行進一步分析。
- OCI Logging 會管理所有處理日誌。
- 協調與排程
- OCI 資料整合可管理資料流程處理作業、視需要排定資料流程應用程式和資料科學記事本的執行。
- 開發人員可以從 UI 或 Data Science 服務筆記型電腦執行資料流程應用程式,以提供彈性。
- 資料存檔
- OCI Object Storage 生命週期原則由客戶定義和實作,在自動化資料封存流程中扮演關鍵角色。這些原則可協助將資料順暢地轉移到更具成本效益的儲存層,或根據預先定義的規則和準則進行系統性的過時資訊刪除。此自動化不僅對於確保資料管理效率至關重要,也要遵守組織必須遵守的各種保留原則。
- 利用這些生命週期原則,客戶可以最佳化儲存成本,同時保持對資料保留實務的控制,並確保符合法律和法規要求。
- 將資料複寫至 Azure
- OCI GoldenGate 用於透過以 Oracle Interconnect for Microsoft Azure 建立的專用網路將資料複製到 Azure 。
- OCI GoldenGate 與 Azure 資料湖和 Azure Synapse Analytics 緊密整合,以實現無縫的資料載入。
- 資料分析和報告
- Oracle Analytics Cloud 和 Power BI 是商業智慧工具的範例,可以建立與 OCI Object Storage 或 Oracle Autonomous Database 的連線。
- 這些工具會收集已轉換的資料,並產生容易操作的儀表板,顯示重要的業務關鍵績效指標 (KPI)。
- 透過這些儀表板,您可以從資料中取得寶貴的洞察分析,有助於做出明智的決策。
架構具有下列元件:
- Tenancy
租用戶是 Oracle 在您註冊 Oracle Cloud Infrastructure 時設定在 Oracle Cloud 內的安全隔離分割區。您可以在租用戶內的 Oracle Cloud 中建立、組織及管理您的資源。租用戶與公司或組織同義。通常,公司會擁有單一租用戶,並在該租用戶內反映其組織結構。單一租用戶通常與單一訂閱相關聯,單一訂閱通常只有一個租用戶。
- 地區
Oracle Cloud Infrastructure 區域是一個本地化地理區域,其中包含一或多個稱為可用性網域的資料中心。區域獨立於其他區域,而廣大的距離可以將其分開 (跨國家或大陸)。
- 區間
區間是 Oracle Cloud Infrastructure 租用戶內的跨區域邏輯分割區。使用區間組織 Oracle Cloud 中的資源、控制對資源的存取,以及設定使用配額。若要控制對指定區間中資源的存取,您可以定義指定可存取資源的人員及其可執行動作的原則。
- 可用性網域
可用性網域是區域內的獨立獨立資料中心。每個可用性網域中的實體資源會與其他可用性網域中的資源隔離,以提供容錯能力。可用性網域不會共用基礎架構 (例如電源或冷卻系統) 或內部可用性網域網路。因此,一個可用性網域的故障不應影響該區域中的其他可用性網域。
- 虛擬雲端網路 (VCN) 和子網路
VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。與傳統的資料中心網路一樣,VCN 可讓您控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊,您可以在建立 VCN 之後變更。您可以將 VCN 區隔成子網路,此子網路可以設定區域範圍或可用性網域。每個子網路都是由連續的位址範圍組成,這些位址不會與 VCN 中的其他子網路重疊。您可以在建立子網路後變更其大小。子網路可以是公用或專用。
- ExpressRoute
Azure ExpressRoute 可讓您設定 VNet 與其他網路之間的專用連線,例如您的內部部署網路或其他雲端提供者中的網路。
Azure ExpressRoute 是一般網際網路連線更可靠且更快速的替代方案,因為透過 Azure ExpressRoute 的流量不會周遊公用網際網路。
- 自治式資料庫
Oracle Autonomous Database 是完全受管理的預先設定資料庫環境,可用於交易處理和資料倉儲工作負載。您不需要設定或管理任何硬體,也不需要安裝任何軟體。Oracle Cloud Infrastructure 處理建立資料庫,以及備份、修補、升級和調整資料庫。
- 物件儲存
物件儲存可讓您快速存取任何內容類型的大量結構化與非結構化資料,包括資料庫備份、分析資料,以及豐富的內容 (例如影像和影片)。您可以安全地儲存資料,然後直接從網際網路或雲端平台內擷取資料。您可以擴展儲存體,而不會發生任何效能或服務可靠性的降低問題。針對您需要快速、立即和經常存取的「熱」儲存,使用標準儲存。針對長時間保留且極少或極少存取的「冷」儲存,使用封存儲存。
- 資料整合
Oracle Cloud Infrastructure Data Integration 是一款完全受管理的無伺服器雲端原生服務,可擷取、載入、轉換、清除各種資料來源的資料,並將資料重新調整為目標 Oracle Cloud Infrastructure 服務,例如 Autonomous Data Warehouse 和 Oracle Cloud Infrastructure Object Storage 。ETL (擷取轉換載入) 運用 Spark 上完全受管理的橫向擴展處理,而 ELT (擷取載入轉換) 運用 Autonomous Data Warehouse 的完整 SQL 下推功能,將資料移動降到最低,並改善新擷取資料創造價值的時間。使用者使用直觀且無程式碼的使用者介面設計資料整合流程,將整合流程最佳化,以產生最有效率的引擎和協調流程,並自動配置及調整執行環境。Oracle Cloud Infrastructure Data Integration 提供互動式探索和資料準備,並定義處理綱要變更的規則,協助資料工程師防止綱要差異。
- Oracle GoldenGate Cloud Service
Oracle GoldenGate Cloud Service 是一項完全受管理的服務,可運用 GoldenGate CDC 技術,即時且大規模地擷取資料並傳遞至 Oracle Autonomous Data Warehouse ,讓消費者儘快取得相關資訊,以進行內部部署或任何雲端來源的資料擷取。
- Oracle Integration
Oracle Integration 提供與 SaaS 和內部部署應用程式的預先建立連線、可立即執行的處理自動化樣板,以及適用於 Web 和行動應用程式開發的低程式碼視覺化產生器。它可讓您原生存取 Oracle Cloud ERP、HCM 和 CX 中的事件。連結應用程式特定的分析孤島,以簡化從請購到收款、從招募到付款、從潛在客戶到發票和其他關鍵流程,為您的 IT 和業務主管提供端對端可見性。
- Azure Synapse Analytics
Azure Synapse Analytics 是一項分析服務,整合資料整合、企業資料倉儲和大數據分析。它可讓您大規模使用無伺服器或專用選項查詢詞彙的資料。Azure Synapse Analytics 將這些概念與整合的體驗整合,可擷取、探索、準備、轉換、管理及提供資料,滿足立即的 BI 和機器學習需求。
- Azure 資料湖儲存體 Gen2
Azure Data Lake Storage Gen2 是一組專門用於大數據分析的功能,以 Azure Blob Storage 為基礎。Data Lake Storage Gen2 將 Azure Data Lake Storage Gen1 的功能與 Azure Blob Storage 結合。
例如,Azure Data Lake Storage Gen2 提供檔案系統語意、檔案層級安全性和規模。由於這些功能是以 Blob 儲存體為基礎,因此您還能取得具有高可用性與災害復原功能的低成本分層儲存體。
- Azure 應用程式閘道
Azure Application Gateway 是 Web 流量 (OSI 第 7 層) 負載平衡器,可讓您管理通往 Web 應用程式的流量。傳統負載平衡器會在傳輸層 (OSI 第 4 層 - TCP 和 UDP) 運作,並根據來源 IP 位址和連接埠將流量遞送至目的地 IP 位址和連接埠。Azure 應用程式閘道可以根據 HTTP 要求的其他屬性做出路由決策;例如 URI 路徑或主機標頭。
例如,您可以根據內送 URL 來遞送流量。因此,如果
/images
在內送 URL 中,您可以將流量遞送至為影像設定的特定伺服器 (稱為集區)。如果 URL 中有/video
,則會將該流量遞送至針對影片最佳化的另一個集區。
建議
- 佈建
- 為 OCI FastConnect 和 Azure ExpressRoute 虛擬迴路選取適當的大小,以符合工作負載的頻寬需求。
- 在連結至 OCI 動態路由閘道 (DRG) 和 OCI FastConnect 的 OCI VCN 和子網路內部署 Oracle Database 。
- 在 OCI 上設定路由和安全措施或網路安全群組 (NSG),以啟用 Azure Synapse Analytics 網路流量以連線至 Oracle Database。
- 使用專用端點設定 Oracle Database 時,請定義 VCN 設定值,以允許來自指定 VCN 的流量 (限制來自任何公用 IP 或 VCN 的存取)。
注意事項
建置此參照架構時,請考量下列各點。
- 成本
OCI FastConnect : OCI FastConnect 的價格在所有 OCI 區域中保持一致,無需為資料輸入或輸出支付額外費用。
Azure ExpressRoute :Azure ExpressRoute 的價格會因地區而異。
- 效能
在此參考架構中,客戶需要將 OCI 上主要資料庫的近乎即時資料複寫至 Azure 端點,以供其使用案例使用。客戶利用 OCI GoldenGate ,確保其異質和多雲端大數據貯體始終使用營運和分析生產系統的即時資料進行更新,以促進即時分析。
- 網路
Oracle Interconnect for Microsoft Azure 是替代網路解決方案,並且與特定 Azure -OCI 配對區域相容。若要瞭解哪些 Azure 和 OCI 區域支援 Oracle Database Service for Microsoft Azure ,請參閱 Explore More for Oracle Database Service for Azure Regional Availability。
如果 OCI 和 Azure 區域不支援 Oracle Interconnect for Microsoft Azure ,您可以使用每個雲端提供者的骨幹來處理流量。如果選擇使用 OCI 骨幹,就必須建立一個中介區域,其中包含 OCI 內的 Oracle Interconnect for Microsoft Azure 區域,以及不支援 Oracle Interconnect for Microsoft Azure 的區域遠端對等互連連線 (RPC)。