使用樣板的預先建立作業來建立安全的 OCI 資料整合環境
使用 Oracle Cloud Infrastructure Data Integration (OCI Data Integration) 服務,建置從外部來源到目標 Oracle Autonomous Data Warehouse 資料存放區的安全且可擴展的資料處理工作。
在這個參考架構中,我們正在考慮將您的業務資料分散到內部部署資料存放區,而公司仍在嘗試將部分應用程式移轉至雲端。OCI Data Integration 可以運用 OCI 結構中的網路和資料存放區連線,以安全且可擴展的方式擴展任何功能,既有的內部部署環境和其他雲端環境。
架構
此架構描述與上述案例相關的不同元件。
對於多重雲策略,您可能會在其他雲端提供者中遇到技術與資料服務,而 OCI 提供架構參照以連線至其他雲端提供者。從檔案儲存的資料到 ERP 中的程序驅動資料集,企業內部部署資料儲存因多種技術而異。
下圖說明參考架構與資料歷程。
oci-data-integration-flow-oracle.zip
以下是安全擷取、處理及強化資料的步驟,以成為儲存在下游資料庫或湖庫中的一部分目標資訊。
- 透過 Oracle Cloud Infrastructure FastConnect 或「網站至網站 VPN」,您可以使用 OCI Data Integration Data Assets 連線器擷取企業內部部署資料來源。
- 同樣地,OCI Data Integration Data Assets 連線器可連線的資料來源也可用來提取位於其他雲端的資料集 (例如,自訂應用系統、非 Oracle 應用系統、第三方雲端上執行的 Oracle 資料庫、Oracle Fusion SaaS、第三方雲端服務及應用系統)。每當 OCI Data Integration Data Asset 連線器無法直接存取資料時,也可以將大量載入檔案中的資料上傳到 Oracle Cloud Infrastructure Object Storage 儲存桶。
Oracle 針對其他雲端提供者 (例如 Microsoft Azure、Amazon Web Services 和 Google Cloud Platform) 開發了特定的雲端連線解決方案。如果沒有垂直雲端互通性,便可以透過 NAT 閘道安全地完成服務或應用程式的連線,確保只允許網際網路的外送流量。OCI 可透過加密端點的端對端連線,降低網際網路上暴露的任何資料。不過,在擷取中,OCI Data Integration Pipelines 可運用 Oracle GoldenGate 協調其他類型的資料採用,例如大量即時資料串流與資料來源複本。呼叫 OCI 服務的 REST API 呼叫的協調功能可運用偵測 OCI 物件儲存之儲存桶中的檔案變更,以及事件和整合函數的組合,擷取資料串流。
- 將資料擷取至 OCI 結構後,會在專用虛擬雲端網路 (VCN) 上處理資料,以便與網際網路存取進一步隔離。透過資料流程的資料整合服務 (OCI 資料整合) 可在無程式碼介面、對應來源和目標實體以及個別轉換中執行多個轉換。OCI Data Catalog 服務同時進行資料轉換,以提供歷程。Oracle 資料庫中靜態的資料可能會受到隱私權與規範的規範。Oracle Data Safe 會評估資料庫安全狀態、識別風險並將其分類、最終遮罩資訊視為機密。資料和資訊安全另一項資源 OCI Vault 提供服務以儲存和管理金鑰和加密密碼 (例如帳號資訊和密碼)、加密金鑰以及簡化保護資料的整體程序。
- 雖然 OCI 資料整合管線和 OCI 資料整合資料流程促進了內的資料資產強化,但 REST 操作員也可以安全地存取其他 OCI 服務。在此容量中,OCI Data Integration Orchestration 可針對機器學習呼叫資料科學中的筆記本,或呼叫人工智慧服務以透過預測或異常偵測來增強資料。OCI Data Integration Orchestration 可以運轉 Spark 引擎,使用具有相同安全 OCI 結構的 OCI 資料流程散發大量的資料處理。所有協調管理 (例如「監督」、「記錄日誌」及「通知」) 皆透過完全相同的機制整合。
- OCI 資料整合會寫入 OCI 或企業內部部署環境內的任何 Oracle 商店,加上 OCI 資料湖組合與 MySQL。分析會立即運用大量資源來進行資料視覺化、業務模型製作及完美報告。
- 資料的用戶、產生器及開發人員會安全地組織,以精確的資料及資源存取控制原則。
下列架構圖將進一步鑽研到導入中,並設計出建議的網路子網路區隔。
oci-data-integration-arch-oracle.zip
OCI Data Integration 服務提供對許多資料來源的立即可用連線,而微批次則可遞增地將資料處理至 OCI 環境。同樣地,您可以呼叫其他 OCI 服務來強化及進一步調整資料集。
- 批次處理會從來源系統轉換大型資料集,運用與 OCI Object Storage 緊密整合的 OCI 原生服務,並可讓您針對大規模的使用案例 (例如資料聚總和強化、資料倉儲擷取以及機器學習和 AI 資料使用) 建立曲線資料。
- OCI 資料整合是一項完全受管理、無伺服器的雲端原生服務,可擷取、載入、轉換、清除各種資料來源的資料,以及將資料重新塑造到目標 Oracle Cloud Infrastructure 服務,例如 Autonomous Data Warehouse 和 OCI Object Storage。
- OCI 資料整合可協調處理資料流程內的相依性,以及搭配其餘的 Oracle Cloud Infrastructure 服務 (例如 OCI 人工智慧和 Oracle Machine Learning),以強化資料或進一步進行分類,以及提供資料安全性和規範的資料安全。精細存取控制原則會維護服務對服務認證和授權。
- OCI 資料整合應用程式樣板提供一組立即可用的 OCI 資料整合作業 (REST (API)、SQL、整合 (資料流程) 以及管線。工作完全參數化,可以直接使用。任務也可以儲存至新專案與資料夾,以便修改設計以配合進一步的實作詳細資料。
架構具有下列元件:
- 區域
Oracle Cloud Infrastructure 區域是一個本地化的地理區域,包含一或多個資料中心 (稱為可用性網域)。區域與其他區域無關,因此廣大的距離可加以區隔 (跨國家或甚至洲)。
- 虛擬雲端網路 (VCN) 和子網路
VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。就像傳統的資料中心網路,VCN 可讓您完全控制網路環境。VCN 可以有多個非重疊 CIDR 區塊,而您可以在建立 VCN 之後進行變更。您可以將 VCN 區隔成子網路,然後對區域或可用性網域進行調整。每個子網路都是由不與 VCN 中其他子網路重疊的連續位址範圍所組成。您可以在建立子網路後變更其大小。子網路可以是公用網路或專用子網路。
- 資料整合
Oracle Cloud Infrastructure Data Integration 是一個完全託管、多租用戶、無伺服器的原生雲端服務,可協助您進行常見的 ETL 工作,例如從不同的來源擷取資料、清理、轉換及重新塑造該資料;以及有效將它載入 OCI 上的目標資料來源。
從各種來源 (例如 Amazon Redshift、Azure SQL Database 及 Amazon S3) 將資料擷取至物件儲存體,而 Autonomous Data Warehouse 則是此流程中的第一個步驟。
- 物件儲存
物件儲存可快速存取任何內容類型的大量結構化與非結構化資料,包括資料庫備份、分析資料,以及豐富內容 (例如影像和影片)。您可以安全地儲存,然後直接從網際網路或雲端平台內擷取資料。您可以無縫擴充儲存,而不會發生任何效能或服務可靠性的降低。針對快速、立即和經常存取的「熱」儲存,使用標準儲存。將封存儲存用於長時間且鮮少存取的「冷」儲存。
- 資料科學
Oracle Cloud Infrastructure Data Science 是一個完全託管、無伺服器的平台,資料科學團隊可用來在 Oracle Cloud Infrastructure (OCI) 上建置、訓練及管理機器學習 (ML) 模型。它可以輕鬆與其他 OCI 服務整合,例如 Oracle Autonomous Data Warehouse 、Oracle Cloud Infrastructure Object Storage 等。您可以建置和評估高品質機器學習模型,透過讓企業信任的資料快速運作,提高業務靈活性,而您可以輕鬆部署 ML 模型來支援資料導向的業務目標。
- Oracle Machine Learning
Oracle Machine Learning 提供在資料庫中為資料建立、訓練和部署模型的功能。Oracle Machine Learning 提供 Zeppelin 筆記型電腦介面,可讓資料科學家使用 OML4Py Python 用戶端程式庫訓練模型。Oracle Machine Learning 也提供使用 AutoML UI 建立訓練模型的無程式碼方法。透過 Oracle Machine Learning Services,可將模型部署為 REST API。不過,開放原始碼軟體的支援有限。
- AI 服務
Oracle Cloud Infrastructure AI 服務提供一組預先訓練且可客製化的模型 API,涵蓋語言、視覺、語音、決策及預測等使用案例。AI 服務提供可透過 REST API 端點存取的模型預測。這些服務提供最先進的預先訓練模型,在使用 1-6 服務訓練自訂機器學習模型之前,應加以考量及評估。或者,Oracle Machine Learning 服務也針對語言 (主題、關鍵字、摘要、相似性) 和願景提供一系列預先訓練的模型。
- 資料安全
Oracle Data Safe 是一項完全整合的區域雲端服務,專注於保護 Oracle 資料庫中機密和受規範資料的完整功能。Data Safe 也支援內部部署資料庫、Oracle Exadata Database Service on Cloud@Customer 和多雲端部署。所有 Oracle Database 客戶都可以使用 Oracle Data Safe 來評估組態和使用者風險、監控和稽核使用者活動,以及探索、分類和遮罩機密資料,以降低資料外洩的風險並簡化合規性。
- 自治式資料倉儲
Oracle Autonomous Data Warehouse 是一款自我驅動、自我保護且自我修復的資料庫服務,已針對資料倉儲工作負載最佳化。您不需要設定或管理任何硬體,或是安裝任何軟體。Oracle Cloud Infrastructure 可處理建立資料庫,以及備份、打補丁、升級及調整資料庫。
建議
- VCN
建立 VCN 時,請根據您計畫連附至 VCN 中子網路的資源數目,判斷所需的 CIDR 區塊數目和每個區塊的大小。使用標準專用 IP 位址空間內的 CIDR 區塊。
選取未與欲設定專用連線之任何其他網路 (在 Oracle Cloud Infrastructure 、您的內部部署資料中心或其他雲端提供者) 重疊的 CIDR 區塊。
您可以在建立 VCN 之後,變更、新增及移除其 CIDR 區塊。
設計子網路時,請考慮您的流量與安全需求。將特定層或角色內的所有資源連附至相同的子網路,以作為安全界限。
- OCI Data Integration 範本
許多日常管理工作都可以使用範本工作或重複使用範本工作輕鬆進行自動化。此外,樣板還提供為協助資料工程師量身打造的不同工作集,以擴充 OCI 資料整合資料處理與管理功能。使用案例呼叫其他 OCI 服務 (例如 Oracle Cloud Infrastructure AI Services) 進行文件分類、用於儲存遮罩內容的 Oracle Data Safe ,以及控制並報告 Autonomous Data Warehouse 增量饋送的樣板組建區塊,以方便 OCI 資料整合使用。
目前可用的範本清單為:
- Oracle 物件存放區管理
具有 REST 作業的應用程式,可讓物件儲存複製、刪除及重新命名物件,以及建立及刪除儲存桶。
- Oracle Vision 影像
搭配 REST 作業執行 OCI Vision 映像檔分析的應用程式。這些工作包括影像分類、物件偵測和影像文字偵測。
- Oracle Vision 文件
執行 OCI Vision 文件 AI 的 REST 作業應用程式。這些工作包括文件分類、文件鍵值偵測、文件語言分類、文件表格偵測,以及文件文字偵測。
- Oracle DataSafe 遮罩
具有參數化作業的應用程式,可從目標 Oracle 資料庫綱要產生 Oracle Data Safe 機密模型和遮罩。
- 將檔案從 Oracle Object Storage 載入 ADW
具有將不同檔案類型從 OCI Object Storage 載入 Autonomous Data Warehouse 的應用程式:JSON、Parquet、CSV、Avro。
- Oracle Database to Autonomous Data Warehouse 增量載入 (客戶管理)
允許根據並報告儲存在 Autonomous Data Warehouse 目標綱要中描述資料表格中最後執行的增量作業所執行的應用程式。
- 使用 Oracle Business Intelligence Publisher (BIP) 至 ADW 增量載入的 Oracle Fusion Applications
允許 Oracle Fusion Applications 使用 Oracle Business Intelligence Publisher (BIP) 報表執行擷取的應用程式,此應用程式會根據儲存於 Autonomous Data Warehouse 目標綱要中之中繼資料表格中的上次執行來執行擷取。
- Oracle 物件存放區管理
注意事項
收集、處理和策劃用於分析和機器學習的應用程式資料時,請考慮下列實施選項。
- 資料處理
- Oracle Cloud Infrastructure Data Integration 提供可擴展且符合成本效益的雲端原生、無伺服器、完全受管理的 ETL 平台。
- Oracle Cloud Infrastructure Data Flow 提供一個無伺服器的 Spark 環境,以按使用付費且極具彈性的模型來大規模處理資料。
- Oracle Cloud Infrastructure 大數據服務提供企業級的 Hadoop 即服務,具備端對端安全性、高效能,以及易於管理和升級的功能。
- 資料持續性
- Oracle Autonomous Data Warehouse 是一款簡單易用且完全自治的資料庫,可彈性調整規模、提供快速查詢效能,不需要資料庫管理。此外,也提供直接存取物件儲存體外部或混合分割表格的資料。
- Oracle Cloud Infrastructure Object Storage 以原始格式儲存無限制的資料。
- 資料轉換器
Oracle Cloud Infrastructure Data Integration 提供可擴展且符合成本效益的雲端原生、無伺服器、完全受管理的 ETL 平台。

