瞭解在 Oracle Cloud 中設計資料湖
OCI 提供健全的基礎架構與雲端平台資料及 AI 服務組合,以從任何來源存取、儲存及處理各種資料類型。OCI 可讓您在雲端上實行端對端的企業規模資料和 AI 架構。此解決方案播放書提供關鍵服務的總覽,協助您在 OCI 上建置和使用資料湖。您也可以瞭解其他可用的服務,並可根據我們的部分否決模式與專家指引來設計您的資料湖解決方案。
架構
此架構結合資料湖與資料倉儲的能力,以處理來自廣泛企業資料資源的不同類型資料。使用此架構在 OCI 中設計端對端資料湖架構。
此圖表顯示 Oracle 資料與 AI 服務的高階架構。

data-lakes.png 圖解描述
在此架構中,資料會在這些階段中移動:
- Data Refinery
擷取及精簡架構中每個資料層中所使用的資料。
- 資料保存與處理 (策劃資訊層)
協助存取及瀏覽資料以顯示目前的業務檢視。對於關聯式技術,資料可以邏輯或實際以簡單關聯式、縱向、維度或 OLAP 格式建構。對於非關聯式資料,此層包含一或多個資料集區 (分析處理的輸出或針對特定分析作業最佳化的資料)。
- 存取與解譯
摘錄消費者資料的邏輯業務檢視。此抽象可協助 Agile 開發、移轉至目標架構,以及從多個聯合來源佈建單一報表層。
此架構包含下列元件:
- 大數據服務
Oracle Big Data Service (BDS) 是一項完全受管理的自動化雲端服務,可為叢集提供 Hadoop 環境。BDS 可讓客戶輕鬆部署所有大小的 Hadoop 叢集,並簡化使 Hadoop 叢集成為高可用性與安全的程序。BDS 會根據 Oracle 的最佳做法,實行高可用性與安全性,並降低進階 Hadoop 技能的需求。BDS 提供常用的 Hadoop 元件,讓企業輕鬆將工作負載搬移至雲端,並確保與企業內部部署解決方案的相容性。
Oracle Cloud SQL 是可用的附加服務,可讓客戶針對 HDFS、Kafka 以及 Oracle Object Storage 中的資料起始 Oracle SQL 查詢。任何使用者、應用程式或分析工具都可以使用資料存放區,將資料移動和速度查詢降到最低。BDS 與資料整合、資料科學以及分析服務互動,讓開發人員可以使用 Oracle SQL 輕鬆存取資料。企業可以消除資料矽,並確保資料湖未與其他公司資料來源隔離。
- 資料目錄
Oracle Cloud Infrastructure Data Catalog 是針對企業資料提供完整管理的自助服務資料尋找和治理解決方案。「資料目錄」對於組織搜尋及尋找要分析的資料而言是必要的。他們可協助資料專業人員探索資料和支援資料治理。
您可以使用「資料目錄」作為單一協作環境來管理技術、商業以及作業中繼資料。您可以從廣泛的支援資料來源 (可使用公用或專用 IP 位址存取) 收集技術描述資料。您可以組織、尋找、存取、瞭解、強化以及啟用此描述資料。使用隨選或以排程為基礎的自動收集,確保資料目錄一律具有最新資訊。您可以從 Oracle Cloud 的所有安全性、可靠性、效能和規模獲益。
-
資料流程
Oracle Cloud Infrastructure Data Flow 是一項完全受管理的服務,可用來執行 Apache Spark 應用程式。「資料流程」應用程式是由 Spark 應用程式、其相依性、預設參數以及預設程式實際執行資源規格所組成的可重複使用樣板。您可以透過 API 閘道和可用的功能,使用 REST API 來管理資料流程和應用程式開發週期的所有層面、追蹤及執行 Apache Spark 工作。
資料流程透過允許開發人員專注於其應用程式開發,支援快速傳遞應用程式。它提供執行應用程式的日誌管理和程式實際執行環境。您可以整合應用程式和工作流程,並透過使用者介面存取 API。它不需要設定基礎架構、叢集啟動設定、軟體安裝、儲存體和安全。
- Autonomous Data Warehouse
Oracle Autonomous Data Warehouse 是一項針對資料倉儲工作負載最佳化的自我驅動、自我保護、自我修復資料庫服務。您不需要設定或管理任何硬體,或是安裝任何軟體。Oracle Cloud Infrastructure 會處理建立資料庫,以及備份、修正、升級和調整資料庫。
- 資料整合
Oracle Cloud Infrastructure Data Integration 是一項完全受管理的無伺服器雲端服務,可擷取及轉換資料科學和分析的資料。資料整合可使用 Oracle 的資料流程設計工具,將複雜的資料擷取、轉換及載入程序 (ETL/E-LT) 簡化為資料湖與倉儲,以進行資料科學與分析。它使用以規則為基礎的整合流程提供自動化的綱要偏差保護,可協助您避免中斷的整合流程,並在資料綱要發展時減少維護。
-
數據科學
Oracle Cloud Infrastructure Data Science 是一個完全受管理且無伺服器平台,可讓資料科學家在 Oracle Cloud Infrastructure 上建置、訓練及管理機器學習模型。資料科學家可以使用 Oracle 強化的 Oracle 加速資料科學 (ADS) 程式庫進行自動化機器學習 (AutoML)、模型評估以及模型說明。
ADS 是一種 Python 程式庫,其中包含一組完整的資料連線,可讓資料科學家存取及使用許多不同資料存放區的資料來產生更好的模型。ADS 函式庫支援 Oracle 本身的 AutoML,以及 H2O.ai 和 Auto-Sklearn 等開放原始碼工具。
資料科學家與基礎架構管理員可以輕鬆地將資料科學模型部署為 Oracle Functions,這是 OCI 上的高擴展性、隨選和無伺服器架構。團隊成員可以使用模型目錄來保留和共用完成的機器學習模型,以及重新產生、測試和建置它們所需的使用者自建物件。
關於資料湖
資料湖是一個可擴展的集中式儲存區域,可讓企業將其所有資料儲存在成本效益的彈性環境中。資料湖提供彈性的儲存機制來儲存原始資料。若要讓資料湖生效,組織必須檢查其特定的管理需求、工作流程和工具。圍繞這些核心元素的建置可建立功能強大的資料湖,將其緊密整合至現有的架構,並輕鬆地將資料連接至使用者。
- 運用分析和機器學習加速決策時間
- 收集及探勘資料科學家、分析師及開發人員的大數據
若要讓儲存在資料湖中的非結構化資料非常有用,您必須處理並準備該資料以供分析使用。如果您缺少廣泛的資料工程資源,這通常會受到挑戰。
以下列出維護企業內部部署資料湖的技術挑戰。
- 頭款成本和彈性不足:組織建立自己的企業內部部署基礎架構時,必須規劃、採購和管理硬體基礎架構、微調伺服器,以及處理中斷和停止工作時間。
- 持續維護成本:營運內部部署資料湖時,大部分在 IT 與工程成本中建立分銷,組織必須說明持續的維護成本。這也包括修補、維護、升級和支援基礎硬體和軟體基礎架構的成本。
- 缺乏靈活性與管理任務:IT 組織必須以大規模佈建資源、處理不平衡的工作負載,並且維持快速變更、社群導向、開源軟體創新的空間。
- 建立資料管線的複雜性:資料工程師必須處理各種工具的複雜性,以擷取、組織、預先處理、協調批次 ETL 工作,以及查詢儲存在湖中的資料。
-
擴展性和次佳資源使用率:當您的使用者群成長時,您的組織必須手動管理資源使用率,並建立額外的伺服器以依需求擴大。大部分的內部部署 Hadoop 和 Spark 都會將運算和儲存資源直接連結至建立可擴充模型的相同伺服器。
以下列出將資料湖搬移至雲端的業務優勢。
- 降低工程費用和管理的服務:使用雲端工具更有效率地建置預先整合的資料管線,並降低資料工程費用。使用提供通透擴展功能的雲端服務 (例如物件儲存和 Autonomous Data Warehouse (ADW)),將擴展功能管理傳輸至您的雲端提供者。您不需要在雲端資料湖上新增或管理叢集。
- 運用 Agile 基礎架構與最新技術:透過我們的彈性、靈活的雲端基礎架構和隨選雲端基礎架構,為新的使用案例設計您的資料湖。您可以快速升級至最新的技術,並在雲端服務可供使用時新增雲端服務,而不需要重新設計架構。