Autonomous Data Warehouse 上的機器學習平台

為了讓空間能夠快速變更資訊需求,組織正在尋找每個機會,以快速訓練、部署和管理機器學習 (ML) 模型。

有了 Oracle Autonomous Data Warehouse (ADW),您便擁有所有必要的內建工具來載入和準備資料,以及訓練、部署和管理機器學習模型。這些服務隨附於 Autonomous Data Warehouse ,但您也可以彈性地混合使用及比對其他工具,使其符合組織的需求。

此參照架構將技術解決方案定位於整體商業相關資訊環境內:

資料導向 - 業務 -context.png 的描述如下
data-driven-business-context.png 圖解描述

當組織將資料倉儲或資料市集與雲端機器學習平台一起導入時,通常需要將多個服務組合在一起,才能導入端對端解決方案。對某些組織而言,這是可達成的,對缺乏經驗或資源的其他組織而言,這可能是令人卻步的任務。

完整的機器學習平台應至少包含下列項目:

  • 輕鬆存取結構化和非結構化資料
  • 建立及管理資料工程管線的能力
  • 能夠大規模建立模型和評分資料,以符合業務目標
  • 建立機器學習模型的協同合作平台
  • 管理及部署模型的簡單處理
  • 使用 AutoML 展開能夠建立機器學習模型以及加速資料科學家工作的達成度

Autonomous Data Warehouse 中包含的工具機器學習平台為您提供有效的機器學習優點,而不必依賴 IT 資源與可用性。此外,產品更新和安全修正程式也會透過 Autonomous Data Warehouse 自動處理。

架構

此架構使用內嵌於 Oracle Autonomous Data Warehouse 中的資料科學和機器學習功能,分析廣泛企業資料資源的資料以進行商業分析和機器學習。

下圖根據使用案例顯示使用者可遵循的多個路徑。最簡單的路徑 (實線) 提供了一種簡單的方法來執行資料工程任務、建置機器學習模型,以及使用 Autonomous Data Warehouse (ADW) 中內嵌的工具來管理和部署模型。針對更進階的使用案例 (虛線),我們已包含其他 Oracle Cloud Infrastructure (OCI) 服務,可與 ADW (已包含在灰色方塊中) 內的服務緊密整合。

ml-adw-architecture.png 的描述如下
ml-adw-architecture.png 圖解描述

ml-adw-arch architecture-oracle.zip

架構著重於下列邏輯部門:

  • 擷取、轉換

    將資料納入並縮小架構中每個資料層使用的資料。

  • 保留、曲線、建立

    協助存取與瀏覽資料以顯示目前的業務檢視。對於關聯技術而言,資料在邏輯上或實體結構上可能是簡單關聯式、縱向、維度或 OLAP 表單。對於非關聯式資料,此層包含一或多個資料集區,可以是來自分析程序的輸出,或是針對特定分析任務最佳化的資料。

  • 分析、學習、預測

    摘錄消費者資料的邏輯業務檢視。此抽象可協助靈活的開發、移轉至目標架構,以及從多個聯合來源佈建單一報表層。

下圖說明使用安全最佳做法在 Oracle Cloud Infrastructure 上提供服務的架構對應。



oci-adb-oac-arch-gw-oracle.zip

架構包含下列元件:

  • 資料整合

    Autonomous Data Warehouse 隨附必要內嵌工具,可針對許多部門案例和特定進階使用案例取得、載入及轉換資料。隨附於 Autonomous Data Warehouse ,可讓您快速從本機或物件儲存載入資料。另外還包括自治式資料轉換,可讓您連線到許多不同來源類型的資料,並存取 ELT 類型功能。

    如需更多進階使用案例,請參閱 Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure Data Integration 是一個完全託管、無伺服器的原生雲端服務,可協助您進行一般擷取、載入及轉換 (ETL) 作業,例如從不同的來源擷取資料、清理、轉換及重新對應該資料,然後將它有效載入 Oracle Cloud Infrastructure 上的目標資料來源。

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse 是一項針對資料倉儲工作負載最佳化的自我驅動、自我保護、自我修復資料庫服務。您不需要設定或管理任何硬體,或是安裝任何軟體。Oracle Cloud Infrastructure 會處理建立資料庫,以及備份、修正、升級和調整資料庫。

    有了 Autonomous Data Warehouse ,您便可以彈性地將資料載入多種格式,包括結構化、JSON、XML、圖形和空間。此服務隨附的自治式工具,可讓您輕鬆將資料載入表格及進行輕量型 ETL 工作。

    Oracle Machine Learning 是內建於 Autonomous Data Warehouse 的核心。這樣可以在資料庫核心中執行資料庫內演算法,並產生一流的資料庫物件以立即部署。

  • 物件儲存

    Oracle Cloud Infrastructure Object Storage 是網際網路式高效能儲存平台,提供可靠且高效能的資料持久性。Oracle Cloud Infrastructure Object Storage 可以儲存不限數量的任何內容類型的非結構化資料,包括分析資料。您可以直接從網際網路或從雲端平台內,安全地儲存或擷取資料。多個管理介面可讓您輕鬆地輕鬆地啟動小型和無縫擴展,而不會發生效能或服務可靠性的任何降低。

  • 預測

    Oracle Machine Learning Services 可透過 REST API 擴充 Oracle Machine Learning (OML) 功能,以支援資料庫內 Oracle Machine Learning 模型和第三方 Open Neural Networks Exchange (ONNX) 機器學習模型的模型部署和模型週期管理。Oracle Machine Learning Services 支援應用程式與儀表板的即時與小型長條評分。

    REST API for Oracle Machine Learning Services 提供 REST 端點透過 Autonomous Data Warehouse 進行認證。這些端點可讓您儲存及管理機器學習模型及其描述資料。這些端點也允許建立模型的計分端點。

    Oracle Machine Learning Services 支援第三方分類或迴歸模型,可使用 Scikit-learn 和 TensorFlow 之類的套裝程式建立,然後以 ONNX 格式匯出。Oracle Machine Learning Services 支援主題尋找、關鍵字、摘要、情感以及相似性的整合式認知文字分析。Oracle Machine Learning Services 也支援透過第三方 ONNX 格式模型部署來進行影像分類,並支援使用影像或張量來計分。

    使用者也可以使用 SQL、R 以及 Python 的資料庫內模型,直接預測資料庫中的單一、小型批次及大型批次評分。使用者可以利用 OML4Py 內嵌的 Python 執行,以從第三方套裝程式產生的模型呼叫使用者定義的 Python 函數,並從 Python 和 REST 介面進行預測。

  • 學習

    Oracle Machine Learning Notebooks 為資料科學家和業務和資料分析師提供協作使用者介面,以處理 SQL 和 Python 解譯器,同時也在 Oracle Autonomous Database 中執行機器學習,其中包括 Autonomous Data Warehouse (ADW)、Autonomous Transaction Processing (ATP) 和 Autonomous JSON Database (AJD)。Oracle Machine Learning Notebooks 使更廣泛的資料科學團隊 (資料科學家、公民資料科學家、資料分析師、資料工程師、DBA) 共同合作,以視覺化方式探索其資料,並使用 OML4SQL 和 OML4Py 開發分析方法。筆記本介面透過 Python、SQL 和 PL/SQL,讓您能夠存取 Oracle 高效能、平行且可擴展的機器學習演算法資料庫內實作。資料庫內功能也可以透過外部介面 (例如 SQL Developer、開源記事本環境以及第三方 IDE) 透過 Autonomous Database 連線存取。

    OML4Py 也為自動化機器學習 (AutoML) 提供 Python API,用於自動化演算法和功能選擇,以及自動化模型調整和選擇。

    Oracle Machine Learning AutoML 使用者介面 (OML AutoML UI) 是一個無程式碼的使用者介面,可輕鬆部署至 Oracle Machine Learning 服務,提供自動化機器學習。沒有大量資料科學背景的商業使用者可以使用 OML AutoML UI 來建立和部署機器學習模型,以及產生包含對應 OML4Py 程式碼的 OML 筆記型電腦,以程式設計方式重新建立模型和評分資料。

    專家資料科學家可以使用 OML AutoML UI 作為生產力加速器,以加速模型探索、簡化部署,以及產生入門記事本。

  • 分析

    Oracle Analytics Cloud 是可擴展且安全的公有雲服務,可為您、您的工作群組和您的企業提供完整的功能來探索和執行協作分析。

    Oracle Analytics CloudOracle Machine Learning 整合,可存取可以在 Oracle Analytics Cloud 工作流程和儀表板內搜尋、視覺化和部署的資料庫內模型。

    透過 Oracle Analytics Cloud,您也可以取得彈性的服務管理功能,包括快速設定、輕鬆擴展與修正,以及自動化的生命週期管理。

建議

您可以使用下列建議作為起點,為進階雲端資料倉儲和機器學習作業架構建立平台。

您的需求可能會與此處描述的架構不同。

  • 擷取、轉換

    Autonomous Database 工具是內嵌在 Oracle Autonomous Data Warehouse 中的功能,可提供載入、轉換、目錄、深入瞭解,甚至以簡單的直接方式開發業務模型。

  • 分析、學習、預測

    Oracle Analytics Cloud 連線至 Oracle Autonomous Data Warehouse 之前,請先要求資料庫管理員允許您 Oracle Analytics Cloud 執行處理的 IP 位址 (或位址範圍)。資料庫管理員必須新增允許從 Oracle Analytics Cloud 到資料庫之 TCP/IP 流量的安全規則。

注意事項

建立機器學習作業架構與雲端資料倉儲時,請考慮這些實行選項。

  • 資料重力:請將機器學習作業架構保持接近資料,以限制資料移動的高成本,包括機器學習模型開發時間 (即使使用機器學習模型的資料計分)。
  • 價值更快:下表中的建議可協助您快速開始使用,並減少開始實現解決方案值的時間。
指引 建議 其他選項 理由
擷取、轉換 Autonomous Database 工具 Oracle Cloud Infrastructure 資料整合 此為相依於使用案例。若要輕鬆地從物件儲存或本機資料儲存上的檔案載入資料,請使用 Autonomous Database 工具。如先前所述,也可以根據使用案例使用「Autonomous Data Warehouse 資料轉換」。如需更進階的情況,請使用 Oracle Cloud Infrastructure Data Integration (隨選服務)。
持續 Oracle Autonomous Data Warehouse Autonomous Data Warehouse 是一個雲端資料倉儲,不僅提供資料倉儲的分析需求,還包括部署進階 Oracle Machine Learning 作業架構的功能。您也可以透過以任意格式與類型儲存的外部表格,直接存取物件儲存中的資料。
學習 Oracle Machine Learning Notebooks ,含 OML4SQL、OML4Py 和 OML4R

Oracle Machine Learning AutoML UI

第三方

OCI 數據科學

OML 記事本是 Autonomous Data Warehouse 平台中包含的協同合作記事本環境。使用者可以使用 OML4SQL、OML4Py 和 OML4R,直接在資料庫中建立模型。資料庫內模型可在 Oracle DatabaseAutonomous Data Warehouse 之間匯出和匯入。使用者可以在 Autonomous Database 內使用第三方工具搭配自訂 conda 環境,或在 Oracle Machine Learning 架構外建置 Python 和 R 模型,並將這些原生模型儲存在資料庫資料存放區中,以搭配 OML4Py-embedded 和 OML4R-embedded 執行使用。
預測

Oracle Machine Learning 服務

Oracle Machine Learning Notebooks ,含 OML4SQL、OML4Py 和 OML4R

Oracle Cloud Infrastructure 資料科學

使用 SQL 查詢和 OML4R/OML4Py 介面的資料庫內模型

可透過 REST API,使用 Oracle Machine Learning Services 管理的模型部署評分模型。Oracle Machine Learning Services 也可讓您透過 ONNX 格式匯入在 Oracle Machine Learning 架構外部建立的模型。這包括 Oracle Cloud Infrastructure Data Science 內產生的模型。
存取與解譯 Oracle Analytics Cloud 第三方工具 Oracle Analytics Cloud 完全受管理且與 Oracle Machine Learning 架構緊密整合。其中一個主要功能是將在 Oracle Machine Learning 內建的模型部署至 Oracle Analytics Cloud,以進行可擴充的機器學習和儀表板。

部署

GitHub 中提供部署此參照架構所需的程式碼。只要按一下即可將程式碼提取至 Oracle Cloud Infrastructure Resource Manager,然後建立堆疊並加以部署。或者,從 GitHub 下載程式碼至您的電腦、自訂程式碼,以及使用 Terraform CLI 建置架構。

  • 使用 Oracle Cloud Infrastructure Resource Manager 進行部署:
    1. 按一下 部署到 Oracle Cloud

      如果您尚未登入,請輸入租用戶和使用者證明資料。

    2. 檢閱並接受條款與條件。
    3. 選取您要在其中部署堆疊的區域。
    4. 依照畫面上的提示和指示建立堆疊。
    5. 建立堆疊之後,請按一下 Terraform 動作,然後選取畫。
    6. 等待工作完成,然後複查計畫。

      若要進行任何變更,請返回「堆疊詳細資訊」頁面,按一下編輯堆疊,然後進行必要的變更。然後,再次執行「劃」動作。

    7. 如果不需要進一步的變更,請返回「堆疊詳細資訊」頁面,按一下 Terraform 動作,然後選取用。
  • 使用 GitHub 中的 Terraform 程式碼部署:
    1. 前往 GitHub
    2. 將儲存區域複製或下載到您的本機電腦。
    3. 依照 README 文件中的指示進行。

變更日誌

此日誌會列出重要的變更: