19 機器學習 (預覽版)
Oracle AI Data Platform Workbench 使用 MLflow 概念和 API (特別是實驗、執行和模型登錄) 提供機器學習 (ML) 生命週期管理。
這些功能與 AI Data Platform Workbench 深度整合,涵蓋工作區、實驗和目錄等多個面向,讓團隊能夠追蹤發生的工作情況,並將結果提升為共享、受控資產。
ML 生命週期
端對端 ML 生命週期通常遵循以下步驟:
- 資料準備:清除並格式化原始輸入
- 探索性資料分析 (EDA):探索資料以尋找模式
- 功能工程:建立模型變數
- 實驗:使用多種方法反覆訓練 (每個反覆測試都是一個強制執行)
- 驗證並儲存:識別最佳執行並登錄模型以供重複使用
- 執行推論:使用已登錄的模型版本從記事本進行批次推論
- 監控:追蹤已部署模型的基本生產效能和可用性
核心功能
每個小組工作區的試驗追蹤
- 實驗會限定在獨立團隊和組織工作的領域。
- 與 MLflow 相容的自動記錄擷取每個執行的參數、度量以及使用者自建物件,建立支援以控制變更重新執行的可重現記錄。
執行比較與登錄
- 您可以篩選和比較執行,以識別應徵者模型。
- 執行可以註冊到主目錄支持的模型登錄中,攜帶版本控制、標籤和自訂欄位。版本管理會在註冊更新的模型時由平台處理。
從登錄到筆記本推論
- 可依最新版本或明確版本在筆記型電腦中載入模型,以實現一致的重複使用。
- 批次推論工作流程可以直接參照登錄版本,減少實驗和推論之間的手動處理。
可稽核性的歷程
- 註冊的模型會連結回原始實驗執行,包括執行條件,例如超參數、環境變數、指標和構件。
- 這透過明確證明每個模型來支援複查與稽核。
為什麼要使用 MLflow?
AI Data Platform Workbench 使用 MLflow 作為其 MLOps 架構的基礎,因為它提供開放、可擴充且與架構無關的方法來管理端對端機器學習生命週期。
MLflow 支援大規模營運機器學習所需的核心功能,包括實驗追蹤、模型封裝、構件管理、模型版本控制、登錄型和治理。它能夠以一致的方式擷取參數、指標、構件和執行中繼資料,因此適用於提升資料科學和工程團隊的可再現性、可稽核性和協作性。
選擇 MLflow 的主要原因是其與熱門機器學習架構 (例如 TensorFlow、PyTorch 和 scikit-learn) 的廣泛相容性。這可讓 AI Data Platform Workbench 支援各種模型開發模式,而無需將團隊強制加入單一架構或工具鏈。MLflow 的外掛程式架構和部署彈性也可讓您更輕鬆地擴展平台,並與現有的企業基礎架構整合。
透過對 MLflow 進行標準化,AI Data Platform Workbench 可以在實驗、模型註冊、生命週期管理中提供一致的 MLOps 體驗,同時保持與不同 AI/ML 使用案例一起演進所需的彈性。