19 机器学习(预览)

Oracle AI Data Platform Workbench 使用机器学习 (MLflow) 概念和 API(特别是实验、运行和模型注册表)提供机器学习 (ML) 生命周期管理。

这些功能在多个界面(包括工作区、实验和目录)中深度集成到 AI Data Platform Workbench 中,因此团队可以跟踪发生的工作,并将结果提升为共享的受监管资产。

ML 生命周期

端到端机器学习生命周期通常遵循以下步骤:
  1. 数据准备:清理和格式化原始输入
  2. 探索性数据分析 (EDA):探索数据以查找模式
  3. 功能工程:为模型创建变量
  4. 实验:使用多种方法进行迭代训练(每次迭代都运行一次)
  5. 验证和存储:确定最佳运行并注册模型以供重用
  6. 运行推断:使用已注册的模型版本进行记事本中的批推断
  7. 监视:跟踪已部署模型的基本生产性能和可用性

核心功能

每个小组工作区的实验跟踪

  • 实验被界定为工作空间,以分离团队并组织工作。
  • 与 MLflow 兼容的自动日志记录可捕获每次运行的参数、度量和对象,从而创建可重现的记录,支持使用受控更改重新运行。

运行比较和注册

  • 可以筛选和比较运行以标识候选人模型。
  • 可以将运行注册到主目录支持的模型注册表中,其中包含版本控制、标记和定制字段。在注册更新的模型时,平台会处理版本管理。

从注册表到记事本推断

  • 模型可以按最新版本或显式版本加载到记事本中,从而实现一致的重用。
  • 批量推断工作流可以直接引用注册表版本,从而减少实验和推断之间的手动处理。

可审计性的沿袭

  • 已注册的模型链接到源实验运行,包括超参数、环境变量、度量和对象等运行条件。
  • 这有助于通过明确每个模型的来源来进行审查和审计。

为什么要使用 MLflow?

AI Data Platform Workbench 使用 MLflow 作为其 MLOps 框架的基础,因为它提供了一种开放、可扩展且与框架无关的方法来管理端到端的机器学习生命周期。

MLflow 支持大规模运行机器学习所需的核心功能,包括实验跟踪、模型打包、工件管理、模型版本控制、基于注册表的管理和治理。它能够以一致的方式捕获参数、度量、对象和运行元数据,非常适合提高数据科学和工程团队的可重现性、可审计性和协作性。

选择 MLflow 的一个关键原因是它与 TensorFlow,PyTorch 和 scikit-learn 等流行的机器学习框架的广泛兼容性。这允许 AI Data Platform Workbench 支持各种模型开发模式,而无需将团队强制整合到单个框架或工具链中。MLflow 的插件架构和部署灵活性也使扩展平台和与现有企业基础设施集成变得更加容易。

通过标准化机器学习流程,AI 数据平台工作台可以在实验、模型注册、生命周期管理等方面提供一致的机器学习体验,同时保留在不同 AI/ML 用例中发展所需的灵活性。