6 AutoML UI 入门

AutoML 用户界面 (AutoML UI) 是一个 Oracle Machine Learning 界面,可为您提供无代码的自动化机器学习建模。在 AutoML UI 中创建和运行实验时,它将执行自动算法选择、功能选择和模型优化,从而提高工作效率,并可能提高模型准确性和性能。

以下步骤由机器学习建模工作流组成,并通过 AutoML 用户界面实现自动化:

  1. 算法选择:根据数据集及其特征以及每个算法数据集的一些预测特征,对算法可能生成更准确的模型进行排名。
  2. 自适应采样:查找适当的数据样本。此阶段的目标是在不降低模型质量的情况下加速特征选择和模型优化阶段。
  3. 功能选择:选择最能预测目标的功能子集。此阶段的目标是减少在后面的管道阶段中使用的功能数量,特别是在模型优化阶段,以便在不降低预测准确性的情况下加速管道。
  4. 模型优化:旨在根据每个候选算法的选定度量提高单个算法模型的质量。
  5. 功能预测影响:这是 AutoML UI 管道中的最终阶段。在这里,计算每个输入列对最终优化模型预测的影响。计算的预测影响可深入了解已优化的 AutoML 模型的行为。
没有丰富数据科学背景的业务用户可以使用 AutoML UI 创建和部署机器学习模型。Oracle Machine Learning AutoML UI 提供了两个功能:
  • 创建机器学习模型
  • 部署机器学习模型

AutoML UI 实验

在 AutoML UI 中创建实验时,它会自动运行机器学习工作流涉及的所有步骤。在 Experiments(实验)页面中,列出已创建的所有实验。要查看任何实验详细信息,请单击实验。此外,还可以执行以下任务:

图 6-1 实验页面

实验页面
  • 创建:单击创建以创建新的 AutoML UI 实验。您创建的 AutoML UI 实验位于在工作区下的项目中选择的项目中。
  • 编辑:选择此处列出的任何实验,然后单击编辑以编辑实验定义。
  • 删除:选择此处列出的任何实验,然后单击删除将其删除。无法删除正在运行的实验。必须先停止实验以将其删除。
  • 复制:选择实验并单击复制以创建实验的副本。实验将立即复制并处于就绪状态。
  • 移动:选择实验并单击移动以将实验移动到相同或不同工作区中的其他项目。您必须具有 AdministratorDeveloper 权限才能跨项目和工作空间移动实验。

    注意:

    如果实验处于 "RUNNING"(正在运行)、"STOPPPING"(停止)或 "STARTING"(正在启动)状态,或者目标项目中已存在同名的实验,则无法移动该实验。
  • 复制:选择实验并单击复制以将实验复制到相同或不同工作区中的其他项目。
  • 开始:如果已创建实验但尚未运行它,则单击 Start 以运行实验。
  • 停止:选择一个正在运行的实验,然后单击停止以停止该实验的运行。

相关主题

6.1 访问 AutoML UI

您可以从 Oracle Machine Learning Notebooks 访问 AutoML UI。

要访问 AutoML UI,必须先从 Autonomous Database 登录到 Oracle Machine Learning Notebooks:
  1. 要从 Autonomous Database 登录到 Oracle Machine Learning Notebooks,请执行以下操作:
    1. 选择 Autonomous Database 实例,然后在“Autonomous Database(自治数据库)”详细信息页面上单击 Database Actions(数据库操作)

      图 6-2 数据库操作

      数据库操作
    2. 在“数据库操作”页上,转至“开发”部分,然后单击 Oracle Machine Learning

      图 6-3 Oracle Machine Learning

      Oracle Machine Learning
      此时将打开 Oracle Machine Learning 登录页面。
    3. 请输入用户名和口令,然后单击登录
    这将打开 Oracle Machine Learning Notebooks 主页。
  2. 在 Oracle Machine Learning Notebooks 主页上,单击 AutoML。

    图 6-4 AutoML 选项

    主页和左侧导航菜单上的 AutoML 选项

    或者,也可以单击汉堡菜单并单击 "Projects"(项目)下的 AutoML

6.2 创建 AutoML UI 实验

要使用 Oracle Machine Learning AutoML UI,首先创建一个实验。实验是最低限度地指定数据源、预测目标和预测类型的工作单元。实验成功运行后,它将根据所选度量按模型质量顺序显示机器学习模型的列表。您可以选择其中任何模型进行部署或生成记事本。生成的笔记本包含使用 OML4Py 的 Python 代码以及用于生成模型的特定设置 AutoML。

要创建实验,请指定以下内容:
  1. 名称字段中,输入实验的名称。
  2. 备注字段中,输入备注(如果有)。
  3. 数据源字段中,选择方案以及该方案中的表或视图。单击搜索图标以打开选择表对话框。浏览并选择方案,然后从方案列表中选择一个表,该表是 AutoML UI 实验的数据源。

    图 6-6“选择表”对话框

    "Select Table" 对话框
    1. 在“Schema(方案)”列中,选择一个方案。

      注意:

      选择数据源时,统计信息将显示在实验页面底部的“功能”网格中。将指示忙状态,直到计算完成。在“预测”中选择的目标列在“特征”网格中突出显示。
    2. “表”列中列出了可用的表,具体取决于所选方案。选择该表并单击确定

    注意:

    要为其他用户方案中存在的表或视图创建 AutoML 实验,请确保您具有在方案中访问该表或视图的显式权限。请求数据库管理员或方案的所有者为您提供访问表或视图的权限。例如:
    grant select on <table> to <user>
  4. 预测下拉列表中,从所选表中选择列。这是预测的目标。
  5. 预测类型字段中,根据您的数据定义自动选择预测类型。但是,如果数据类型允许,则可以从下拉列表中覆盖预测类型。支持的预测类型包括:
    • 分类:对于非数字数据类型,默认情况下选择“分类”。
    • 回归:对于数字数据类型,默认情况下会选择回归。
  6. 案例 ID 可帮助对数据采样和数据集进行拆分,使结果在实验之间可重现。它还有助于减少结果中的随机性。此字段为可选字段。
  7. 其他设置部分中,可以定义以下内容:

    图 6-7 AutoML 实验的附加设置

    后面是图 6-7 的说明
    “图 6-7 AutoML 实验的附加设置”的说明
    1. 重置:单击重置可将设置重置为默认值。
    2. 最佳模型的最大数量:选择要创建的最佳模型的最大数量。默认值为 5 模型。您可以将顶级模型的数量减少到 2 或 3,因为要获得每个算法的顶级模型,需要额外的时间。如果您想更快地获得初始结果,请考虑最推荐的算法。为此,请将最大顶级模型数设置为 1.这将优化该算法的模型。
    3. 最大运行持续时间:这是允许实验运行的最长时间。如果不输入时间,则实验将最多允许运行 8 小时的默认值。
    4. 数据库服务级别:这是数据库连接服务级别和查询并行级别。默认值为 Low。这不会导致并行,并设置高运行时限制。可以使用 Low 数据库服务级别创建多个连接。您还可以将数据库服务级别更改为 MediumHigh
      • High 级别提供了最大的并行性,但显著限制了并发作业的数量。
      • Medium 级别允许一些并行操作,但允许更大的并发性用于作业处理。

      注意:

      更改始终免费套餐上的数据库服务级别设置不会生效,因为存在 1 个 OCPU 限制。但是,如果增加分配给自治数据库实例的 OCPU,则可以将数据库服务级别提高到 MediumHigh.

      注意:

      数据库服务级别设置对 AutoML 容器级别资源没有影响。
    5. 模型度量:选择度量以选择成功模型。AutoML UI 支持以下度量:
      • 对于分类,支持的度量包括:
        • 均衡准确率
        • ROC AUC
        • F1(带有加权选项)。加权选项包括加权选项、二进制选项、微选项和宏选项。
          • 微平均值:在这里,所有样本都同样有助于最终的平均度量
          • 宏平均值:在这里,所有类都同样有助于最终的平均度量
          • 加权平均值:在这里,每个班级对平均值的贡献按其大小加权
        • 精度(带有加权选项)
        • 召回(带有加权选项)
      • 对于回归,支持的度量包括:
        • R2(默认值)
        • 负均方误差
        • 负平均绝对错误
        • 负中值绝对误差
    6. 演算法:支持的演算法取决于您选择的预测类型。单击演算法对应的复选框以选择它。默认情况下,所有候选算法都将在实验运行时考虑。两个预测类型支持的算法:
      • 对于分类,支持的算法包括:
        • 决策树
        • 通用线性模型
        • 广义线性模型(岭回归)
        • 神经网络
        • 随机森林
        • 支持向量机(高斯)
        • 支持向量机(线性)
      • 对于回归,支持的算法包括:
        • 通用线性模型
        • 广义线性模型(岭回归)
        • 神经网络
        • 支持向量机(高斯)
        • 支持向量机(线性)

      注意:

      如果您具有特定算法的首选项或具有特定要求,则可以删除考虑中的算法。例如,如果模型透明度是必不可少的,那么排除神经网络等模型是有意义的。请注意,某些算法的计算密集度高于其他算法。例如,朴素贝叶斯和决策树通常比支持向量机或神经网络更快。
  8. 展开功能网格以查看所选表的统计信息。支持的统计信息包括“相异值”、“最小值”、“最大值”、“平均值”和“标准偏差”。功能支持的数据源包括表、视图和分析视图。您在“预测”中选择的目标列在此处突出显示。实验运行完成后,“特征”网格将显示额外的列 Importance 。功能重要性指示预测对特定功能的整体敏感度级别。

    图 6-8 功能

    功能
    您可以执行以下任务:
    • 刷新:单击“刷新”可提取所选数据源的所有列和统计信息。
    • 查看重要性:将光标悬停在“重要性”下的水平栏上,以查看变量的“功能重要性”值。该值始终在 01 的范围内显示,更接近 1 的值更为重要。
  9. 完成实验定义后,将启用 StartSave 按钮。

    图 6-9 启动实验选项

    启动实验选项
    • 单击 Start(启动)以运行实验并启动 AutoML UI 工作流(显示在进度栏中)。在这里,您可以选择:
      1. 更快的结果:如果希望更快地获取求职者模型(可能以牺牲准确性为代价),请选择此选项。此选项与一组较小的超参数组合一起使用,从而产生更快的结果。
      2. 提高准确性:如果希望尝试更多管道组合以获得更准确的模型,请选择此选项。管道定义为算法、所选数据功能集和算法超参数集。

        注意:

        此选项适用于内部元学习模型建议的更广泛的超参数选项集。选择提高准确度将需要较长时间才能运行实验,但可能会提供更准确的模型。

      启动实验后,将显示进度条,其中显示不同的图标以指示 AutoML 实验中机器学习工作流的每个阶段的状态。进度条还显示完成实验运行所用的时间。要查看消息详细信息,请单击相应的消息图标。

    • 单击 Save 以保存实验,然后运行。
    • 单击 Cancel 取消实验创建。

6.2.1 AutoML UI 实验支持的数据类型

创建 AutoML 实验时,必须指定实验的数据源和目标。本主题列出了 AutoML 实验支持的 Python 和 SQL 的数据类型。

表 6-1 AutoML 实验支持的数据类型

数据类型 SQL 数据类型 Python 数据类型
数字 NUMBER, INTEGER, FLOAT, BINARY_DOUBLE, NUMBER, BINARY_FLOAT, DM_NESTED_NUMERICALS, DM_NESTED_BINARY_DOUBLES, DM_NESTED_BINARY_FLOATS

INTEGER, FLOAT(NUMBER, BINARY_DOUBLE, BINARY_FLOAT)

类别

CHAR, VARCHAR2, DM_NESTED_CATEGORICALS

STRING(VARCHAR2, CHAR, CLOB)

非结构化文本

CHAR, VARCHAR2, CLOB, BLOB, BFILE

BYTES (RAW, BLOB)

6.3 查看实验

在 AutoML UI 实验页中,将列出您创建的所有实验。每个实验将处于以下阶段之一:“已完成”、“正在运行”和“就绪”。

要查看实验,请单击实验名称。"Experiment"(实验)页面显示所选实验的详细信息。其中包含以下部分:

编辑实验

在此部分中,您可以编辑所选实验。单击编辑可对实验进行编辑。

注意:

您无法编辑正在运行的实验。

度量图表

模型度量图表描述实验运行时随时间变化的最佳度量值。它显示了随着实验的运行而提高的准确性。创建实验时,显示名称取决于所选的模型度量。

排行榜

当实验运行时,它开始在排行榜中显示结果。排行榜显示与所选模型度量相关的表现最佳的模型,以及算法和准确性。您可以查看模型详细信息并执行以下任务:

图 6-10 董事会

排行榜
  • 查看模型详细信息:单击模型名称以查看详细信息。模型详细信息显示在模型详细信息对话框中。您可以在排行榜上单击多个模型,并同时查看模型详细信息。模型详细信息窗口描述以下内容:
    • 预测影响:根据模型的目标预测显示属性的重要性。
    • 混淆矩阵:按表中的算法显示实际值和预测值的不同组合。Confusion Matrix 是机器学习算法的性能测量。
  • 部署:在排行榜上选择任何模型,然后单击部署以部署所选模型。部署模型
  • 重命名:单击重命名以更改系统生成的模型名称的名称。名称必须为字母数字(不超过 123 个字符),并且不能包含任何空格。
  • 创建记事本:在排行榜上选择任何模型,然后单击从 AutoML UI 模型创建记事本以根据代码重新创建所选模型。
  • 度量:单击度量以选择要显示在排行榜中的其他度量。其他度量包括:
    • 用于分类
      • 准确性:计算正确分类案例的比例 - 正数和负数。例如,如果在 TP+TN+FP+FN (True Positives+True Negatives+False Positives+False Negatives) 案例中总共存在 TP (True Positives)+TN (True Negatives) 正确分类案例,则公式为:Accuracy = (TP+TN)/(TP+TN+FP+FN)
      • 平衡精度:评估二进制分类器的优点。当类不平衡时尤其有用,也就是说,当两个类中的一个出现频率比另一个类高得多时。这通常发生在许多设置中,例如异常检测等。
      • 召回:计算正确分类的实际积极因素的比例。
      • 精确度:计算预测正数的比例为真正。
      • F1 分数:将精度和召回组合为一个数字。F1-score 使用以下公式计算的谐波均值:F1-score = 2 × (precision × recall)/(precision + recall)
    • 对于回归:
      • R2(默认值):用于计算数据与拟合回归行的接近程度的统计度量。一般来说,R 平方的值越高,模型就越适合您的数据。R2 的值始终介于 0 到 1 之间,其中:
        • 0 表示模型未解释响应数据围绕其平均值的可变性。
        • 1 指示模型说明响应数据围绕其平均值的所有可变性。
      • 负均方误差:这是预测目标和真实目标的平方差的均值。
      • 负平均绝对错误:这是预测目标与真目标的绝对差值的平均值。
      • 负中值绝对误差:这是预测目标与实际目标之间的绝对差值的中值。

功能

功能网格显示 experiment.The 支持的统计信息的选定表的统计信息有:相异值、最小值、最大值、平均值和标准偏差。功能支持的数据源包括表、视图和分析视图。您在“预测”中选择的目标列在此处突出显示。实验运行完成后,“特征”网格将显示额外的列 Importance 。特征重要性表示预测对特定特征的总体敏感度。将光标悬停在图形上可查看重要性的值。值始终在 01 的范围内描述,更接近 1 的值更重要。

图 6-11 功能

功能部分

6.3.1 从 AutoML UI 模型创建记事本

您可以使用 OML4Py 代码创建记事本,这些代码将使用相同的设置重新创建所选模型。它还说明了如何使用模型对数据进行评分。如果要使用代码重新创建类似的机器学习模型,此选项很有用。

要从 AutoML UI 模型创建记事本,请执行以下操作:
  1. 在“排行榜”上选择要创建记事本的模型,然后单击 Create Notebook(创建记事本)。将打开“创建记事本”对话框。

    图 6-12 创建记事本

    创建记事本
  2. 记事本名称字段中,输入记事本的名称。
    REST API 端点可派生实验元数据,并根据需要确定以下设置:
    • 实验的数据源 (schema.table)
    • 案例 ID。如果实验的 Case ID 不可用,则会显示相应的消息。
    • 生成基于当前模型名称的唯一模型名称
    • 有关评分段落的信息:
      • 案例 ID:如果可用,则它将“案例 ID”列合并到评分输出表中
      • 基于构建数据源和唯一后缀生成唯一的预测输出表名称
      • 预测列名:预测
      • 预测概率列名称:PROBABILITY(仅适用于分类)
  3. 单击确定。生成的记事本列在“记事本”页中。单击此项可打开记事本
    生成的笔记本显示每个段落的段落标题以及 python 代码。运行记事本后,它将显示与记事本以及 AutoML 实验相关的信息,例如存在记事本的实验名称、工作区和项目、用户、数据、预测类型和预测目标、算法以及生成记事本的时间戳。 AutoML UI 生成的记事本