创建模型监视器

8.1 创建模型监视器

模型监视器可帮助您监视多个兼容的模型，并计算模型偏差图。兼容模型是指在相同的目标和挖掘功能上训练的模型。模型偏移图由多个数据偏移点组成，每个数据偏移点对应一个受监视模型。

模型监视器可以选择监视数据以提供其他洞察。此附加洞察是“偏差特征重要性与预测特征影响”图表，该图表是在创建模型监视器时选择“监视数据”选项时生成的。

本主题讨论如何创建模型监视器。此示例使用个人家庭用电数据集，其中包含 2007 年至 2010 年家庭的各种用电度量。我们的目标是了解家庭消费是否以及如何在四年内发生变化。此示例说明如何跟踪数据漂移对模型预测准确性的影响。

该数据集包含以下列：

DATE_TIME - 包含 dd:mm:yyyy:hh:mm:ss 格式的日期和时间相关信息。
GLOBAL_ACTIVE_POWER - 这是家用全球分分钟平均活动功率（千瓦时）。
GLOBAL_REACTIVE_POWER - 这是家庭全球平均分的反应功率（千瓦）。
VOLTAGE- 这是分钟平均电压（伏特）。
GLOBAL_INTENSITY - 这是家庭全球平均分电流强度（以安培为单位）。
SUB_METERING_1 - 这是能量子计量编号 1（以瓦特小时的活动能量表示）。它对应于厨房。
SUB_METERING_2 - 这是第 2 号能量子计量（以瓦特小时的活动能量为单位）。它对应于洗衣房。
SUB_METERING_3 - 这是第 2 号能量子计量（以瓦特小时的活动能量为单位）。它对应于电热水器和空调。

要创建模型监视器：

在 Oracle Machine Learning UI 左侧导航菜单上，展开监视，然后单击模型以打开“模型监视”页。或者，可以单击“模型监视”图标打开“模型监视”页。
在“模型监视”页上，单击创建以打开“新建模型监视器”页。
在“新建模型监视器”页上，输入以下详细信息：

图 8-5“新建模型监视器”页面
1. 监控程序名称：输入模型监控程序的名称。在此处，使用名称“功耗”。
2. 注释：输入注释。此字段为可选字段。
3. 基线数据：这是包含要监视的基线数据的表或视图。单击“搜索”图标可打开选择表对话框。选择一个方案，然后选择一个表。在此处，选择包含 2007 年数据的表。
4. 新数据：这是包含要与基线数据进行比较的新数据的表或视图。单击“搜索”图标可打开选择表对话框。选择一个方案，然后选择一个表。在此处，选择包含 2010 年数据的表。
5. 案例 ID：此为可选字段。输入基线和新数据的案例标识符，以提高结果的可重复性。
6. 时间列：这是在“新建数据”表或视图中存储时间信息的列的名称。从下拉列表中选择 DATE_TIME 列。
  
  注意：
  
  如果时间列为空，则将整个新数据视为一个期间。
7. 分析期间：这是对新数据执行模型监视的时间长度。选择用于模型监视的分析期间。选项包括 Day、Week、Month、Year。
8. 开始日期：这是模型监视器调度的开始日期。如果不提供开始日期，则当前日期将用作开始日期。
9. 重复：此值定义模型监视器运行对于定义的频率重复的次数。输入一个介于 1 和 99 之间的数字。例如，如果在此处的重复字段中输入 2，在频率字段中输入“分钟”，则模型监视器将每 2 分钟运行一次。
10. 频率：此值确定对新数据执行模型监视器运行的频率。选择用于模型监视的频率。选项包括“分钟、小时、天、周、月。例如，如果在频率字段中选择 Minutes，在重复字段中选择 2，在开始日期字段中选择 5/30/23，则根据计划，模型监视器将每 2 分钟从 5/30/23 运行一次。
11. 挖掘函数：可用的挖掘函数为 Regression 和 Classification.选择适用的函数。在此示例中，选择了 Regression。
12. 目标：从下拉列表中选择属性。在此示例中，GLOBAL_ACTIVE_POWER 用作回归模型的目标。
13. 重新计算：选择此选项可更新已计算的期间。这意味着将仅计算输出结果表中不存在的时间期。默认情况下，重新计算处于禁用状态。
  - 启用后，将对“开始日期”字段中指定的时间段和结束时间执行偏差分析。分析将覆盖指定时段的现有结果。这意味着将使用当前数据以外的新数据来计算该时间段的分析。
  - 禁用后，结果表中存在的时间期的数据将按原样保留。仅考虑最近时间段的新数据进行分析，结果将添加到结果表中。
14. 监视数据：选择此选项可对指定的数据启用数据监视。启用后，还会与模型监视器一起创建数据监视器，以计算模型特定结果中的预测功能影响与偏差功能影响。
单击其他设置可展开此部分并为模型监视器提供高级设置：

图 8-6“新建模型监视器”页上的“附加设置”部分
1. 度量：根据在“创建模型监视器”页的挖掘函数字段中选择的挖掘函数，将列出适用的度量。单击下拉列表选择一个度量。
  对于挖掘函数分类，度量包括：
  - 准确度 - 计算正确分类案例的比例 - 正数和负数。例如，如果在 TP+TN+FP+FN (True Positives+True Negatives+False Positives+False Negatives) 案例中总共存在 TP (True Positives)+TN (True Negatives) 正确分类案例，则公式为：
    Accuracy = (TP+TN)/(TP+TN+FP+FN)
  - 平衡精度 - 评估二进制分类器的效果。当类不平衡时尤其有用，也就是说，当两个类中的一个出现频率比另一个类高得多时。这通常发生在许多设置中，例如异常检测等。
  - ROC AUC（ROC 曲线下的区域）- 提供歧视的综合度量，而不考虑决定阈值。AUC - ROC 曲线是各种阈值设置的分类问题的性能测量。
  - 召回 - 计算正确分类的实际积极因素的比例。
  - Precision（精度）- 计算预测正数的比例为 True Positive。
  - F1 分数 - 将精度和召回组合为一个数字。F1-score 使用由公式计算的谐波均值进行计算：
    F1-score = 2 × (precision × recall)/(precision + recall)
  对于多类分类，度量包括：
  - 精度
  - 均衡准确率
  - Macro_F1
  - Macro_Precision
  - Macro_Recall
  - Weighted_F1
  - Weighted_Precision
  - Weighted_Recall
  对于回归，度量包括：
  - R2 - 用于计算数据与拟合回归线接近程度的统计度量。一般来说，R 平方的值越高，模型就越适合您的数据。R2 的值始终介于 0 到 1 之间，其中：
    - 0 表示模型未解释响应数据围绕其平均值的可变性。
    - 1 指示模型说明响应数据围绕其平均值的所有可变性。
  - 均方误差 (Mean Squared Error) - 这是预测目标和真实目标的平方差的均值。
  - 绝对误差 - 这是预测目标和真实目标的绝对差值的平均值。
  - 中值绝对误差 - 这是预测目标与实际目标之间的绝对差值的中值。
2. 偏差阈值：偏差捕获基线数据与新数据期间之间性能的相对变化。根据您的特定机器学习问题，设置模型偏差检测的阈值。默认值为 0.7.
  - 超过此阈值的偏移表明模型预测发生了重大变化。超过阈值表示可能需要重建和重新部署模型。
  - 低于此阈值的偏差表示数据更改不足，因此需要进一步调查或采取行动。
3. 数据库服务级别：这是作业的服务级别，可以是 LOW、MEDIUM 或 HIGH。
4. 分析筛选器：如果需要特定时段的模型监视分析，请启用此选项。将滑块移到右侧以启用它，然后在开始日期和结束日期字段中分别选择一个日期。默认情况下，此字段被禁用。
  - 起始日期：这是新数据中监控的起始日期或时间戳。它假定表中存在时间列。如果您使用“分析筛选器”选项，则此字段为必填字段。
  - 终止日期：这是新数据中监控的终止日期或时间戳。它假定表中存在时间列。如果您使用“分析筛选器”选项，则此字段为必填字段。
5. 最大运行数：这是模型监视器根据此调度可以运行的最大次数。默认值为 3.
在模型部分中，选择要监视的模型，然后单击页面右上角的保存。在 Mining Function（挖掘函数）和 Target（目标）字段中提供值后，将获取已部署的模型列表，并在“Models（模型）”部分中显示该列表。模型从“模型”页或 AutoML 排行榜部署。您可以在“模型”页的“部署”选项卡中查看已部署模型的完整列表。部署的模型由 OML 服务管理。

注意：
如果删除任何模型，则必须重新部署模型。模型不是基于方案的模型，而是部署到 OML 服务的模型。

图 8-7“新建模型监视器”页上的“模型”部分

成功创建模型监视器后，将显示消息：Model monitor has been created successfully.

注意：
现在必须转到“模型监视”页，选择模型监视器并单击启动以开始模型监视。

父主题：模型监视入门