7 数据监视入门
数据监视可评估数据随时间的演变情况。它可以帮助您深入了解数据中的趋势和多变量依赖关系。它还会为您提供有关数据漂移的早期警告。
随着时间的推移,当数据与原始基线数据不同时,会发生数据漂移。数据漂移可能由于各种原因而发生,例如不断变化的业务环境、不断变化的用户行为和兴趣、第三方来源的数据修改、数据质量问题或上游数据处理管道的问题。
准确解释模型并确保模型能够解决业务问题的关键在于了解数据如何随时间演变。数据监控是对成功模型监控的补充,因为了解数据变化对于理解模型功效的变化至关重要。快速、可靠地检测数据统计属性变化的能力可确保您的机器学习模型能够满足业务目标。
图 7-1 数据监视器页面
- 创建:创建数据监视器。
注意:
支持的数据监视类型为 NUMERIC 和 CATEGORICAL。 - 编辑:选择数据监视器并单击编辑以编辑数据监视器。
- 复制:选择数据监视器并单击复制以创建监视器的副本。
- 删除:选择数据监视器并单击删除以删除数据监视器。
- 历史记录:选择数据监视器并单击历史记录以查看运行时详细信息。单击 Back to Monitors(返回监视器)返回到 "Data Monitoring"(数据监视)页面。
- 启动:启动数据监视器。
- 停止:停止正在运行的数据监视器。
- 更多:单击更多可获得以下附加选项:
图 7-2 数据监视器下的更多选项
- 启用:选择数据监视器并单击启用以启用禁用的监视器。默认情况下,启用数据监视器。状态显示为
SCHEDULED
。 - 禁用:选择数据监视器并单击禁用以禁用数据监视器。状态显示为
DISABLED
。 - 显示托管监视器:单击此选项可在 Oracle Machine Learning UI 中查看由 OML 服务 REST API 和模型监视器创建和管理的数据监视器。由这两个组件管理的数据监视器具有系统生成的名称,并根据其名称由特定图标指示。
- 单击受管数据监视器名称的链接图标可查看关联模型监视器的详细信息。关联的模型监视器详细信息显示在幻灯片中的单独窗格中。幻灯片窗格显示模型监视器名称以及用于查看模型监视器结果和设置的链接。单击链接图标还会在“数据监视器”页面的下方窗格中显示数据偏移详细信息。单击左上角的 X 关闭窗格。
图 7-3 显示关联模型监视器结果和设置的“数据监视器”页
在此示例中,滑入窗格显示模型监视器功耗的详细信息。在幻灯片窗格中:
- 单击模型监视器结果可查看模型监视器计算的结果 - 设置、模型、模型偏差、度量和预测统计信息。单击监视器可返回到数据监视器页。请参见 View Model Monitor Results 。
- 单击模型监视器设置可在编辑模型监视器页上查看和编辑模型监视器监视的设置、详细信息和模型。单击取消可返回到数据监视器页。单击保存可保存任何更改。
- 单击数据监视器名称上的复选框以查看下方窗格上的数据偏差值。
图 7-4 选择托管数据监视器
- 单击数据监视器名称可查看数据监视器的详细信息 - 设置、数据漂移值和监视的功能。
图 7-5 数据监视器单击
- 单击受管数据监视器名称的链接图标可查看关联模型监视器的详细信息。关联的模型监视器详细信息显示在幻灯片中的单独窗格中。幻灯片窗格显示模型监视器名称以及用于查看模型监视器结果和设置的链接。单击链接图标还会在“数据监视器”页面的下方窗格中显示数据偏移详细信息。单击左上角的 X 关闭窗格。
- 启用:选择数据监视器并单击启用以启用禁用的监视器。默认情况下,启用数据监视器。状态显示为
“数据监视器”页显示有关所选监视器的信息:监视器名称、基线数据、新数据、上次开始日期、上次状态、下次运行数据、状态和调度。如果数据监视器已成功运行,则该页面还会显示数据偏差。要查看数据偏移,请执行以下操作:
图 7-6 数据监视器页面上的数据偏移预览
选择已成功运行的数据监视器,如屏幕截图中所示。在下方窗格上,将显示所选监视器的数据偏移。X 轴描绘分析周期,Y 轴描绘数据漂移值。水平虚线是阈值,该线表示分析期间的每个时间点的偏差值。将鼠标悬停在行上可查看偏移值。有关此示例的更多信息,请参阅查看数据监视器结果。
- 创建数据监视器
通过数据监视,您可以检测一段时间内的数据偏差以及对机器学习模型性能的潜在负面影响。在“数据监视器”页面上,可以创建、运行和跟踪数据监视器和结果。 - 查看数据监视器结果
“数据监视器结果”页显示成功运行的数据监视器上的信息,以及每个受监视功能的数据偏移详细信息。 - 查看历史记录
“历史记录”页显示数据监视器的运行时详细信息。
相关主题
7.1 创建数据监视器
通过数据监视,您可以检测数据随时间变化以及对机器学习模型性能的潜在负面影响。在“数据监视器”页面上,可以创建、运行和跟踪数据监视器和结果。
父主题:数据监视入门
7.2 查看数据监视器结果
“数据监视器结果”页显示成功运行的数据监视器上的信息,以及每个受监视功能的数据偏移详细信息。
- 设置 -“设置”部分显示数据监视器设置。单击设置上的箭头可展开此部分。您可以通过单击页面右上角的编辑来编辑数据监视器设置。在此屏幕截图中,将显示数据监视器功耗的设置。
图 7-10“数据监视器结果”页面上的“设置”部分
- 偏移 -“偏移”部分显示每个受监视功能的数据偏移的详细信息。在此示例中,选择了数据监视器功耗数据监视器。X 轴描绘分析周期,Y 轴描绘数据漂移值。水平虚线是阈值,该线表示分析期间的每个时间点的偏差值。将鼠标悬停在行上可查看偏移值。
图 7-11“数据监视器结果”页面上的“数据偏移”部分
-
功能 -“功能”部分显示受监视的功能以及计算的统计信息。
图 7-12“数据监视器结果”页面上的“功能”部分
重要性列中的值指示功能在指定时段内对数据偏移的影响。
对于数字数据,将计算以下统计信息:- 平均
- 标准差
- 范围(最小值、最大值)
- NULL 数量
对于分类数据,将计算以下统计信息:- 唯一值的数量
- NULL 数量
对于每个受监视的功能,将鼠标悬停在上方可查看以下其他详细信息,如此处的屏幕截图所示。
- 第一:这是分析期间计算统计信息的第一个值。
- 最后:这是分析期间计算统计的最后一个值。
- 最大值:这是分析时段的计算统计信息的最高值。
- 最小值:这是分析期间计算统计的最小值。
- 单击功能部分中的任何受监视功能可查看“度量”、“统计信息”、“分布”和“使用交叉表列的分布”,如此处的屏幕截图所示。在此屏幕截图中,为功能 GLOBAL_REACTIVE_POWER 显示了人口稳定性指数。
图 7-13 人口稳定指数
计算包括:- 度量:计算以下度量:
- 人口稳定指数 (PSI):这是衡量一个人口随着时间的推移或在单个数字中的两个不同人口样本之间转移的程度。这两个分布被绑定到存储桶中,PSI 会比较每个存储桶中项的百分比。PSI 计算方法为
PSI 值的解释是:PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))
PSI < 0.1
表示没有显著的人口变化0.1 <= PSI < 0.2
表示人口变化适度PSI >= 0.2
表示人口大幅变化
- Jenson Shannon Distance(JSD):这是两个概率分布之间的相似性的度量。JSD 是 Jensen-Shannon Divergence 的平方根,与 Kullbach-Leibler Divergence(KLD) 有关。JSD 的计算方法为:
SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))
其中,P 和 Q 是 2 个分布,
M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))
JSD 的值范围介于 0 和 1 之间。
- 交叉表填充稳定性指数:这是两个变量的 PSI。
- 交叉表 Jenson Shannon Distance:这是两个变量的 JSD。
- 人口稳定指数 (PSI):这是衡量一个人口随着时间的推移或在单个数字中的两个不同人口样本之间转移的程度。这两个分布被绑定到存储桶中,PSI 会比较每个存储桶中项的百分比。PSI 计算方法为
- 统计信息:最多可以查看 3 个选定期间的统计信息。使用这些统计计算量化数据偏差。
图 7-14 统计
对于数字数据,将计算以下统计信息:- 平均
- 标准差
- 范围(最小值、最大值)
- NULL 数量
对于分类数据,将计算以下统计信息:- 唯一值的数量
- NULL 数量
- 分配:具有图例的功能分配图表显示选定期间和基线(可选)的功能库位。
图 7-15 交叉表列的分布图和分布
- 使用交叉表列的分布:热图指示所选交叉表和特征列的分布密度。红色表示最高密度。
注意:
在数据漂移监视中,nulls
被单独跟踪为number_of_missing_values
。
- 度量:计算以下度量:
父主题:数据监视入门
7.3 查看历史记录
“历史记录”页显示数据监视器的运行时详细信息。
选择数据监视器并单击历史记录以查看运行时详细信息。历史记录页显示以下有关数据监视器运行时的信息:
图 7-16“数据监视器历史记录”页面
- 实际开始日期:这是数据监视器实际启动的日期。
- 请求的开始日期:这是在创建数据监视器时在
Start Date
字段中输入的日期。 - 状态:状态为
SUCCEEDED
和FAILED
。 - 详细信息:如果数据监视器失败,则此处将列出详细信息。
- 持续时间:这是运行数据监视器所用的时间。
单击 Back to Monitors(返回监视器)返回到 "Data Monitoring"(数据监视)页面。
父主题:数据监视入门