使用提升和增益图表评估机器学习模型

通过提升和增益图表,可以比较不同的机器学习模型以确定最准确的模型。

使用提升和增益图表概览

借助提升和增益图表,您可以通过使用 Oracle Analytics 在可视化中以图表方式显示建模统计信息,来评估预测机器学习模型。

使用数据流将分类模型应用于数据集时,可以通过 Oracle Analytics 计算提升和增益值。然后,可以在图表中可视化这些数据,以帮助您评估预测模型的准确度,并确定最适合使用的模型。

GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png 的说明如下
.png 的说明

先决条件

  • Oracle 数据库或 Oracle Autonomous Data Warehouse
  • 包含预测概率的分类模型(例如,使用朴素贝叶斯训练脚本创建的多元分类器模型)。

    可以在 Oracle Analytics 的“机器学习”区域中访问现有的预测模型。

为提升和增益分析生成的统计信息

将预测分类模型应用于数据集并生成提升和增益统计信息时,将会生成名为 <Data flow name>_LIFT 的数据集,其中包含以下列:
  • PopulationPercentile — 数据集总体拆分为 100 个同等组。
  • CumulativeGain — 截至相应百分比段的正面目标累积数与正面目标总数的比率。累积增益线与图表左上角越近,增益越大;联系的客户所占比例越低,达到的响应者所占比例越高。
  • GainChartBaseline — 整体响应率:这条线表示,如果我们随机选择记录,预计收到的正面记录所占百分比。例如,在市场营销活动中,如果我们随机联系 X% 的客户,我们将共收到 X% 的正面响应。
  • LiftChartBaseline — 值为 1,用作提升比较的基线。
  • LiftValue — 某个百分比段的累积提升。提升是所选数据的累积正面记录密度与所有测试数据的正面密度的比率。
  • IdealModelLine — 正面目标累积数与正面目标总数的比率。
  • OptimalGain — 此项指示要联系的客户最佳数量。超过此点时,累积增益曲线将变平。

然后,可以在 Oracle Analytics 图表中可视化 <Data flow name>_LIFT 数据集。例如,要分析增益,可以在 X 轴上绘制 PopulationPercentile,在 Y 轴上绘制 CumulativeGain、GainChartBaseline、IdealModelLine 和 OptimalGain。

GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png 的说明如下
.png 的说明

为提升和增益图表生成预测数据

使用数据流将分类模型应用于数据集时,您可以通过 Oracle Analytics 计算统计信息,可以在提升和增益图表中可视化这些统计信息。

开始之前,创建一个包含预测概率的分类模型(例如,使用朴素贝叶斯训练脚本创建的多元分类器模型)。Oracle Analytics 的机器学习页(从主页中单击机器学习)的模型选项卡上显示可用的模型。
  1. 在主页上,依次单击创建数据流
  2. 选择数据源,然后单击添加
  3. 单击添加步骤,然后选择应用模型
  4. 选择模型中,选择包含预测概率的分类模型,然后单击确定
  5. 应用模型中的参数部分中:
    • 计算提升和增益中,选择
    • 要计算提升的目标列中,选择所预测值的列名。例如,如果您的模型使用名为 SIGNUP 的列预测客户是否将注册成员资格,则选择 SIGNUP。
    • 要计算的正面类中,指定在预测中表示正面类(或首选结果)的数据值(区分大小写)。例如,如果您的模型使用名为 SIGNUP 的列(值为 YES 或 NO)预测客户是否将注册成员资格,则指定 YES。
  6. 保存数据节点添加到数据流。
  7. 执行此数据流。
该数据流将生成一个名为 <Data flow name>_LIFT 数据集,其中包含提升和增益统计信息,您可以对其进行评估。

使用提升和增益图表评估机器学习模型

使用图表分析机器学习分类模型生成的统计信息,以确定要使用的最佳模型。

开始之前,将预测模型应用于您的数据并在数据集中生成提升和增益统计信息。
  1. 在主页上,依次单击创建工作簿
  2. 添加数据集中,选择您在上一任务中生成的 <Data flow name>_LIFT 数据集,然后单击添加到工作簿
  3. 可视化面板中,选择要分析的统计信息,然后单击右键并选择选取可视化,再选择线形图
    例如,要分析增益,可以将 PopulationPercentile 放在 x 轴上,将 CumulativeGainGainChartBaselineIdealModelLineOptimalGain 放在 y 轴上。
    要分析提升,可以将 PopulationPercentile 放在 x 轴上,将 LiftChartBaselineLiftValue 放在 y 轴上。