准备数据

定义在执行预测之前评估和管理数据的方式,例如,如何处理离群值或缺少的值。这些用于准备数据的选项可以提高用于预测的数据的质量。

定义每个动因的数据的管理方式。请注意,目标值为表示要预测目标度量。

  1. 对于未来的输入动因数据,如果要预测缺少输入动因值的值,请选择预测缺少的输入动因值

    缺少的值使用统计预测(单变量预测)进行预测,并用于 ML 模型训练。

  2. 对于每个动因,定义缺少的值的处理方式:单击操作列中的“编辑”图标 “编辑”图标,然后从缺少值列表中选择用于处理动因缺少值的选项。

    数据可能因多种原因而包含缺少的值,例如度量失败、格式设置问题、人为错误或缺少信息。您可以定义这些缺少的值的填充方式,从而将标准化值添加到数据集中缺少的条目。

    • - 不执行任何操作并按原样发送数据。
    • - 将任何列缺少的值替换为零。
    • 替换为平均值 - 使用历史系列中的平均值替换。
    • 替换为中间值 - 使用历史系列的中间值点替换。
    • 替换为模式 - 使用历史数据中最常用的值替换。
    • 替换为下一观测值 - 使用下一期间观测到的值替换缺少的值。
    • 替换为上一观测值 - 使用上一期间观测到的值替换缺少的值。
  3. 对于每个动因,从离群值列表中选择用于处理离群值的选项,这些值不在动因的平均值 +/- 3*标准偏差范围内:
    • - 不执行任何操作并按原样发送数据。

    • 替换为零 - 使用零替换。

    • 替换为平均值 - 使用平均值替换。

    • 替换为 Z 分数 - 使用 z 分数替换。

      对于任何数值列,不在平均值 +/- 3*标准偏差范围内的任何值都被视为离群值。小于平均值 - 3*标准偏差的值将替换为平均值 - 3*标准偏差。大于平均值 + 3*标准偏差的值将替换为平均值 + 3*标准偏差

  4. 单击下一步