Z 分数

说明

Z 分数(即标准分数)根据数据点与一组点的平均值和标准偏差之间的关系来描述数据点。采用 Z 分数就是将数据映射到平均值定义为 0 且标准偏差定义为 1 的分布。

采用 Z 分数的目的是消除数据位置和尺度的影响,以允许直接比较不同的数据集。Z 分数离群值检测方法基于的逻辑是,一旦对数据进行集中化和重新缩放,任何与零相差太大的值(阈值通常采用 Z 分数 3 或 -3)都应该被视为离群值。

假设数据呈正态分布(钟形曲线),99.7% 的观测结果应落在平均值 + 3*SD(标准偏差)内。从统计学上讲,该范围之外的值均被视为异常。


Z 分数示例