IQR(Interquartile Range,四分位距)

IQR 是用于标记离群值的另一种稳健方法。用于检测离群值的 IQR(Interquartile Range,四分位距)方法由 John Tukey 开发,他是开创探索性数据分析的先锋人物。此方法产生于手工计算和绘图时代,因此涉及的数据集通常较小,并且重点放在理解数据的意义上。

盒须图使用四分位数(将数据划分为大小相等的四组点)来绘制数据的形状。盒子代表第 1 个和第 3 个四分位数,它们等于第 25 个和第 75 个百分点。盒子内的线代表第二个四分位数,即中间值。

四分位距(该离群值检测方法正是因此而得名)是第一个和第三个四分位数(盒子边缘)之间的间距。Tukey 认为,如果数据点比第一个四分位数低 1.5 乘 IQR,或比第三个四分位数高 1.5 乘 IQR,就属于离群或极度离群。在经典的盒须图中,须线一直延伸到界限内的最后一个数据点。

四分位距 (IQR) 是一种衡量变异性的方法,它通过将数据集划分为四分位数来实现。四分位数将一个按等级排序的数据集划分为四个相等的部分。即 Q1(第 1 个四分位数)、Q2(第 2 个四分位数)和 Q3(第 3 个四分位数)。IQR 定义为 Q3–Q1,位于 Q3+1.5*IQR 或 Q1-1.5*IQR 之外的数据被视为离群值。


IQR 示例