IQR (四分位範囲)

IQRは、外れ値にラベルを付けるための別の堅牢な手法です。外れ値検出のIQR (四分位範囲)手法は、探索的データ分析の先駆者であるJohn Tukeyによって開発されました。当時は手作業で計算およびプロットを行っていたため、通常、含まれるデータセットは小規模で、データが示す実像を理解することに重点が置かれていました。

箱ひげ図では、四分位数(データを等サイズの4つのグループに分割する点)を使用してデータの全体像がプロットされます。箱は第1四分位数と第3四分位数を表し、これらは25パーセンタイルと75パーセンタイルに相当します。箱の中の線は第2四分位数を表し、これは中央値です。

外れ値検出のこの手法の名前となっている四分位範囲は、第1四分位数と第3四分位数(箱の両端)の間の範囲です。Tukeyは、第1四分位数からIQRの1.5倍より大きく下に外れたデータ・ポイント、または第3四分位数からIQRの1.5倍より大きく上に外れたデータ・ポイントを範囲外とみなしました。従来の箱ひげ図では、ひげは、範囲外でない最後のデータ・ポイントまで延びます。

四分位範囲(IQR)は、データセットを四分位数に分割することに基づくばらつきの測度です。四分位数は、ランク順に並べられたデータセットを4つの均等な部分に分割します。Q1、Q2およびQ3。IQRはQ3–Q1として定義され、Q3+1.5*IQRまたはQ1-1.5*IQRの外側にあるデータが外れ値とみなされます。


IQRの例