IQR (四分位距)

IQR 是另一種用於標記極端值的穩健方式。用於偵測極端值的 IQR (四分位距) 方式是由 John Tukey 發展出來的,他是探索式數據分析的先驅。當時是以手工計算和描圖的時代,因此牽涉的資料集通常較小,且重點在於瞭解資料敘事。

盒鬚圖使用四分位數 (將資料分成四組同樣大小的點) 繪製資料的形狀。盒子代表第 1 個和第 3 個四分位數,分別等於第 25 個和第 75 個百分位數。盒子內部的直線代表第 2 個四分位數,也就是中位數。

四分位距 (此極端值偵測方式的名稱由來) 就是第 1 個四分位數與第 3 個四分位數 (也就是盒子兩邊) 之間的距離。Tukey 將落在低於第 1 個四分位數起算的 1.5 倍 IQR 範圍之外,或是高於第 3 個四分位數起算的 1.5 倍 IQR 範圍之外的所有資料點,都視為在範圍之外或異常。在典型的盒鬚圖中,鬚會向上延伸,直到範圍內的最後一個資料點為止。

四分位距 (IQR) 是根據將資料集劃分為四分位數的差異量數。四分位數會將按照順序排列的資料集分成四等份。Q1、Q2 及 Q3。IQR 定義為 Q3–Q1,在 Q3+1.5*IQR 或 Q1-1.5*IQR 範圍外的所有資料都會被視為極端值。


IQR 範例