修改後的 Z 分數

Z 分數方法依靠一組資料的平均值和標準差,來測量集中趨勢和離散。這有點麻煩,因為平均值和標準差會受到極端值的嚴重影響,所以它們並不穩健。事實上,極端值所帶來的偏斜情況,正是我們要在資料集中尋找並移除極端值的最大原因!而 Z 分數方法的另一個缺點,是它在較小資料集中的行為怪異;事實上,如果資料集中的項目小於 12 個,Z 分數方法根本無法偵測到極端值。

這激發了修改後的 Z 分數方法的發展,而這方法不會受到相同的限制。這個方法對於偏斜的資料,或是未正常分布以及觀測值較少的資料有很好的效果。MAD 是「中位數絕對偏差」。而修改後的 Z 分數方法進一步的優點,就是它使用中位數和 MAD,而非平均值和標準差。中位數和 MAD 分別是測量集中趨勢和離散的穩健方法。


修改後的 Z 分數範例