Punteggio z

Descrizione

Il punteggio z, o punteggio standard, è un modo di descrivere un datapoint in termini della sua relazione con la media e la deviazione standard di un gruppo di punti. Assegnare un punteggio z significa semplicemente mappare i dati su una distribuzione la cui media è definita come 0 e la cui deviazione standard è definita come 1.

L'obiettivo di assegnare punteggi z è rimuovere gli effetti della posizione e della scala dei dati, consentendo un confronto diretto di set di dati diversi. L'intuizione alla base del metodo del punteggio z per il rilevamento di outlier è che una volta centrati e ricalcolati in scala i dati, qualsiasi valore che sia troppo lontano dallo zero (la soglia solitamente è un punteggio z di 3 o -3) deve essere considerato un outlier.

Partendo dal presupposto che i dati siano distribuiti normalmente (curva a campana), la Media + 3*SD (Standard Deviation, deviazione standard) acquisirà il 99,7% delle osservazioni. Dal punto di vista statistico, qualsiasi valore che non rientra in questo intervallo viene considerato un'anomalia.


Esempio di punteggio z