IQR (intervallo tra quartili)

IQR costituisce un altro metodo affidabile per contrassegnare gli outlier. Il metodo IQR (interquartile range, intervallo tra quartili) di rilevamento degli outlier è stato sviluppato da John Tukey, il pioniere dell'analisi esplorativa dei dati. Tutto questo risale ai tempi in cui il calcolo e la rappresentazione venivano eseguiti a mano, quindi i set di dati coinvolti erano solitamente di piccole dimensioni e l'attenzione era rivolta a comprendere la storia raccontata dai dati.

Un diagramma a scatola e baffi utilizza i quartili (punti che dividono i dati in quattro gruppi di uguali dimensioni) per rappresentare la forma dei dati. La scatola rappresenta il 1º e il 3º quartile, che equivalgono al 25º e al 75º percentile. La riga all'interno della scatola rappresenta il 2º quartile, che costituisce la mediana.

L'intervallo tra quartili, da cui prende il nome questo metodo di rilevamento degli outlier, è l'intervallo tra il primo e il terzo quartile (i bordi della scatola). Tukey considerava anomalo qualsiasi datapoint che si allontanasse dal primo o dal terzo quartile di più di 1,5*IQR rispettivamente verso l'alto o verso il basso. In un diagramma a scatola e baffi classico, i baffi si estendono fino all'ultimo datapoint che non si trova all'esterno.

L'intervallo tra quartili (IQR) è una misura di variabilità che si basa sulla divisione di un set di dati in quartili. I quartili dividono un set di dati ordinati in quattro parti uguali. Q1, Q2 e Q3. IQR è definito come Q3-Q1 e gli eventuali dati che si trovano al di fuori di Q3+1.5*IQR o di Q1-1.5*IQR vengono considerati outlier.


Esempio di IQR