IQR (Intervalo entre Quartis)

O IQR é outro método poderoso para identificar outliers. O método IQR (Intervalo entre Quartis) para detecção de outliers foi desenvolvido por John Tukey, o pioneiro na análise exploratória de dados. Isso foi na época do cálculo e da representação gráfica manuais. Nessa época, os conjuntos de dados envolvidos costumavam ser pequenos e a ênfase era em compreender a história que os dados contavam.

Um diagrama de caixas usa quartis (pontos que dividem os dados em quatros grupos de tamanho igual) para representar graficamente a forma dos dados. A caixa representa o 1º e o 3º quartis, que são iguais ao 25º e ao 75º percentis. A linha dentro da caixa representa o 2º quartil, que é a mediana.

O intervalo entre quartis, que dá o nome a esse método de detecção de outliers, é o intervalo entre o primeiro e o terceiro quartis (as extremidades das caixa). Tukey considerou qualquer ponto de dados que estivesse fora de 1,5 vez o IQR abaixo do primeiro — ou 1,5 vez o IQR acima do terceiro — quartil como estando fora ou mais distante. Em um diagrama de caixas clássico, as linhas se estendem até o último ponto de dados que não está fora.

O intervalo entre quartis (IQR) é uma medida de variação que se baseia em dividir um conjunto de dados em quartis. Os quartis dividem um conjunto de dados ordenados por classificação em quatro partes iguais. Q1, Q2 e Q3. O IQR é definido como Q3 - Q1 e qualquer dado que estiver fora de Q3+1.5*IQR ou Q1-1.5*IQR será considerado um outlier.


Exemplo de IQR