Z-Score

Descrição

Z-Score, ou pontuação padrão, é uma maneira de descrever um ponto de dados em termos de sua relação com a média e o desvio padrão de um grupo de pontos. Obter um Z-Score é simplesmente mapear os dados em uma distribuição cuja média é definida como 0 e cujo desvio padrão é definido como 1.

O objetivo de obter Z-scores é remover os efeitos da localização e da escala dos dados, permitindo que diferentes conjuntos de dados sejam comparados diretamente. A intuição por trás do método Z-Score de detecção de outliers é que, uma vez que tenhamos centralizado e redimensionado os dados, qualquer valor que esteja muito longe de zero (o limite é geralmente um Z-Score de 3 ou -3) deve ser considerado um outlier.

Pressupondo que os dados sejam distribuídos normalmente (curva em forma de sino), a Média + 3*SD (Desvio Padrão) capturará 99,7% das observações. Estatisticamente, qualquer valor que esteja fora dessa faixa será considerado uma anomalia.


Exemplo de Z-Score