Outliers: Achar os Pontos Fora da Curva

Compartilhe

Compartilhar no facebook
Compartilhar no google
Compartilhar no twitter
Compartilhar no linkedin

Quem trabalha com ciência de dados ouve falar muito deles, mas todo mundo conhece como “pontos fora da curva”. São eles: os outliers. Basicamente, outliers  são valores muito discrepantes do conjunto de dados em que se encontram, também chamados de anomalias.

Identificar a presença dos outliers em um conjunto de dados ou dataset (termo bem usado pela ciência de dados) é muito importante, pois a sua presença afeta os resultados de algoritmos de análise e treinamento, principalmente de Machine Learning (Aprendizado de Máquina).

Além disso, em muitos casos, é necessário analisar se os seus dados possuem anomalias, por exemplo, em identificação de fraudes de transações de cartão.

Analisando do ponto de vista estatístico, já podemos observar alguns efeitos da presença de outliers em algumas medidas.

Média, amplitude e desvio padrão são extremamente afetados pela presença deles, o que pode levar a conclusões erradas na análise dos dados. Uma explicação rápida dessas medidas:

  • Média é soma de todos os valores dividido pela quantidade dos mesmos;
  • Amplitude é a diferença do menor e do maior valor
  • Desvio Padrão é uma medida de dispersão que visa identificar o quanto o dataset é uniforme.

Vamos supor que você queira calcular o tempo médio da sua transação de cartão, porém devido à forte presença de outliers, a sua média sobe. Isso te leva a acreditar que seu tempo é alto, uma conclusão errada.

Ao verificar o desvio padrão, você observa que ele também está alto, um forte sinal que os seus dados não estão próximos da média.

A amplitude dos dados também cresceu: você tem valores baixos e altos. Por isso,é muito importante sempre analisar dados com diversas métricas diferentes.

Uma das métricas mais utilizadas em estatística para identificação de outliers é o quartil. Os quartis são os valores obtidos ao se dividir em quatro partes iguais um conjunto de dados ordenado.

Mediana, ou segundo quartil, é o valor central que separa a metade menor e a metade maior de um conjunto de dados. Na figura a seguir nós temos um gráfico de caixa ou boxplot, que mostra os dados da perspectiva dos quartis.

A caixa representa os quartis, a linha verde a mediana,  acima você vê o limite superior e abaixo o limite inferior, calculados através da faixa interquartil (FIQ). O ponto no topo do gráfico é um outlier neste conjunto de dados. 

Capture

Uma forma de detectar outliers é através da faixa interquartil (FIQ), que é a diferença entre o terceiro e o primeiro quartil. Uma regra muito utilizada é que um outlier está no intervalo menor que 1.5 FIQ do primeiro quartil ou maior que 1.5 FIQ do terceiro quartil.

Por sinal, eles podem ser usados para calcular o limite inferior e o superior, ou seja, outliers estão abaixo de Q1 – 1.5 FIQ ou acima de Q3 + 1.5 FIQ. Parece complicado, mas é um cálculo bem simples. Analisar dados requer certo entendimento de estatística.

Após detectar os outliers você pode se perguntar: o que fazer com eles? Afinal, uma vez detectados, não devem ser ignorados. Você possui alguma opções:

  • Você pode eliminá-los da sua amostra;
  • Analisá-los de forma separada,
  • Realizar alguma transformação matemática para reduzir a variação dos dados.

Uma das melhores opções é analisar de forma separada estes dados, pois outliers podem ser exatamente o que você procura.

Um exemplo prático de identificação de outliers no mundo físico dos pagamentos é o problema de conexão de rede em determinadas regiões, o qual pode aumentar de forma considerável o tempo de transação, além das fraudes de cartões mencionadas anteriormente.

A presença de outliers tem forte impacto em algoritmos de Machine Learning eum exemplo é algoritmo supervisionado de regressão linear, mas isso deixamos para um próximo artigo :)

 

Quer saber mais sobre estatística e ciência de dados? Acesse: 

 

Jéssica Costa

Jéssica Costa

Jéssica da Silva Costa é analista de dados e engenheira de software, atua na Zoop Pagamentos no time de Cartão Presente no Rio de Janeiro. Formada em Sistemas de Informação pela Universidade Federal de Sergipe. Já atuou em comunidades de tecnologia e atuante é palestrante de data science e machine learning.

Deixe um comentário

Categorias

Posts relacionados

Siga-nos

Baixe nosso e-book!

%d blogueiros gostam disto: