O Impacto de Outliers em Algoritmos de Machine Learning

Compartilhe

Compartilhar no facebook
Compartilhar no google
Compartilhar no twitter
Compartilhar no linkedin

Por Jéssica da Silva Costa, 

Data Analyst in Card Present Team Zoop

No último artigo falamos sobre os outliers e como detectá-los. Dessa vez, vamos falar sobre alguns algoritmos que são impactados com a presença de outliers.

É muito importante sabermos dessa informação para escolher o melhor modelo para analisar nossos dados.

Um dos modelos mais sensíveis à presença de outliers é o modelo de regressão. Mas o que é regressão?

Regressão é um modelo matemático que associa uma variável dependente com uma variável independente, ou seja, ela analisa o comportamento de uma variável no decorrer da variação de outra variável. Esta relação é chamada de correlação

Para verificar se duas variáveis são correlacionadas, podemos utilizar um diagrama de dispersão que mostra graficamente a relação entre duas variáveis.

Mais especificamente para a correlação linear, podemos utilizar o coeficiente de Pearson que mede essa correlação numa escala de -1 a 1, onde:

  • Correlação 1 significa uma correlação positiva perfeita ― uma variável aumenta conforme a outra aumenta;
  • Correlação -1 significa uma correlação negativa perfeita ― uma variável aumenta conforme a outra diminui;
  • Correlação 0 significa não existe correlação linear, porém pode existir a não linear.

Existem diversos modelos de regressão ― regressão logística, regressão polinomial, regressão linear, entre outras. Neste artigo falaremos da regressão linear, que possui uma relação linear entre as variáveis, muito similar a uma função afim ou de 1º grau, na forma f(x) = x+.

Inclusive, no plano cartesiano, essa função é representada por uma reta, onde é o coeficiente angular ― indica a inclinação da reta ― e é onde a reta intercepta o eixo y. 

No entanto, quando falamos em Machine Learning, não eliminamos o erro, mas o itigamos ao menor valor possível para que o modelo possa convergir.

Dessa forma acrescentamos o erro ou desvio na definição da fórmula para regressão linear, f(x) = x++, onde é o erro ou desvio. Na figura abaixo temos a representação gráfica com=b0, = b1 , = e:

Capture

(Disponível em: https://nextjournal.com/intelrefinery/simple-linear-regression)

Em um modelo de regressão de Machine Learning, você utiliza o conjunto de treinamento para que o modelo possa fazer os ajustes, ou seja, achar os valores de e e diminuir o erro ao menor valor possível. 

Você pode se perguntar: “O que os outliers interferem nisso?” 

Outliers podem dificultar essa convergência, pois o modelo não consegue achar a relação linear destes dados com o menor erro possível, dado a forte presença de outliers.

Dessa forma, o erro pode ser muito grande e seu modelo não conseguir predizer muito bem outro conjunto de dados. 

Dado este problema, a detecção de outliers é uma das fases do processo de feature engineering, principalmente para modelos lineares. Realize esta análise antes de colocar os dados contínuos em uma mesma escala.

Ao detectar outliers, você pode eliminar ou limitar (colocar nos limites superior ou inferior), porém para o processo de limitá-los é necessário avaliar se isso não vai afetar a distribuição do seu conjunto de dados.

Sempre é bom realizar com cautela para não interferir no resultado.

Até o próximo artigo!

Jéssica Costa

Jéssica Costa

Jéssica da Silva Costa é analista de dados e engenheira de software, atua na Zoop Pagamentos no time de Cartão Presente no Rio de Janeiro. Formada em Sistemas de Informação pela Universidade Federal de Sergipe. Já atuou em comunidades de tecnologia e atuante é palestrante de data science e machine learning.

Deixe um comentário

Categorias

Posts relacionados

Siga-nos

Baixe nosso e-book!

%d blogueiros gostam disto: