Pré-Processamento de Dados: Trabalhando com Outliers

Um dos problemas mais comuns em análise de dados, mas especificamente na fase de pré-processamento de dados numéricos contínuos é a ocorrência de outliers dentro do conjunto de dados.

Muito do que é explicado na literatura de mineração de dados e banco de dados sobre a análise de outilers (que não seja somente a detecção) é que as anomalias dos dados, devem, a priori, ser removidas dos conjuntos de dados; seja com a remoção da instância por completo, ou utilizando técnicas como binning (aproximação pelo vizinho mais próximo em linhas gerais).

Da mesma forma que uma base com anomalias podem enviesar o resultado e conseqüentemente apresentar distorções; a remoção dos mesmos pode também levar a um resultado igualmente tendencioso, no qual trabalha somente com o ‘melhor dos mundos’ em termos de pré-processamento dos dados. Essa pode não ser a abordagem mais inteligente em termos de análise de dados, pois uma anomalia pode ter relação direta com outro conjunto de variáveis (correlação ou casualidade) que poderiam entrar na amostra e que possivelmente poderiam  explicar a sua ocorrência.

Uma alternativa bem interessante nesse sentido seria no momento o pré-processamento realizar a marcação dos dados (e.g. uma flag binária) com as indicações utilizando o seguinte processo:

Rodar estatísticas relativas à análise exploratória dos dados (Média, Desvio Padrão, Variância, Análise de Inter-Quartis, etc);

Com essa informação determinar ranges relativos à base de dados realizando uma atribuição classificatória dentro do espectro de ranges, e aos outliers (Extremo Baixo, Baixo, Médio, Alto, Extremo Alto, e indicações de Outlier (Baixo) e Outlier (Alto)) .

É uma idéia simples na qual, não há a perca de dados; e que deixa o conjunto de dado apto para análise das correlações (se houverem) sobre as anomalias dentro do conjunto dos dados.