Truques Estúpidos em Mineração de Dados - Overfitting no índice S&P500
2013 Jan 08Neste artigo do David Leinweber (o qual já foi tema do site aqui e aqui) ele coloca algumas considerações a respeito do fato de que muito do que se fala sobre Mineração de Dados está fartamente relacionado a relações absurdas que podem acontecer pelo fato de “torturar os dados” como a predição do índice Standard & Poor’s 500 através de correlações (estúpidas) como o modelo de regressão no qual a produção de manteiga em Bangladesh (Coeficiente de Determinação R2 de 0.75); produção de manteiga em Bangladesh e produção de queijo nos EUA (R2 = 0.95) e a fantástica correlação entre a produção de manteiga em Bangladesh, a produção de queijo nos EUA e a população de ovelhas em Bangladesh que apresenta o coeficiente de determinação de incríveis 99%.
É claro que o artigo escorrega um pouco ao radicalizar a questão, no qual o autor confunde quase que de maneira primária os conceitos de correlação (relação conjunta de uma ou mais váriaveis dentro de um contexto de análise) e casualidade (fatos que acontecem de acordo com um dado grau de sincronissidade, enretanto isolados em contextos distintos) para dar substância ao que está sendo defendido em sua tese; mas isso de nenhuma forma invalida o estudo no qual deixa claro que a “técnica de torturar os dados até que eles falem” é uma péssima abordagem e que pode gerar aberrações em análise de dados iguais aos casos citados.
De maneira geral o autor apresenta uma boa prática na qual sempre que haja esse tipo de análise, deve-se realizar testes sobre dados fora da amostragem para que sejam produzidos resultados mais fidedignos.