A predição que eu não quero...

Este site trata de questões ligadas diretamente à Data Mining e as demais variantes em relação à análise de dados, aprendizado de máquina, meta-heurísticas, matemática e estatística.

No entanto, um artigo do John Katz do New York Times que fala sobre os modelos de predição para as eleições do senado deste ano é um (mal) exemplo claro de que as atividades de análise de dados nunca podem ser um fim em si mesmas.

Em suma o artigo fala dos problemas dos modelos de predição, e mostra que mais uma vez os modelos erraram em detectar uma onda Republicana.

Até aí nada de mais: Modelos preditivos falhando.

Contudo, depois do excelente  livro do Nate Silver  um efeito nocivo dessa popularização da análise de dados e da mineração de dados é que muitos jornais, revistas, sites começaram a realizar o que eu chamo de análises estéreis no qual essas análises não olham a consequência da decisão, mas sim olham somente os números como se a análise preditiva fosse uma imensa gincana.

Não que eleições dessa natureza venham contribuir em termos de práticos para os pagadores de impostos; porém, para o pagador de impostos melhor do que saber qual indicador preditivo está com melhor desempenho; o certo seria entender como a composição de um senado iria influenciar em questões orçamentarias, fiscais, e principalmente de grandes questões importantes para todos.

A lição que fica é que a análise e a mineração de dados sempre está sujeita a questões ligadas ao suporte à decisão, e não somente a análise per se.

PS: As análises e o código fonte estão neste link.