Nate Silver, a Mineração de Dados e Modelos Preditivos: E porque você deveria olhar os seus dados?

As 9:37hs do dia 7 Novembro cerca de 90% dos estados já estão com os votos computados; e o Presidente Barack Hussein Obama foi reeleito; e dentro da esfera da análise de dados o grande nome dessa eleição se chama Nate Silver.

Para quem não sabe; Nate Silver é o autor do livro The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t (O Sinal e o Ruído: Porque muitas previsões falham, mas algumas não. Tradução do Autor); no qual em linhas gerais coloca em perspectiva a causa da falha de muitos modelos de predição, onde o autor coloca que aspectos conjunturais são mais importantes do que tendências baseadas em critérios mais técnicos. Particularmente o livro apresenta muitos Rules of Thumb (regras de aplicação geral sem nenhum tipo de explicação exata de fato); mas a idéias do blog do Nate são muito mais consistentes e tem um grau de profundidade maior que o livro; mas isso é outro assunto.

O ponto principal é o que ninguém (fora do campo de análise de dados) conseguiu responder: É como um geek da área de análise de dados (um estatśitico de ofício e blogueiro (como diria o João Manoel Mello))  conseguiu acertar previsões das eleições em TODOS OS ESTADOS? E o mais importante: Como todo o establishment televisivo, acadêmico e político com analistas políticos, cientistas políticos, comentaristas (palpiteiros profissionais como diria Olavo de Carvalho) não conseguiram sequer realizarem projeções com eficácia mínima; chegando ao ponto dos apresentadores do Manhattan Connection (que é um ótimo programa por sinal) parecerem patetas com palpites que mudavam a cada 15 minutos, ao invés de analisarem aquilo que estava evidente para todos que era a conjectura política-econômica e os dados que foi exatamente que o Nate Silver viu e apresentou um resultado bastante consistente baseado nestes dois aspectos.

State by State Probabilities

State by State Probabilities

State By State Results

State By State Results

Dentro desse cenário fica mais que provado que para quem trabalha com análises preditivas deve ser consideradas as seguintes regras de ouro: 1)Olhe os dados; 2) Olhe os dados novamente; 3)Assim que terminar o passo Nr 2 olhe os dados novamente; 4) Considere a conjectura que envolve os dados que você está olhando; 5) Considere as ferramentas que tem disponível e extraia o máximo de conhecimento dos dados; 6) Faça uma análise analítica dos dados; e por final 7) Faça a junção das análises analíticas com as conjecturas e você terá um modelo preditivo.