Replicação em Pesquisa Acadêmica em Mineração de Dados
2013 Jul 14Lendo este post do John Taylor sobre a replicação da pesquisa econômica publicada até em journals de alto impacto lembrei de uma prática bem comum em revistas acadêmicas da área de Engenharia de Produção e Mineração de Dados que é a irreprodutibilidade dos artigos publicados.
Essa irreprodutibilidade se dá na forma em que se conseguem os resultados, em especial, de técnicas como Clustering, Regras de Associação, e principalmente Redes Neurais.
Um trabalho acadêmico/técnico/experimental que não pode ser reproduzido é a priori 1) metodologicamente fraco, e 2) pessimamente revisado. Trabalhos com essas características tem tanto suporte para o conhecimento como a chamada evidência anedótica.
Depois de ler mais de 150 papers em 2012 (e rumo aos 300 em 2013) a estrutura não muda:
- Introdução;
- Revisão Bibliográfica;
- Aplicação da Técnica;
- Resultados; e
- Discussão na qual fala que teve ganho de 90% em redes neurais.
Há um check-list bem interessante para analisar um artigo acadêmico com um péssimo DOE, e mal fundamentado metologicamente:
Artigos de Clustering
- Qual foi o tamanho da amostra?;
- Qual é o tamanho mínimo da amostra dentro da população estimada?
- Foram realizados testes estatísticos sobre a população como teste-Z ou ANOVA?
- Qual é o P-Valor?
- Qual foi a técnica para a determinação da separação dos clusters?
- Quais os parâmetros foram usados para a clusterização?
- Porque foi escolhido o algoritmo Z?
Artigos de Regras de Associação
- Qual foi o suporte mínimo?
- Qual é o tamanho da amostra e o quanto ela é representativa estatisticamente de acordo com a população?
- O quanto o SUPORTE representa a POPULAÇÃO dentro do seu estudo?
- Como foi realizado o prunning as regras acionáveis?
- A amostra é generalizável? Porque não foi realizado o experimento em TODA a população?
Redes Neurais
- Qual é a arquitetura da rede?
- Porque foi utilizada a função de ativação Tangente e não a Hiperbólica (ou vice-versa)?
- A função de ativação é adequada para os dados que estão sendo estudados? Como foi feito o pré-processamento e a discretização dos dados?
- Porque foi escolhida o número de camadas internas?
- Tem taxa de aprendizado? Qual foi e porque foi determinada essa taxa?
- Tem decaímento (Decay)? Porque?
- E o momentum? Foi utilizado? Com quais parâmetros?
- Qual estrutura de custos está vinculada nos resultados? Qual foi a quantidade de erros tipo I e II que foram realizados pela rede?
- E o número de épocas? Como foi determinada e em qual momento a rede deixou de convergir? Você acha que é um erro mínimo global ou local? Como você explica isso no resultado do artigo
Pode parecer algo como o desconstrucionismo acadêmico fantasiado de exame crítico em um primeiro momento mas para quem vive em um meio no qual estudos mais do que fraudulentos são pintados como revolucionários é um recurso como um escudo contra besteiras (Bullshit Shield).
Em suma, com 50% das respostas das perguntas acima o risco de ser um paper ruim com resultados do tipo “caixa-preta” já caí para 10% e aí entra o verdadeiro trabalho de análise para a reprodução do artigo.
Abaixo um vídeo bem interessante sobre papers que nada mais passam de evidência anedótica.
[youtube=http://www.youtube.com/watch?v=voEHhxSBND4&w=560&h=315]