Estudo Randomizado Controlado: Poderoso, mas apenas se usado da forma correta.

2015 Jan 26

Apesar desse artigo do Jon Jachimowicz falar essencialmente de Economia Comportamental, grande parte do que foi dito sobre ensaio clínico randomizado aplica-se à mineração de dados, especialmente tratando-se de amostragem e Uplift Modeling.

O autor enfatiza três elementos desse tipo de estudo que são (a) uma necessidade de maior sofisticação dos grupos de controle, (b) mais cautela na consideração de outros comportamentos que afetem o estudo, e (c) uma melhor conceitualização dos efeitos de longo prazo.

Os ensaios utilizando esta metodologia apresentam uma robustez relativamente alta, particularmente no que diz respeito à minimização do efeito da aleatoriedade no resultado final dos estudos.

Essa robustez foi tratada pelo Médico José Carlos Souto do blog da Dieta Paleolítica e Low-Carb, em relação aos graus de evidência científica:

A evidência que tem menor valor é a opinião pessoal. Afinal, opinião todo mundo tem, e o papel aceita qualquer coisa. Quando, porém, não há outros dados na literatura médica, aceita-se a opinião de um especialista como uma evidência provisória.
A seguir, vêm os relatos de caso. Consistem no relato de uma série de casos, a fim de que se possam extrair dados estatísticos sobre determinada doença/circunstância. Qual a idade média das pessoas com aquela doença, qual o sexo e a etnia das pessoas?
A seguir, vêm os estudos de caso-controle, nos quais o investigador pega um grupo de pessoas com determinada doença e compara com outro grupo de pessoas que não tenham a doença.
A seguir, vêm os estudos ecológicos, aqueles nos quais compara-se populações com diferentes características (por exemplo, o risco de infarto entre 2 países). É este nível de evidência relativamente fraco que levou à conclusão equivocada, em 1953, de que a gordura na dieta causava doença cardíaca.
A seguir, vêm os estudos de coorte, na qual se obtém dados (exames, questionários, etc) de um grande número de pessoas, e os acompanha por vários anos a fim de identificar quem desenvolve doenças, de forma a identificar possível fatores de risco no passado.
A seguir, vem o ensaio clínico randomizado, o padrão-ouro da evidência em medicina, no qual um grande número de pessoas é “randomizada” (isto é, sorteada) para dois ou mais grupos; em geral, um grupo é submetido a uma intervenção (um remédio, uma dieta), e o outro grupo serve como controle. O sorteio garante que os grupos sejam semelhantes entre si em TUDO, exceto na variável sendo testada. Este é o único tipo de estudo capaz de sugerir fortemente relações de causa e efeito. É este o grau de evidência dos estudos que provam que a redução da gordura na dieta não traz benefício (clique aqui).
Por fim, no topo da cadeia alimentar da evidência científica, vem a revisão sistemática de ensaios clínicos randomizados. Afinal, por puro acaso, um ensaio clínico randomizado pode achar um resultado que não seja real - uma flutuação estatística aleatória. Mas quando você tem, digamos, DEZ ensaios clínicos randomizados que tratam sobre o mesmo tema, uma revisão sistemática e metanálise pode combinar matematicamente os dados de TODOS eles, o que empresta a esta análise um peso superior ao dos estudos isolados. Por este motivo, a revisão sistemática epitomiza o mais alto nível de evidência científica.

Nem é preciso ver muito longe pra ver que essas definições são importantes para o Data Miner devido ao simples fato de que em muitos dos estudos de natureza contrastiva (e.g. comparação de produtos, estudos de ações de marketing por canal para mensuração real de efetividade, influências de variáveis específicas em personas em uma base de clientes) sem uma metodologia nem algoritmos, nem técnicas, nem pré-processamento de dados vão conseguir obter um resultado próximo da realidade.

Sobre a forma de realizar esses estudos o autor diz:

One of the key elements of an RCT is the comparison between an intervention group and a control group. That is, when researchers hypothesize that one group is going to benefit from a given intervention, they compare the behavior of that intervention group to that of a group that did not receive the intervention. Although this rationale carries intuitive appeal, it overlooks the fact that a difference from the no-intervention group does not necessarily suggest that the intervention was successful. Take the case of medicinal research, where the intervention group is often instead compared to a placebo (a sugar pill) because extensive research shows that merely giving a patient a pill carries positive intervention effects. In fact, much medicinal research goes a step further, additionally comparing an intervention condition to the best currently known intervention. If an intervention remains better than these two control conditions, then one can be much more confident in claiming that it truly is effective. A no-intervention condition is therefore not a good control condition on its own. In particular, to be more certain about the validity of an approach, the intervention condition should be compared to three adequate control conditions, consisting of a no-intervention group, a placebo group, and a best-currently-available-intervention group.

Em outras palavras: nas basta saber se a solução é boa, mas sim se ela é boa comparada com as demais soluções já existentes.

Este parágrafo fala a respeito da consideração de outros efeitos no comportamento do grupo de controle:

Consequently, we need to think more about what other behaviors may be affected by an intervention and then determine the appropriate design to best measure the effects.

Pegando o gancho do que o autor colocou, um dos erros mais crassos em relação à análise de dados é a não-observância de outros fatores que possam ter influenciado o resultado como estacionariedade, aspectos ligados a sazonalidade (que pode ser cíclica ou não cíclica como essa análise sensacional mostrou), ou ate mesmo aspectos exógenos (que estão além do estudo como uma outra posologia ou questões de terapias auxiliares no caso dos casos clínicos) que podem conduzir a uma tomada de decisão ruim, ou mesmo fortalecer vieses cognitivos como o viés de confirmação que decorre de uma associação ilusória.

Desta forma qualquer experimento ou estudo que for conduzido usando ensaio clínico randomizado, ou metodologia que simule esse design de experimentos deve levar em consideração um rigor no acompanhamento dos resultados e no contraste das soluções ou resultados encontrados.