Modelagem de Resultado

Neste post do Paul Mineiro (um dos mais reflexivos autores da blogosfera de Analytics) ele coloca em questão os custos e benefícios do trabalho de pesquisa e como o pesquisador profissional deve deixar o seu empregador informado sobre especialmente desses benefícios.

Esse trecho abaixo diz muito sobre o fato de que nós pesquisadores e entusiastas da análise de dados, e principalmente Data Mining não somos tão bons em divulgar os nossos resultados:

Recent events have me thinking again about the viability of privately funded basic research. In my opinion, the history of Xerox PARC is deeply troubling. What?! At it’s peak the output of Xerox PARC was breathtaking, and many advances in computation that became widespread during my youth can be traced to Xerox PARC. Unfortunately, Xerox did not benefit from some of the most world-changing innovations of their R&D department. Now a generation of MBAs are told about the Cisco model, where instead of having your own research department, you wait for other firms to innovate and then buy them.

… it continues to buy small, innovative firms rather than develop new technology from scratch …

To be clear my employer, Microsoft, still shows a strong commitment to basic research. Furthermore, recent research layoffs at Microsoft were not related to research quality, or to the impact of that research on Microsoft products. This post is not about Microsoft, it is about the inexorable power of incentives and economics.

Quite simply, it is irrational to expect any institution to fund an activity unless that organization can realize sufficient benefit to cover the costs. That calculation is ultimately made by people, and if those people only hear stories about how basic research generates benefits to other firms (or even, competitors!), appetite will diminish. In other words, benefits must not only be real, they must be recognizable to decision makers. This is, of course, a deep challenge, because the benefits of research are often not recognizable to the researchers who perform it. Researchers are compelled to research by their nature, like those who feel the need to scale Mount Everest. It so happens that a byproduct of their research obsession is the advancement of humanity.

A discussão poderia ir para o caminho de questões orçamentárias e tudo mais; mas o cerne da questão é que devido a esse péssimo marketing pessoal (sic.) que faz parte de todo o jogo (teatro) corporativo reflete em que técnicas e competências extremamente ultrapassadas estejam reinando; mais especificamente as ferramentas de Business Intelligence e seus analistas que promovem mais entropia nas organizações com a avalanche de relatórios sobre o… passado.

A mineração de dados e a modelagem preditiva como um todo entram em uma arena de complexidade e análise diferente do exemplo citado acima; na qual ao invés de realizar diversas análises conjecturais que muitas das vezes desconsideram os dados e estão literalmente ancoradas e vieses cognitivos (ou cacoetes corporativos para a manutenção do status quo) elas são pautadas em tecnologias que vão segmentam, classificam e recomendam usando informações de bases de dados em problemas tipicamente não lineares no qual um analista humano teria extrema dificuldade de agir.

Uma das soluções para que a Mineração de Dados seja vista como uma alternativa real, face a esta crescente entropia no ambiente de negócios transvestida de ‘Inteligência’ (e principalmente dando dinheiro a charlatães, mas isso será assunto de outro post) as análises devem ter ligação direta com os resultados, sejam financeiros ou mesmo de outra natureza.

O melhor programa de marketing sempre foi, e sempre será a entrega de resultados e superação de metas. Ponto.

Sendo assim quais são as formas de se realizar isso com a mineração de dados? Algumas sugestões aleatórias seriam (i) a utilização de Uplift Modeling para comparar  o a) Status Quo, b) outras análises que estão sendo performadas sem a Mineração de Dados,  c) usando a Mineração de Dados e o posterior contraste dos métodos mostrando tempo empregado, custos e receita líquida final; (ii) estruturação de uma metodologia para a aplicação da Mineração dado que este é o ponto mais sensível quando vai se explicar esse tipo de trabalho para audiência não-técnica; e (iii) ter em mente a seguinte equação “Realidade = Modelo - Erro”; em outras palavras, isso significa que você sempre estará olhando o intangível, isto é, informações que estão aquém da modelagem de dados; e por último (iv) estruture uma apresentação efetiva desses resultados, um ótimo recurso é o livro Real Leaders Don’t Do Power Point que mostra que até o analista mais técnico pode realizar uma apresentação excelente.