Mineração de Dados x Econometria

Uma ótima discussão via LinkedIn sobre um assunto bastante recorrente e importante quando falamos de Mineração de Dados e análises voltadas a predição.

Com o crescimento dos softwares computacionais voltados à análise de dados, bem como a falha dos setores econômicos em relação as suas previsões, ficou a impressão que a máquina em breve substituiria o papel do homem em relação à análise de dados, no qual bastaria apenas uma base de dados que a máquina realizaria todo o trabalho de previsão e os analistas humanos teriam apenas o trabalho de validar os modelos propostos de forma automática.

Entretanto, muito do que se fala hoje sobre modelos de predição não envolve apenas o programa de computador, mas também tem muito da modelagem que é proposta por trás da análise; e nesse campo a Econometria continua soberana (e continuará por muito tempo). E a delimitação desses papéis se faz necessária para compreensão do processo de modelagem e análise de dados.

Primeiro o Data Scientist, ou Minerador de Dados é o responsável por realizar todo o mapeamento do projeto de mineração de dados desde o seu nascedouro como o entendimento do negócio e definição de domínio de atuação, aquisição e entendimento dos dados e métricas, manipulação/transformação de dados, aplicação e estudo de algoritmos de implementação, validação e implementação do projeto; muitas das vezes utilizando a metodologia CRISP-DM, e também a utilização de soft skills sobretudo em questões de relacionamentos interpessoais.

Em segundo lugar vem o Econometrista que é responsável pela utilização ferramentas de estimação/previsão dentro de contextos  político-econômicos, utilização de instrumentos das políticas econômicas e financeiras através de elementos matemáticos, prospecção de modelos econométricos, i.e. combinação de elementos matemáticos para descrever determinados comportamentos da economia, validação de modelos estatísticos para mensuração de recursos; além de contar com um leque de elementos intelectuais bastante vasto para interpretação de elementos da administração, contabilidade,  e economia clássica para conjecturas sistêmicas para construção desses modelos de comportamentos econômicos não observáveis  de forma experimental ou aplicada.

Em linhas gerais vemos que a diferença entre esses papéis são bem claras; enquanto um realiza análises através de conjecturas intelectuais, algo mais ou menos como a montagem de um quebra cabeças; outro tem como foco a elaboração de modelos estruturados dentro de uma teoria consolidada.

Essas profissões mais do que concorrer em questão de qual é a mais eficiente em termos de predições; são complementares e em diversos momentos estão dentro da mesma intersecção; na qual, o Data Scientist não consegue propor um modelo de mineração sem conhecimento do domínio baseado em análise exploratória (abordagem Hit and Run); o Econometrista não consegue realizar predições sem um conjunto de dados que siga um determinado padrão de aquisição e abrangência. Simples assim. Pensar dessas duas formas é no mínimo muita pretensão, para não dizer falta de desconhecimento em análise de dados.

Dentro dos seus segmentos de atuações, a Mineração de Dados e a Econometria se complementam em muitos aspectos, no qual o primeiro contribuí com a aquisição de dados e tratamento além de análises exploratórias de acordo com modelos interdisciplinares e domínios específicos, o segundo contribuí de forma muito significativa com os seus modelos baseados em matemática e forte fundamentação teoria econômica.

Para finalizar, fica essa ótima analogia postada pelo usuário Nethra sobre a diferença entre a Econometria e a Mineração de Dados em relação às suas abordagens:

It reminds me the story of two people on an island, coming together evaluating what the heck happened, having extracted themselves from a fallen plane on the sea - fortunate to have survived but wanted to figure out how to get out of this no-mans land. Fortunately, the plane crashed just after take off. One said, let us start swimming in the direction of where we came from, taking into consideration the starting direction of the plane and the time they spent on the plane. He was smart to come to some quick conclusions and wanted to keep moving. We will adjust and fine tune our swimming patterns on the way based on various clues we might get.

The second one said, well we do not know whether we will get clues on the way or get eaten away. How about we evaluate various possible alternatives including the one you proposed and select the best and then go. In the end, we need to survive, and if it takes to stay here in this island, we should do that too. The first curiously looked at the second and asked, are you hypothesizer? Let us get to work and I am swimming. Obviously he is a great swimmer and he was trained by the best swimmers in the world.

He shouted, “we did enough calculations, the shore is not far we know, come on, lets go”. The second did not believe him; some of his previous reading suggested that these waters are shark infested, but he did not know which direction it was.

One version of the story ends like this: He came back two days later on a helicopter to retrieve the hypothesizer, who was dehydrating and about to die. My son secretly tells me, dad, you do not have to finish the story in this way, just because you are a data miner. He completed the story as follows.

Two days later a helicopter came and retrieved him when he was dehydrating and about to die. The pilot was saying that the coast guard found a swimmer 10 miles further away from the shore, in the wrong direction, and about to die. He was retrieved and recovering at the shore.

My son continued, the pilot said, ‘it seems he misjudged the direction”. May be it helps to have some good idea of planetory sciences and oceanography, I guess dad, my son was telling me, with a twinkle in his eyes.