A inquestionável necessidade de especialistas de domínio

O artigo do Mike Loukides provavelmente é um dos melhores artigos sobre a questão da Mineração de Dados e a sua aplicação prática; e a suas implicações seja no aspecto técnico, quando no aspecto conceitual.

O motivo do post saiu através de uma análise do debate promovido pela O’Reilly, no qual ‘levantaram a bola’ sobre a necessidade de especialistas de domínio em projetos de mineração de dados. Hoje há diversas competições de mineração de dados, ferramentas, técnicas disponíveis; porém, ainda faltam analistas que consigam mapear o domínio em mineração de dados e conduzir um projeto desde o Business Understanding até o Deployment final.

Um trecho interessante sobre a análise black-box está descrita abaixo:

There’s a limit to the value you can derive from correct but inexplicable results. (Whatever else one may say about the Target case, it looks like they made sure they understood the results.) It takes a subject matter expert to make the leap from correct results to understood results. In an email, Pete Warden said: “My biggest worry is that we’re making important decisions based on black-box algorithms that may have hidden and problematic biases. If we’re deciding who to give a mortgage based on machine learning, and the system consistently turns down black people, how do we even notice it, let alone fix it, unless we understand what the rules are? A real-world case is trading systems. If you have a mass of tangled and inexplicable logic driving trades, how do you assign blame when something like the Flash Crashhappens? “For decades, we’ve had computer systems we don’t understand making decisions for us, but at least when something went wrong we could go in afterward and figure out what the causes were. More and more, we’re going to be left shrugging our shoulders when someone asks us for an explanation.”

Veja que não é um raciocínio espúrio, mas sim uma preocupação real e que deve ser olhada com bastante atenção, e é por isso que muitas das vezes há de se bater na tecla sobre combater a análise black-box que muitos vendedores de software e pacotes estatísticos oferecem.

Quando se fala de avaliação, e o impacto econômico (só para ficar nesses aspecto particular) veja um caso bem interessante de associação em bases de dados reais:

Another realistic scenario: Target recently used purchase histories to target pregnant women with ads for baby-related products, with surprising success. I won’t rehash that story. From that starting point, you can go a lot further. Pregnancies frequently lead to new car purchases. New car purchases lead to new insurance premiums, and I expect data will show that women with babies are safer drivers. At each step, you’re compounding data with more data. It would certainly be nice to know you understood what was happening at each step of the way before offering a teenage driver a low insurance premium just because she thought a large black handbag (that happened to be appropriate for storing diapers) looked cool.

Enfim, vale a pena assistir o vídeo pois há algumas considerações bem interessantes e pertinentes.