Sobre os livros e especialistas de produto em Mineração de Dados

Olá a todos!

No começo de algumas pesquisas sobre Mineração de Dados, um dos maiores percalços sem sombra de dúvidas foi (é) encontrar literatura suficientemente boa para iniciação dos estudos. Os problemas mais comuns eram (é):

  • Livros sem nenhum tipo de aplicação prática: Não adianta ter uma técnica multidisciplinar que pode revolucionar diversas formas de como nos relacionamos com os dados, se o pesquisador não tem nenhum tipo de compromisso de mostrar como essa técnica pode ser aplicada. Diferentemente da matemática pura, a Mineração de Dados não trabalha em base de axiomas e teoremas; e ela é parte de uma ciência (inteligência artificial) que detêm parte da sua segmentação na ciência humana (análise e tomada de decisão). Dessa forma é mais do que necessário além de buscar o aprimoramento teórico, buscar sim a representação da técnica através da sua aplicação prática (Há outro segmento que é da Mineração de Dados no aspecto puro, mas isso é tema para outro post);

  • Autores despreocupados com outros métodos e não vão além da tríade popular de técnicas (Associação, Classificação e Agrupamento): Esse é um problema que eu considero gravíssimo. Muitos autores não vão além do arroz com feijão quando se fala das técnicas de Mineração de Dados, seja por meio de se arriscarem a dizer algo que não tem completo domínio, e/ou não assustar os leitores menos avisados. Dessa forma, ao longo de uma revisão de literatura sempre há um sentimento de ‘Deja Vu’ na qual os autores vêm se parafraseando ao longo de páginas e mais páginas;

  • Base estatística altíssima: Na verdade isso não chega a ser um problema, e penso que isso é o que difere autores como honestidade intelectual dos aproveitadores que querem estar na ‘crista da onda’ para explorar um assunto tão complexo com ferramentas. Nesse caso, o único ponto contra é que os livros de Mineração de Dados (em geral os estrangeiros) partem de uma elipse muito grande o que pode dificultar a curva de aprendizado, levando o estudante a recorrer a literaturas mais provincianas e menos técnicas;

  • Poucas explicações de como a base matemática serve de base para a Mineração de Dados: Esse é um erro gravíssimo que eu vejo mais na literatura nacional sobre Mineração de Dados. Há livros no mercado de gente que tem PhD e que escreve um livro de Mineração de Dados sem nenhum tipo de fórmula matemática. Isso é ideal se fosse um livro para executivos ou tomadores de decisão; contudo, indicar um livro dessa natureza como de utilização acadêmica é um ato de no mínimo desonestidade intelectual;

  • Dispersão de amplo material bom que está pegando poeira em alguma editora ou sobra de congressos de mineração: Mais do que bases de dados, os estudantes de Mineração de Dados precisam de disciplinas investigativas avançadas para achar pesquisadores sérios interessados no tema, bem como materiais de altíssima qualidade, até mesmo na internet. Grande parte dos congressos de Mineração de Dados ocorre em lugares específicos o qual há um publico muito seleto (para não dizer exclusivo) o qual há uma troca de ideias que somente com muito esforço se tem acesso, principalmente aqui no Brasil.

E o que eu considero mais grave…

  • Especialistas de ‘produtos de mercado’(sic.) falando a respeito de algo seríssimo como se a Mineração de Dados fosse apenas mais uma ferramenta trivial de análise de dados: Em determinados momentos ao escutar alguns especialistas de produtos (Principalmente da Microsoft com seus MVP’s (sic.)) falando de Mineração de Dados dá a impressão que estamos falando de mais um produto como o office ou mesmo como se a mineração fosse resumida ao Addin do Excel. Entretanto, a Mineração de Dados como técnica de análise vem se consolidando cada vez mais, em especial com o fenômeno de Big Data que vem chamando a atenção das corporações que não querem perder nenhum tipo de dado, por mais trivial que seja. Esses especialistas de produto fazem uma série de webnars, webcasts, palestras falando de Clustering (Agrupamento, mas eles adoram colocar outras línguas no meio das frases para ter algum grau de sofisticação) sendo que se você falar de Distância Euclidiana o especialista de produto passa vergonha no meio do webnar só para ficar em um exemplo simples. Existe muita gente no mercado que conhece os seus produtos, bem como as técnicas; e cada a cada um ter o filtro necessário para saber o que é propaganda e o que é método matemático aplicado de forma séria, como a Mineração de Dados deve ser.

Para finalizar, é preciso ter cuidado com os recursos disponíveis que alegam serem sobre Mineração de Dados, mas na verdade são exclusivamente propaganda de ferramentas.