Mineração de Dados com Software Livre

Com o crescimento no estudo da disciplina de mineração de dados no meio acadêmico, bem como a sua validação e aplicação prática no meio corporativo; surgiu a necessidade da construção de novas ferramentas e suítes, com finalidade exclusiva para mineração de dados, desde o pré-processamento de dados até a visualização.

No mercado há diversas ferramentas proprietárias de excelente qualidade como o SPSS Clementine, SAS, Microsoft Analysis Services, STATISTICA, entre outros.

Entretanto, as ferramentas Open Source vem apresentando muitos recursos e funcionalidades, as quais muitas vezes superam e muito os seus concorrentes pagos com maior flexibilidade devido a possibilidade total de customização em alguns casos, robustez de soluções e bibliotecas, e claro o preço de implementação.

O objetivo desse post é fazer uma pequena explanação sobre cada um dos mais populares softwares de mineração de dados Open Source, e realizar alguns poucos comentários sobre algumas de suas características.

R - http://www.r-project.org/ - O Projeto R (ou somente “R”) é software de estatística que contém diversos packages (pacotes com diversas funções estatísticas, matemáticas, e econométricas) e vem em um ritmo de crescimento muito grande, em especial nos últimos 3 anos. Tem uma variedade muito grande de recursos estatístico-computacionais e tem como vantagem a sua difusão, e por ter uma linguagem de programação que tem uma curva de aprendizado média; o que permite que estatísticos, economistas, médicos, e cientistas da computação façam interações sob um mesmo código; além de possuír uma bibliografia invejável em termos de livros e materiais disponíveis na web. A desvantagem é que não há infromações sobre as operações de background e como o software utiliza os recursos de máquina disponíveis, como o funcionamento em relação a termos computacionais e até mesmo formas de customização para rodar em ambientes com alto poder computacional; além de ter uma interface de integração e pré-processamento de dados pobre em recursos de transformação.

Algumas leituras R for SAS and SPSS Users (Statistics and Computing) - Robert A. Muenchen The Art of R Programming: A Tour of Statistical Software Design - Norman Matloff Customer and Business Analytics: Applied Data Mining for Business Decision Making Using R (Chapman & Hall/CRC The R Series) - Daniel S. Putler, Robert E. Krider

RapidMinerhttp://sourceforge.net/projects/rapidminer/ - O RapidMiner é uma suíte de mineração de dados que vem se consolidando a algum tempo, e antes do R se tornar o software Open Source mais popular em análise de dados era o software de mineração de dados mais popular. O RapidMiner tem como principais diferenciais a parte de pré-processamento de dados, a baixa curva de aprendizado para início dos trabalhos em mineração de dados, além de produzir gráficos de ótima qualidade. O RapidMiner tem como desvantagem o “travamento” de diversos recursos que são liberados somente com a versão paga, não ter uma comunidade tão ativa, e pouca documentação (livros) dirigidos para o seu uso prático.

Bibliografia

Data Analysis with Open Source Tools - Philipp K. Janert

WEKA - http://www.cs.waikato.ac.nz/ml/weka/ - O WEKA é uma suíte de mineração de dados desenvolvida pela Universidade de Waikato na Nova Zelândia; e tem como principal diferencial ser uma ferramenta de uso muito simples; o que não significa que seja de menor qualidade em relação as demais ferramentas Open Source. O WEKA é praticamente a ferramenta inicial para quem inicia os estudos em mineração de dados, e sem sombra de dúvidas é a ferramenta que tem a menor curva de aprendizado, chegando as vezes até passar a impressão que a mineração de dados é algo trivial; além de contar com um ótimo livro do FRANK, e WITTEN que é um material muito precioso para trabalhar de forma prática com a ferramenta. A principal desvantagem do WEKA é a difícil implementação de novas bibliotecas, o quase que obrigatório conhecimento avançado em java para implementação de algoritmos, ter algumas limitações sérias em relação à geração de gráficos, e a péssima conexão/integração com bancos relacionais.

Algumas leituras

Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems) - Ian H. Witten , Eibe Frank , Mark A. Hall Data Mining Methods and Models - Daniel T. Larose Discovering Knowledge in Data: An Introduction to Data Mining - Daniel T. Larose

Rattle - http://rattle.togaware.com/ - O Rattle é uma nova suíte de mineração de dados que tem como característica principal incorporar a robustez das blibliotecas e soluções de mineração de dados do R; e conta com uma interface gráfica muito agradável com uma usabilidade excelente. Tem uma comunidade que vem crescendo muito forte, e conta com visuais gráficos que são muito melhores do que por exemplo os gráficos do Analysis Services da Microsoft. Ainda conta com uma literatura escassa, porém; nada que impeça a sua implementação, e tem um grave problema de ser designed para rodar em ambientes linux; o que pode ser fator impeditivo para utilização corporativa.

Bibliografia

Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery (Use R!) - Graham Williams

Diante desse leque de opções, cabe ao responsável técnico escolher a ferramenta que melhor se adapta as necessidades e principalmente que resolva melhor o seu problema, seja no desenvolvimento de pesquisas acadêmicas, ou em aplicações corporativas.