A utilização do WEKA como Minerador de Dados
2012 Feb 26O WEKA (Acrônimo para Waikato Environment for Knowledge Analysis) é um software livre com licença General Public License desenvolvido pela Universidade de Waikato na Nova Zelândia para utilização em tarefas de Mineração de Dados.
Há muito escrito sobre o WEKA na web, e o objetivo desse post não é realizar uma comparação com algumas ferramentas de mercado, mas sim ressaltar algumas das boas características do WEKA.
O WEKA contém uma série de algoritmos que são desenvolvidos pela comunidade que contribuí com a ampliação do Software, já que o mesmo é desenvolvido em Java e o projeto é código aberto, o que significa que dia após dia o projeto aumenta cada vez mais já que não há restrições de bibliotecas, bem como não há nenhum tipo de corporação por trás de uma iniciativa exclusivamente acadêmica.
O WEKA conta também com uma grande flexibilidade na utilização de suas técnicas de mineração, nas quais há uma ampla variedade de algoritmos os quais contém a sua respectiva descrição, bem como de acordo com o conhecimento do analista pode representar um diferencial de acordo com a escolha do algoritmo para a base que será analisada, na qual uma representação de um algoritmo pode ter um resultado distinto de acordo com a técnica escolhida.
Dois grandes diferenciais do WEKA em relação a outras ferramentas, é que há um amplo material de referẽncia através da internet, no qual em poucos minutos já é possível utilizar o software sem nenhum tipo de problema em relação a base de conhecimento e/ou documentação. No site http://www.cs.waikato.ac.nz/ml/weka/ há toda a documentação do projeto e a descrição dos componentes que formam a Engine, e também há dois excelentes livros de referência como Data Mining: Practical Machine Learning Tools and Techniques de Hall, Witten e Frank e o Data Mining Methods and Models do Daniel Larose que são livros técnicos com exemplos práticos em WEKA.
Como pode ser visto o WEKA além de ser uma importante ferramenta de análise de dados e descoberta de conhecimento em bases de dados; possuí muitos recursos que o tornam um minerador de dados robusto, flexível e com um corpo de conhecimento muito grande; o qual pode ser muito útil em aplicações com maior grau de especificação e complexidade.