26 · FEBRUARY · 2012

A utilização do WEKA como Minerador de Dados

FLAVIO CLESIO · 4 min

O WEKA (Acrônimo para Waikato Environment for Knowledge Analysis) é um software livre com licença General Public License desenvolvido pela Universidade de Waikato na Nova Zelândia para utilização em tarefas de Mineração de Dados.

Há muito escrito sobre o WEKA na web, e o objetivo desse post não é realizar uma comparação com algumas ferramentas de mercado, mas sim ressaltar algumas das boas características do WEKA.

O WEKA contém uma série de algoritmos que são desenvolvidos pela comunidade que contribui com a ampliação do Software, já que o mesmo é desenvolvido em Java e o projeto é código aberto, o que significa que dia após dia o projeto aumenta cada vez mais já que não há restrições de bibliotecas, bem como não há nenhum tipo de corporação por trás de uma iniciativa exclusivamente acadêmica.

O WEKA conta também com uma grande flexibilidade na utilização de suas técnicas de mineração, nas quais há uma ampla variedade de algoritmos os quais contém a sua respectiva descrição, bem como de acordo com o conhecimento do analista pode representar um diferencial de acordo com a escolha do algoritmo para a base que será analisada, na qual uma representação de um algoritmo pode ter um resultado distinto de acordo com a técnica escolhida.

Dois grandes diferenciais do WEKA em relação a outras ferramentas, é que há um amplo material de referência através da internet, no qual em poucos minutos já é possível utilizar o software sem nenhum tipo de problema em relação à base de conhecimento e/ou documentação. No site http://www.cs.waikato.ac.nz/ml/weka/ há toda a documentação do projeto e a descrição dos componentes que formam a Engine, e também há dois excelentes livros de referência como Data Mining: Practical Machine Learning Tools and Techniques de Hall, Witten e Frank e o Data Mining Methods and Models do Daniel Larose que são livros técnicos com exemplos práticos em WEKA.

Como pode ser visto o WEKA além de ser uma importante ferramenta de análise de dados e descoberta de conhecimento em bases de dados; possui muitos recursos que o tornam um minerador de dados robusto, flexível e com um corpo de conhecimento muito grande; o qual pode ser muito útil em aplicações com maior grau de especificação e complexidade.