24 · NOVEMBER · 2012

Resenha: Introduction to Data Mining in Life Sciences

FLAVIO CLESIO · 4 min

Esse livro é um dos ótimos achados desse ano de 2012; e apresenta a mineração de dados sob uma perspectiva de domínio bem interessante que são os dados relativos à BioInfo e ciências naturais.

O livro do Rob Sullivan coloca a mineração de dados seus métodos em uma boa junção com a bioinformática, no qual o autor de forma muito bem estruturada coloca os passos da mineração de dados desde os passos do pré-processamento até a visualização.

Um dos pontos fortes do livro são dois capítulos, o primeiro é sobre os métodos estatísticos aplicados na mineração de dados como forma de suporte à análise; e o capitulo sobre Classificação e Predição.

No capitulo sobre métodos estatísticos o autor coloca de maneira elaborada os métodos estatísticos como plotagem, boxplot e outros métodos como forma de sumarização e análise inicial dos dados, no qual a mineração de dados viria em um segundo momento após a análise das sumarizações iniciais. O mais importante neste capitulo é a abordagem na qual essas sumarizações informam a estrutura dos dados na qual pode ajudar o analista de mineração de dados a ter informações pertinentes que podem auxiliar no processo de extração de padrões e conferência de distribuições dos dados; além de ter um ótimo material de suporte (Scripts em R).

O capitulo sobre classificação e predição, apesar da ressalva do autor no início do livro o qual ele atribuiu a tarefa de classificação para dados categóricos; e predição para dados numéricos; no desenrolar do capítulo o autor coloca essas duas tarefas como uma única o que pode trazer confusão em um primeiro momento para um leitor menos atento. Tirando esse pequeno deslize o capítulo está bem estruturado com a descrição das tarefas de maneira bem sucinta e direta.

Dentro do domínio das ciências da vida, (a priori o livro trata de problemas ligados a BioInfo) o livro tem boas descrições dos métodos e principalmente da aplicação na Bioinformática, em especial os capítulos apresentam as descrições do que deve ser minerado. Algum conhecimento básico de Biologia é extremamente recomendado, pois pode não ser tão trivial entender o funcionamento de cadeia enzimática, ou mesmo seqüenciamento genético e a utilização das técnicas para cada tipo de problema.

Um ponto negativo no livro é justamente uma das qualidades do livro que é justamente o espectro de assuntos abordados. Em uma tentativa de não deixar algum aspecto importante de lado, o autor coloca inúmeros métodos, mas de forma bem sintética o que poderia deixar o livro menos denso (um livro de 643 páginas que se fosse feito em 350 já estaria ótimo), mas nada comprometedor). O livro pode decepcionar quem espera um Cookbook desse gênero; porém, no prefácio o autor já faz as devidas ressalvas quanto a isso. Entretanto, o ponto mais negativo é certamente o preço, que são os quase proibitivos U$ 167; um preço salgado para um livro que não é um guia definitivo.

De maneira geral o livro é bem escrito e merece uma atenção principalmente para quem algum for lidar com dados relativos à bioinformática, pois esse campo tem uma porção de particularidades que fazem toda diferença quando chega à parte de analise; e além de contar com o background do autor em sua maneira de escrever (Com exemplos e com walkthrough nos algoritmos) auxilia muito no entendimento. Recomendadissímo.