Livro - Encyclopedia of Distances - Michel Marie Deza, Elena Deza
2012 Jun 14As técnicas de agrupamento (clustering) são provavelmente uma das disciplinas mais difíceis em relação ao aprendizado/aplicação prática tratando-se de mineração de dados. As técnicas de clustering tem diversas intersecções em relação ao conjunto de disciplinas em sua concepção: estatística, matemática, geometria, etc; e uma importante parte da construção dos clusters (indução gráfica) é bastante relacionado com as medidas de distâncias sejam elas de similaridade (relações entre os pontos da base de dados) e dissimilaridade (relações baseadas nas diferenças entre os pontos).
As medidas de distância são fundamentais em termos de clusters seja no seu custo computacional, complexidade e representação gráfica para análise; a qual dependendo da medida de distância utilizada pode apresentar mudanças significativas em termos de identificação de outliers, formato dos clusters na camada de apresentação, e até mesmo na formação de vizinhanças entre os grupos de pontos de dados .
Esse livro tem tudo isso bem explicado, com pormenores que vão até o nível mais baixo em relação a aprendizado de máquina; na qual é explicado as importancias, detalhes matemáticos e características de cada uma das medidas de distâncias apresentadas.
O livro é bem escrito e com as mais diversas medidas apresentadas oferece um leque bem vasto de possibilidades para análise de dados, tudo em linguagem bem acessível e com uma notação matemática bem simples. É uma boa pedida para quem deseja sair do arroz e feijão das técnicas de cluster (Distância Euclideana, e Manhattan).
O livro não é recomendado para quem não tem familiaridade com análise de clusters, ou não tem endentimento básico de matemática; porém, não é impeditivo.