High Dimensional Data Clustering
2016 Apr 14Grande parte dos avanços em Machine Learning que ocorreram nos últimos 10 anos foram bastante relacionados com alguns aspectos que são:
- Algoritmos mais robustos em termos de acurácia (XGBoost);
- Métodos Ensemble para a combinação de algoritmos; e
- Incorporação de metaheurísticas para melhoria em termos de tempo processamento e otimização de parâmetros
Contudo, um dos aspectos em que ainda há um caminho longo para evolução é em relação ao tratamento de dados com alta dimensionalidade (e.g. com muitos atributos, ou colunas se estivéssemos falando de banco de dados) dado que dependendo desse volume o tempo de processamento torna-se proibitivo.
Isso de maneira geral é um problema essencialmente algorítmico do que computacional.
Muitas técnicas vem se destacando para tratar dessa limitação como Rough Sets, PCA, LDA entre outras, em que o produto final da aplicação de cada uma dessas técnicas é um conjunto de dados menor, o que consequentemente causa uma perda de informação.
Esse artigo abaixo trata de uma forma de lidar com esse problema, sem ter que limitar o conjunto de dados.
É de extrema importância para todos que tenham que lidar com esse tipo de problema em Machine Learning.
High Dimensional Data Clustering