Amostragem: Precisamos mesmo de 3 divisões amostrais (treinamento, validação e teste)?

Neste artigo do Dan Steinberg ele responde de forma clara: “The short answer to this question is “no” we do not think that the 3-way partition is mandatory for SPM core models such as CART and TreeNet.” Confesso que fiquei assustado com a resposta, mas abaixo no próprio artigo ele coloca a justificativa: “The question we address here is whether this is really enough when the process of model development is lengthy and may involve the building of dozens, hundreds, or even thousands of models.

Data Mining: Practical Machine Learning Tools and Techniques – Ian H. Witten; Eibe Frank

Esse livro é um ótimo textbook quando se trata de uma abordagem prática sobre mineração de dados; unindo de forma didática os conceitos básicos de mineração de dados (não só as técnicas; mas partes do KDD em si); bem como apresenta a ferramenta WEKA como suporte e aplicação prática do que foi desenvolvido através do livro.