O Paradoxo do Overfitting

2013 Feb 27

No site do Dr. Bruce Ratner ele posta um artigo bem interessante sobre Overfitting.

Para quem já teve oportunidade de trabalhar com modelagem preditiva ou classificatória o Overfitting é quase que uma regra em muitos papers picaretas que saem em algumas revistas (em especial papers que realizam análise preditiva sobre indices de bolsas de valores).

Tratando-se de aprendizado de máquina o Overfitting tem algumas características interessantes como:

Péssima amostragem;
Desconhecimento do Cross-Validation;
Holdout que não representa a variância natural dos dados; e
Analistas querendo fazer Data Snooping.

Simples assim.

Veja abaixo um parágrafo relativo o Overfitting:

My Idiomatic Definition of Overfitting to Help Remember the Concept A model is built to represent training data, not to reproduce training data. Otherwise, a visitor from validation data will not feel at home. The visitor encounters an uncomfortable fit in the model because s/he probabilistically does not look like a typical data-point from the training data. The misfit visitor takes a poor prediction. The model is overfitted.