Overfitting

Overfitting significa sobredeterminación o sobreaprendizaje, también recibe el nombre de sobreajuste. Ajustar un modelo de aprendizaje automático a las observaciones de un training set (conjunto de entrenamiento) se dice to fit.

Si el ajuste es muy fuerte el modelo deja de ser generalizable y sólo refleja las particularidades del conjunto utilizado en la prueba. Es decir, se ha capturado el ruido de los datos de entrenamiento de modo que se incorpora al modelo y deja de poder realizar previsiones acertadas. Cuando ocurre es una característica negativa. Puede suceder con frecuencia al usar ajustes polinomiales de grado alto para regresiones sobre conjuntos con determinadas distribuciones.

Overfitting (ejemplo)

La causa puede estar en el sobreentrenamiento, en la incorporación de datos extraños, en el ajuste frente a variables sin relación causal y en la elección de los algoritmos.

El efecto opuesto (obtener un modelo tan general que el conjunto de entrenamiento no se ajusta al mismo) se llama underfitting.

Para evitar el overfitting en nuestros algoritmos para Big Data, es necesario utilizar técnicas adicionales como cross-validation, regularización, early stopping, pruning, bayesian priors en los parámetros, comparación de modelos y dropout.

Formación Relacionada

¡Noticias, eventos y formación!

Suscríbete ahora y recibe los mejores contenidos sobre Negocios, Prevención, Marketing, Energías Renovables, Tecnología, Logística y Recursos Humanos.

Acepto recibir comunicaciones comerciales por parte del grupo IMF
He leído y acepto las condiciones