Error y robustez: métricas “dentro de la muestra” y “fuera de la muestra”
25/07/2024 2024-07-25 9:27Error y robustez: métricas “dentro de la muestra” y “fuera de la muestra”
Error y robustez: métricas “dentro de la muestra” y “fuera de la muestra”
Editado por Pier Giuseppe Giribone
Una de las principales causas del fracaso del proceso de generalización es lasobreajuste, un concepto estadístico que era ampliamente conocido incluso antes del uso generalizado de las metodologías de aprendizaje automático. El siguiente ejemplo propone un criterio para medir la validez de un modelo, centrándose en la división del conjunto de datos en Presión en e compruébaloConsideremos, por ejemplo, una regresión que represente mejor la ley que rige el proceso descrito por los puntos experimentales mostrados en la Figura 1.
Figura 1 – Comparación de modelos de regresión polinómica
La Figura 1 muestra 40 puntos que no se ajustan a ninguna ley conocida. El color azul asociado al conjunto de datos completo indica que el 100 % de la muestra se utilizará para entrenar los modelos interpretativos.
En particular, se toman en consideración tres modelos de regresión polinómica tradicionales para interpretar mejor la ley que los generó:
– La línea azul se obtiene a partir de un modelo lineal, caracterizado por dos parámetros que deben estimarse a partir del conjunto de datos de entrenamiento (los puntos azules).
– La línea naranja se genera mediante un modelo cuadrático, caracterizado por tres parámetros que deben estimarse.
– La línea verde se trazó a partir de los resultados obtenidos de un modelo polinómico de orden quincuagésimo y, en consecuencia, dotado de un número muy elevado de parámetros.
El modelo representado por la línea verde se caracteriza intuitivamente por un problema de sobreajuste a los datos, el representado por la línea azul es demasiado deficiente en términos de ajuste a los datos (subajuste), mientras que la línea naranja es la que, incluso visualmente, mejor captura la esencia de la ley que generó los datos.
Por lo tanto, el modelo cuadrático es el que mejor generaliza la relación inherente a los datos. La verdadera cuestión es cómo transmitir este conocimiento a un ordenador.
Un concepto clave reside en definir una medida estadística que nos permita comparar laerror del modelo con el observado experimentalmente, o una especie de evaluación de la brecha interpretativa.
Entre las medidas más populares que se pueden utilizar para enfoques regresivos, se mencionan dos de las más utilizadas:
– Error absoluto medio (MAE): se define como la suma de los errores tomados en valor absoluto dividida por el número de elementos presentes en la muestra.
– Error medio cuadrado (MSE): definido como la media de los errores al cuadrado.
Si aplicáramos directamente esta medida a todo el lote de entrenamiento, el mejor modelo sería erróneamente el sobreajustado, que presenta el MAE y el MSE más bajos en comparación con los otros enfoques.
Rendimiento de la muestra
Modelo subajustado: MAE = 7.28, MSE = 75.99
Ajuste correcto del modelo: MAE = 2.10, MSE = 6.72
Sobreajuste del modelo: MAE = 0.35, MSE = 0.36
Para identificar correctamente el mejor modelo, estas pruebas estadísticas deben realizarse sobre datos no considerados en el conjunto de entrenamiento. Esta porción de datos, no considerada por el algoritmo durante el entrenamiento, se define como equipo de prueba.
El procedimiento propuesto consistiría en estimar el modelo no para los 40 datos experimentales, sino en excluir del lote de entrenamiento una parte (por ejemplo, el 15%) sobre la cual estimar las estadísticas de rendimiento. fuera de muestra, más adecuado para evaluar la calidad de nuestro algoritmo.
La figura 2 muestra en azul los datos seleccionados para entrenar los modelos, mientras que los datos que se utilizarán para la comparación se muestran en naranja. La división entre los conjuntos de entrenamiento y prueba debe ser aleatoria.
Figura 2 Prueba de división de tren
Al estimar el rendimiento de los tres modelos con el nuevo conjunto de datos de entrenamiento (puntos azules en la Figura 2), obtenemos resultados similares a los anteriores:
Rendimiento dentro de la muestra
Modelo subajustado: MAE = 7.04, MSE = 71.28
Ajuste correcto del modelo: MAE = 1.87, MSE = 5.77
Sobreajuste del modelo: MAE = 0.0009, MSE = 0.000000172
Incluso el modelo sobreajustado tiene prácticamente cero medidas de error. Ahora evaluemos las mismas métricas aplicadas a los puntos de prueba.
Al probar los modelos con datos no considerados en la fase de entrenamiento, se descubre la inestabilidad del modelo sobreajustado.
Rendimiento fuera de muestra
Modelo subajustado: MAE = 8.56, MSE = 103.09
Ajuste correcto del modelo: MAE = 3.31, MSE = 12.6
Modelo sobreajustado: MAE = 10e+9, MSE = 10e+16
En resumen, las mediciones estadísticas realizadas sobre datos "nuevos" permiten obtener una medida externa fiable e independiente del rendimiento de un modelo.
Los modelos con ajuste insuficiente se caracterizan por errores elevados tanto dentro como fuera de la muestra, mientras que los modelos con sobreajuste presentan errores extremadamente bajos dentro de la muestra y errores extremadamente altos (o inestables) fuera de la muestra. Los modelos correctos ofrecen un rendimiento bueno y estable tanto para errores dentro como fuera de la muestra.
El reto consiste, por lo tanto, en encontrar el número de parámetros que permita un equilibrio óptimo entre la estabilidad del modelo y el rendimiento dentro de la muestra, pero sobre todo fuera de ella.
En el caso de la regresión polinómica que acabamos de analizar, al utilizar un polinomio de un grado muy cercano al número de datos experimentales, se tenía la certeza de que se podría encontrar una función que se ajustara matemáticamente a los puntos a la perfección.
Pero al hacerlo, se perdió por completo el concepto más importante de un modelo estadístico, es decir, capacidad de generalizarEl modelo sobreajustado demostró ser inestable en las proximidades de los puntos experimentales, lo que aumentó significativamente el error calculado.
El fenómeno desobreajusteComo se acaba de demostrar utilizando modelos econométricos clásicos, no es algo nuevo en la estadística tradicional, pero desempeña un papel verdaderamente crítico en el aprendizaje automático en general y en las redes neuronales profundas en particular, es decir, donde el número de hiperparámetros del modelo es alto.
Artículos Relacionados
𝗔𝗻𝘁𝗶𝗿𝗶𝗰𝗶𝗰𝗹𝗮𝗴𝗴𝗶𝗼𝗼 𝗻𝗲𝗹 𝘁𝗲𝗿𝗿𝗶𝘁𝗼𝗿𝗶𝗼𝗼 𝗱𝗲𝗹𝗹𝗮𝗠𝗮𝗴𝗻𝗮𝗚𝗿𝗲𝗰𝗶𝗮𝗻: 𝗰𝗼𝗺𝗽𝗿𝗲𝗻𝗱𝗲𝗿𝗲 𝗶𝗹 𝗿𝗶𝘀𝗰𝗵𝗶𝗼𝗼 𝗽𝗲𝗿 𝗽𝗿𝗼𝘁𝗲𝗴𝗴𝗲𝗿𝗲 𝗹𝗲𝗰𝗼𝗻𝗼𝗺𝗶𝗮𝗹𝗲
𝗠𝗮𝘀𝘁𝗲𝗿 𝗔𝗠𝗟/𝗖𝗙𝗧 100% 𝗳𝗶𝗻𝗮𝗻𝘇𝗶𝗮𝘁𝗼
𝗖𝗔𝗥𝗕𝗢𝗡𝗜𝗢 – 𝗤𝘂𝗮𝗻𝗱𝗼 𝗹𝗲 𝗶𝗻𝗱𝗮𝗴𝗶𝗻𝗶𝗻𝗶 𝘀𝘂𝗹 𝗰𝘆𝗯𝗲𝗿𝗰𝗿𝗶𝗺𝗲 𝗱𝗶𝘃𝗲𝗻𝘁𝗮𝗻𝗼𝗻𝗼
Operación "Reembolso": Cuando el fraude fiscal se convierte en infraestructura financiera
Buscar
Categorías
- Admisiones y cupones (76)
- Inteligencia artificial en la gestión bancaria (6)
- Lucha contra el blanqueo de capitales y cumplimiento normativo (216)
- Banco de Italia – UIF – MEF (36)
- Ciberseguridad (11)
- Economía (13)
- ESB (170)
- GAFI – UE (33)
- Sector del juego (22)
- Noticias (405)
- Escenario internacional (33)
- Testimonios (85)