d'Economía.net

ECONOMÍA

El papel fundamental de la partición de datos en la validación de modelos predictivos


David Zimmerman escribe:

Soy un estudiante de posgrado en biofísica y básicamente un novato en los métodos bayesianos. Me preguntaba si podría aclarar algo que está escrito en la sección 7.2 de Análisis de datos bayesianos. Después de introducir la densidad predictiva logarítmica por puntos como regla de puntuación para la predicción probabilística, usted dice:

La ventaja de usar una medida puntual, en lugar de trabajar con la distribución predictiva posterior conjunta… está en la conexión del cálculo puntual con la validación cruzada, lo que permite algunos enfoques bastante generales para la aproximación del ajuste fuera de la muestra utilizando los datos disponibles.

Pero, ¿no sería posible realizar una validación cruzada k-fold, por ejemplo, con una función de pérdida basada en la distribución predictiva conjunta sobre cada conjunto completo de validación? ¿Puede explicar por qué (o en qué circunstancias) es preferible utilizar una medida puntual en lugar de algo basado en la predicción conjunta?

Mi respuesta: Sí, seguro que puedes hacer una validación cruzada de k-fold. Leave-one-out (LOO) tiene la ventaja de ser automático para implementar en muchos modelos que usan muestreo de importancia suavizado por Pareto, pero para problemas estructurados como series de tiempo y modelos espaciales, k-fold puede tener más sentido. La razón por la que le dimos tanta importancia en nuestro libro al cálculo puntual fue para enfatizar que la validación predictiva es fundamentalmente un proceso que implica dividir los datos. Este aspecto de la validación predictiva está oculto por AIC y expresiones relacionadas como DIC que funcionan con la probabilidad conjunta no dividida. Al escribir BDA3, trabajamos para llegar a una mejora/reemplazo de DIC; el resultado fue el capítulo 7 de BDA3, junto con este artículo con Aki Vehtari y Jessica Hwang, y parte de esto fue una lucha para manipular las simulaciones posteriores de la articulación. probabilidad. En algún momento me di cuenta de que la partición era necesaria, y este punto me pareció lo suficientemente importante como para enfatizarlo al escribir todo esto.

Y aquí están las preguntas frecuentes de validación cruzada de Aki y dos de sus publicaciones recientes sobre el tema:

a partir de 2020: más limitaciones de validación cruzada y recomendaciones procesables

a partir de 2022: pasar de la validación cruzada de una idea de investigación a un paso de rutina en el análisis de datos bayesiano

Esta entrada fue publicada en Estadística bayesiana, Estadística miscelánea, Computación estadística por Andrew. Marque el enlace permanente.



Statistical Modeling, Causal Inference, and Social Science

RELACIONADOS