ECONOMÍA

Prohibir el uso del sentido común en el análisis de datos aumenta los casos de fracaso de la investigación: evidencia de Suecia


Olle Folke escribe:

Quería destacar un artículo de un autor que apareció anteriormente en su blog cuando fue uno de los coautores de un artículo sobre el efecto de los clubes de striptease en los delitos sexuales en Nueva York. Este artículo analiza el efecto de criminalizar la compra de sexo en Suecia y encuentra un aumento del 40-60%. Sin embargo, el documento es tan problemático como el de los clubes de striptease. En lo que considero sus dos especificaciones principales, utiliza el momento de la prohibición para estimar el efecto. Sin embargo, si bien no hay variación entre regiones, utiliza datos regionales para estimar el efecto, lo que por supuesto no tiene ningún sentido. No sorprende que no haya ningún ajuste por la dependencia del término de error entre las observaciones.

Lo que hace que este análisis sea particularmente extraño es que en realidad no hay ningún cambio en el resultado si utilizamos datos nacionales (ver figura a continuación). Básicamente, los resultados deben haber sido fabricados. Como el autor no ha publicado ningún archivo de replicación, no es posible determinar qué ha hecho para lograr el enorme aumento.

Creo que su respuesta a esta crítica es que tiene tres métodos de estimación alternativos. Sin embargo, estos resultados no son muy convincentes y sospecho que ninguno de esos resultados resistiría un escrutinio. Además, el uso de métodos alternativos me parece extraño y problemático. En primer lugar, sugiere que ninguno de los métodos le convence por sí solo. Sin embargo, hacer cuatro análisis problemáticos adicionales no mejora el primero. Además, le da al autor una salida cuando es criticado, ya que implica mucho trabajo trabajar en cada análisis (especialmente cuando no hay datos de replicación).

Eché un vistazo al artículo vinculado y. . . Sí, soy escéptico. El artículo comienza:

Este artículo aprovecha el momento de la prohibición de la compra de sexo para evaluar su impacto en los delitos de violación. Basándome en datos suecos de alta frecuencia de 1997 a 2014, encuentro que la prohibición aumenta el número de violaciones entre un 44% y un 62%.

Pero el gráfico anterior, proporcionado por Folke, no muestra ningún efecto aparente. El artículo vinculado tiene un gráfico similar que utiliza datos mensuales que también muestra
No pasó nada especial en 1999:

Este es un poco más difícil de leer debido a los dos ejes, la escala logarítmica y el marco de tiempo más corto, pero los números parecen similares. En el período de tiempo estudiado, la curva roja está alrededor de 5,0 en la escala logarítmica por mes, 12*log(5) = 1781, y la curva anual está alrededor de 2000, por lo que parece alinearse.

Por lo tanto, no sucede mucho en conjunto. Pero luego el periódico dice:

Varias pruebas demuestran que las violaciones se duplicaron con creces después de la introducción de la prohibición. En primer lugar, el Cuadro 1 muestra que el promedio antes de la prohibición es de alrededor de 6 violaciones por región y mes, mientras que después de la introducción es aproximadamente 12. En segundo lugar, el Cuadro 2 presenta los resultados del análisis ingenuo de la violación regresiva en una variable binaria que toma el valor 0 antes. la prohibición y 1 después, controlando los efectos fijos de año, mes y región. Los resultados muestran que el período posterior a la prohibición se asocia con un aumento de alrededor del 100% de los casos de violación en troncos y del 125% de los casos de violación en la transformación del seno hiperbólico inverso (IHS, en adelante). En tercer lugar, un simple ejercicio descriptivo (trazar la violación normalizada antes de la prohibición en torno a cero mediante la eliminación de los efectos fijos previos al tratamiento) encuentra que la violación aumentó alrededor del 110% durante el período de la muestra (Fig. 4).

Bueno, los promedios realmente no nos dicen mucho: están analizando datos de 1997 a 2014, el cambio de política ocurrió en 1999, en medio de un lento aumento, y la mayor parte del cambio ocurrió después de 2004. como se muestra claramente en el gráfico de Folke. Por tanto, las Tablas 1 y 2 son prácticamente irrelevantes.

Pero ¿qué pasa con la Figura 4?

Esto parece bastante convincente, ¿no?

No se. Lo primero es que la afirmación de que “se duplicó más” se basa en gran medida en los datos posteriores a 2004. log(2) = 0,69, y si nos fijamos en ese gráfico, los puntos sólo llegan a 0,69 alrededor de 2007, por lo que la inferencia es apoyándose mucho en el modelo según el cual el tratamiento provoca un aumento anual constante, en lugar de un cambio a corto plazo en el nivel en el momento del tratamiento. El otro tema son los datos anteriores a 1999, que en este gráfico son planos pero en los dos gráficos mostrados anteriormente en esta publicación mostraron una tendencia creciente. ¡Eso hace una gran diferencia en la Figura 4! Reemplace esa línea plana anterior a 1999 con una línea con pendiente positiva y la historia se verá muy diferente. De hecho, esa línea es tan plana y justo en cero, que me pregunto si se trata de un artefacto del procedimiento de ajuste estadístico (“Los efectos fijos previos al tratamiento se eliminan de los datos para normalizar el número de violaciones alrededor de cero antes de la prohibición”). ). No estoy realmente seguro. La cuestión es que algo salió mal.

A continuación muestran su modelo de discontinuidad de regresión, que se ajusta a un cambio de nivel en lugar de a una pendiente:

Aquí ocurre algo más extraño: si realmente se ajustan a efectos fijos durante años, ¿cómo es posible que estimen un cambio a lo largo del tiempo? Esto no tiene mucho sentido.

No voy a repasar todo este documento en detalle, simplemente hice las comprobaciones rápidas anteriores para tener una idea aproximada de lo que estaba pasando y para asegurarme de no ver nada malo inmediatamente en el análisis básico de Folke. .

Folke continuó:

El documento es aún más extraño de lo que esperaba. Obtuve parte del código de regresión y él está estimando modelos que no obtendrían ninguna estimación sobre el tratamiento donde no hay error de codificación (el tratamiento es constante dentro de los años pero incluye efectos fijos anuales). Además, cuando hago el RDanalysis que él afirma estar haciendo, aparece la siguiente figura en la que claramente no hay un salto de 0,6 puntos logarítmicos…

¿¿¿¿Qué demonios????

Este entra en el salón de la fama de la discontinuidad de la regresión.

Al día siguiente, Folke continuó:

Fue necesario investigar y codificar un poco para descubrir cómo el autor pudo encontrar un efecto tan grande. Nosotros [Joop Adema, Olle Folke, and Johanna Rickne] Ahora he escrito un borrador de un comentario donde mostramos que todo se basa en un error de especificación y termina estimando algo completamente diferente de lo que dice ser.

El panorama general, o cómo se puede evitar este tipo de error o mitigar sus consecuencias

Mira, todo el mundo comete errores. Los modelos estadísticos son difíciles de ajustar e interpretar, los datos pueden ser un desastre y las teorías de las ciencias sociales son lo suficientemente vagas como para que, si no se tiene cuidado, se pueda explicar casi cualquier cosa.

Aún así, parece que este artículo fue un absoluto desastre y un poco embarazoso para el Journal of Population Economics, que lo publicó.

¿Deberían haberse notado los problemas antes? Yo diría que sí.

Los problemas con el modelo de discontinuidad de regresión (OK, no vamos a esperar que el autor, los revisores o los editores de un artículo lo analicen con demasiada atención) es una ecuación muy fea, después de todo, y no podemos esperar que el autor, revisores o editores para verificar el código; eso es mucho trabajo, ¿verdad? Ecuaciones que no tienen sentido, eso es solo el costo de hacer negocios.

El problema claro es el patrón de los datos agregados, la serie temporal nacional que no muestra ningún salto en 1999.

No estoy diciendo que, simplemente porque no hubo un salto en 1999, la política no tuvo efecto. Sólo digo que la falta de salto en 1999 está ahí para que todos la vean. Como mínimo, si vas a afirmar que encontraste un efecto, tienes la obligación científica de explicar cómo encontraste ese efecto dada la falta de patrón en los datos agregados. Este tipo de cosas pueden ocurrir (se puede tener un efecto que resulta anulado en los datos por algún otro patrón al mismo tiempo), pero luego hay que explicarlo, dejar ese rastro de migas de pan.

Por lo tanto, no estoy diciendo que el autor, los revisores y los editores de ese artículo deberían haber visto todos o incluso la mayoría de los problemas de este artículo. Lo que estoy diciendo es que deberían haberse ocupado de la contradicción entre sus afirmaciones y lo que muestran las simples series temporales. No haber hecho esto es una forma de “cientificismo”, una especie de creencia mística en el resultado de una caja negra, una actitud del tipo “cree en las estadísticas, no en tus ojos mentirosos”.

Además, como señala Folke, el autor de este artículo tiene un historial de extracción de hallazgos espectaculares mediante análisis de datos cuestionables.

No tengo motivos para pensar que el autor esté haciendo las cosas mal a propósito. ¡Las estadísticas son difíciles! Los errores clave del autor en estos dos artículos han sido:

1. Seguir un flujo de trabajo en el que se ignoraron o dejaron de lado las indicaciones contrarias en lugar de abordarlas directamente.

2. Falta de apertura a la posibilidad de que el trabajo pueda tener fallas fatales.

3. Varios errores técnicos, incluida una preocupación insuficiente por la calidad de los datos, una mala comprensión de las comprobaciones de discontinuidad de la regresión y una fe inadecuada en las comprobaciones de solidez.

En este caso, Adema, Folke y Rickne trabajaron mucho para localizar qué salió mal en ese análisis publicado. Mucho trabajo para un artículo oscuro en una revista menor. Pero el resultado es una lección general útil, por eso comparto la historia aquí.


Una información de Statistical Modeling, Causal Inference, and Social Science

Comments

comments

RELACIONADOS

El aviso de la Seguridad Social a los que necesitan cambiar el número de cuenta para cobrar la pensión

d'Economía.net

Evaluación de la bidenómica: la presunción fatal de la política comercial nacional

d'Economía.net

La carretera china plagada de escándalos en Montenegro – The Diplomat

d'Economía.net