d'Economía.net

ECONOMÍA

No, este artículo sobre clubes de striptease y delitos sexuales nunca iba a ser retirado. Además, es un recordatorio de la importancia de la calidad de los datos y una reflexión sobre por qué los investigadores a menudo piensan que está bien publicar artículos que utilizan datos incorrectos bajo la creencia errónea de que estos análisis son «conservadores» o «atenuados» o algo así.


Brandon Del Pozo escribe:

Nacido en Bensonhurst, Brooklyn, en la década de 1970, llegué a la investigación en salud pública tras 23 años como oficial de policía, incluidos 19 años en la policía de Nueva York y cuatro como jefe de policía en Vermont. Aún más tortuoso, mi formación doctoral fue en filosofía en el CUNY Graduate Center.

Le escribo por consejo de colegas porque sigo extraordinariamente molesto por un artículo que se publicó en 2021. Pretende medir los efectos de la apertura de clubes de striptease sobre los delitos sexuales en la ciudad de Nueva York a nivel de distrito, y encuentra reducciones sustanciales en una semana de abriendo cada club. El problema es que el artículo es inverosímil desde el principio porque utiliza datos completamente inapropiados que cualquiera que esté familiarizado con el fenómeno consideraría absurdo. Mis colegas y yo, que éramos custodios de los datos y participantes en los procesos estudiados cuando éramos agentes de policía, escribimos una crítica muy detallada del artículo y pedimos su retractación. Más allá de nuestras propias afirmaciones, nos comunicamos con agencias estatales que también dejaron constancia de los problemas con los datos.

Por su parte, los autores y editores han sido notablemente desdeñosos ante nuestras preocupaciones. Dijeron, principalmente, que estamos dando demasiada importancia a que las medidas sean imprecisas y un poco ruidosas. Pero estamos diciendo algo diferente: el estudio no tiene validez de constructo porque es imposible medir los fenómenos reales que se estudian utilizando sus datos.

Aquí está nuestra crítica, que pronto se publicará en Police Practice and Research. Aquí está la carta de los editores de la revista y aquí hay un enlace a parte de la cobertura en Retraction Watch. Supongo que mi principal problema es hasta qué punto este tipo de problema fue pasado por alto o ignorado en el proceso de revisión por pares, y por qué ahora se lo descarta de manera tan casual. ¿Se trata de que los economistas den vueltas en sus carros?

Mi respuesta:

1. Tus críticas me parecen sensatas. También tengo otras preocupaciones con los datos (o tal vez usted las señaló en su artículo y yo no me di cuenta), en particular la distribución de los datos en la Figura 1 del artículo original. La mayoría de las semanas parece haber aproximadamente 20 detenciones por delitos sexuales (que engañosamente etiquetan como “delitos sexuales”), pero luego hay una semana con casi 200. Esto me hace preguntarme qué está pasando con estos datos.

2. Veo en el artículo de Retraction Watch que uno de los autores respondió: «En lo que a mí respecta, todavía no se ha presentado una refutación seria (científicamente sólida) de la tesis original». Esto plantea la interesante cuestión de la carga de la prueba. Antes de que el artículo sea aceptado para publicación, es trabajo de los autores justificar de manera convincente su afirmación. Después de la publicación, el autor dice que la carga recae sobre el crítico (es decir, usted). Para decirlo de otra manera: si su comentario hubiera estado en un informe de evaluación previo a la publicación, debería haber sido suficiente para que los editores rechazaran el artículo o al menos exigieran más a los autores. Pero la pospublicación es otra historia, al menos según las convenciones científicas actuales.

3. Desde un punto de vista metodológico, los autores siguen el enfoque muy estándar de hacer un análisis, encontrar algo y luego realizar una serie de análisis auxiliares (verificaciones de robustez) para descartar explicaciones alternativas. Soy escéptico respecto de los controles de solidez; ver también aquí. De alguna manera, la situación es un poco desesperada, ya que, como investigadores, estamos capacitados para responder a preguntas y críticas haciendo todo lo posible por preservar nuestras conclusiones originales.

4. Una cosa que he notado en muchas investigaciones en ciencias sociales es una actitud casual hacia la medición. Consulte aquí para conocer el punto general y, a lo largo de los años, hemos analizado muchos ejemplos, como el uso de la circunferencia del brazo como indicador de la fuerza de la parte superior del cuerpo (lo llamamos el estudio de los “brazos gordos”) y una serie de artículos que caracterizan Los días 6 a 14 del ciclo menstrual son los días de máxima fertilidad, aunque los días de máxima fertilidad varían mucho de una mujer a otra, siendo un resumen consensuado los días 10 a 17. La versión corta del problema aquí, especialmente en econometría, es que existe un entendimiento general de que si se utilizan malas mediciones, se deberían atenuar (es decir, acercarse a cero) los tamaños de efecto estimados; por lo tanto, si alguien señala un problema de medición, una reacción común es pensar que no es gran cosa porque si las mediciones no son correctas, eso sólo lleva a estimaciones “conservadoras”. Eric Loken y yo escribimos este artículo una vez para explicar el punto, pero el mensaje casi no se recibió.

5. Teniendo en cuenta todo lo anterior, puedo ver cómo los autores del artículo original estarían molestos. Están siguiendo la práctica estándar, su artículo fue aceptado y ahora, de repente, ¡aparecen en Retraction Watch!

6. Aparte de todo lo anterior, no hay forma de que ese documento sea retirado. El problema es que las revistas y los académicos tratan la retractación como un castigo a los autores, no como una corrección de la literatura académica. Es prácticamente imposible obtener una retractación involuntaria sin que exista la creencia de que se ha cometido un delito. Vea la discusión aquí. En la práctica, un error fatal en un artículo no es suficiente para forzar la retractación.

7. En resumen, no, no creo que se trate de “economistas dando vueltas sobre sus carros”. Creo que esto es una combinación de varios factores: un listón alto para la revisión posterior a la publicación, una despreocupación general por la validez y confiabilidad de las mediciones, la confianza en las comprobaciones de solidez y el hecho de que la retractación nunca fue una opción seria. Dado que los autores del artículo original no iban a publicar una corrección por su cuenta, el mejor resultado para usted era publicar una respuesta en la revista original (que habría estado acompañada de una refutación de los autores originales) o publicar en otra revista, que es lo que pasó. Más allá de todo esto, la discusión rápidamente se vuelve técnica. Yo mismo he trabajado algo sobre el parar y registrar datos y tengo décadas de experiencia leyendo artículos de ciencias sociales, pero incluso en mi caso me estaba confundiendo con todas las partes móviles y, de hecho, bien podría imaginarme que alguien me convenciera de ello. Por otro lado, que sus críticas eran irrelevantes. La cuestión es que los editores de las revistas no se sentirán cómodos emitiendo ese juicio, al igual que yo.

Del Pozo respondió aclarando algunos puntos:

Con respecto a los datos con valores atípicos en mi punto 1 anterior, Del Pozo escribe: “Supongo que esta fue una semana en la que hubo una búsqueda intensa de un sospechoso de violación con patrón buscado. La policía detuvo a muchas personas, por encima del promedio de 20 por semana, y al menos 179 de ellas eran inocentes. Discutimos esto en nuestra respuesta; Estos informes no sólo no registran delitos en casi todos los casos, sino que varios informes pueden reflejar detenciones policiales de personas inocentes en la búsqueda de un sospechoso buscado. Es imposible medir el crimen con informes de detención”.

Con respecto a la cuestión de la revisión previa y posterior a la publicación en mi punto 2 anterior, Del Pozo escribe: “Le pedimos a la revista que publicara las revisiones anónimas de pares para ver si alguien al menos había abordado este problema durante la revisión. Ofrecimos retractarnos de todo nuestro trabajo y emitir una disculpa por escrito si alguien había realizado la debida diligencia básica en materia de medición durante la revisión por pares. Nunca reconocieron ni respondieron a nuestra solicitud. También escribimos que no es buena ciencia cuando los revisores pasan por alto problemas evidentes y luego otros investigadores tienen que cambiar su propia agenda de investigación para dedicar tiempo a corregir el historial académico frente a una resistencia obstinada que parece más una cuestión de orgullo que de ciencia. Después de todo, nada de esto nos dará una buena publicación, una subvención o un puesto permanente. Prometo que fuimos mucho más discretos y diplomáticos que eso, pero eso fue lo esencial. Somos investigadores policiales, no policías de investigación”.

Parafraseando a Thomas Basbøll, no son la policía de la investigación porque no existe tal cosa como la policía de la investigación.

Con respecto a mi punto 3 sobre el atractivo de los controles de solidez y sus problemas, Del Pozo escribe: “El primer autor de la publicación se mostró a la defensiva y desdeñoso cuando estábamos todos juntos en Zoom. No era nada personal, pero un italiano que vivía en España les estaba diciendo a cuatro agentes de policía estadounidenses, tres de los cuales estaban en la policía de Nueva York, que él, no nosotros, entendía mejor el uso y los límites de los datos administrativos de la policía de Nueva York y de la ciudad de Nueva York y el proceso de obtención de la autorización. Aprobaciones para abrir un club de striptease. La solidez comprueba todas las fechas de apertura todavía utilizadas basándose en las fechas de registro, que no se asocian con la apertura real ni siquiera de una manera remotamente plausible para permitir un estudio de los efectos dentro de una semana después del registro. Cualquier análisis con integridad tendría que excluir todos los datos de la variable independiente”.

Con respecto a mi punto 4 sobre las aparentemente sólidas justificaciones estadísticas de los investigadores para realizar malas mediciones, Del Pozo escribe: «Sí, los autores dijeron literalmente que sus errores de medición en T=0 no eran un problema porque la posibilidad de atenuación lo hacía más difícil». Es probable que su rechazo de la nulidad se basara en realidad en una estimación conservadora. Pero este es el punto: los datos no pueden medir lo que necesitan para rechazar lo nulo. Mide los cambios en los encuentros con personas inocentes después de que alguien le ha hecho saber al estado de Nueva York que planea abrir un negocio en unos meses, y pretende decir que esto muestra que los delitos sexuales disminuyen la semana después de que una persona abre un club sexual. Me sentiría fraudulento si supiera esto sobre mi investigación y permitiera que la gente lo citara como conocimiento”.

Con respecto a mi punto 6 de que casi nada se retracta involuntariamente sin que se encuentre una mala conducta en la investigación, Del Pozo señala una “excepción que confirma la regla: una retractación por la combinación involuntaria de resultados heterogéneos en un metanálisis que se pasó por alto durante la revisión por pares”. , y nada más.»

Con respecto a mis conclusiones en el punto 7 anterior, Del Pozo escribe: “Estaba pensando en enviar una réplica formal a la revista que comenzaba examinando el modelo, determinando que había errores de medición fatales y luego excluyendo todos los datos inapropiados, es decir, todos los datos para la variable independiente y el 96% de los datos de la variable dependiente, por lo que no arroja resultados y evita el rechazo de la nula. Listo, una réplica. Me sentiría muy curioso de ver a un revisor en la posición de tener que defender la inclusión de datos inapropiados en una réplica. El problema, por supuesto, es que las replicaciones están estructuradas normativamente para asumir que las mediciones son sólidas y, en todo caso, se mantienen todas e se introduce una variable previamente omitida o algo así. Estaría transgrediendo las normas con semejante réplica. Supongo que sería rechazado”.

Sí, creo que tal réplica sería rechazada por dos razones. En primer lugar, las revistas quieren publicar material nuevo, no réplicas. En segundo lugar, lo verían como una crítica a un artículo que habían publicado y, por lo general, a las revistas tampoco les gusta eso.



Statistical Modeling, Causal Inference, and Social Science

RELACIONADOS