Esta es Jéssica. En El punto de referencia de Rational Agent para la visualización de datosYifan Wu, Ziyang Guo, Michalis Mamakos, Jason Hartline y yo escribimos:
Comprender qué tan útil es una visualización a partir de resultados experimentales es difícil porque el desempeño observado se confunde con aspectos del diseño del estudio, como qué tan útil es la información visualizada para la tarea. Desarrollamos un marco de agente racional para diseñar e interpretar experimentos de visualización. Nuestro marco concibe dos experimentos con la misma configuración: uno con agentes conductuales (sujetos humanos) y el otro con un hipotético agente racional. Una visualización se evalúa comparando el desempeño esperado de los agentes conductuales con el de un agente racional bajo diferentes supuestos. Utilizando estudios recientes de decisiones de visualización de la literatura, demostramos cómo se puede utilizar el marco para evaluar preexperimentalmente el diseño del experimento limitando la mejora esperada en el rendimiento al tener acceso a visualizaciones y postexperimentalmente para desconcertar los errores de extracción de información de los errores. de optimización, entre otros análisis.
Me gusta este papel. Parte de la motivación detrás de esto fue mi sensación de que incluso cuando hacemos todo lo posible para definir rigurosamente una tarea de decisión o juicio para estudiar visualizaciones, existe una dependencia inevitable de los resultados de cómo configuramos el experimento. En mi laboratorio, a menudo nos esforzamos mucho en hacer que los resultados de los experimentos que realizamos sean más fáciles de interpretar, como trazar predicciones de modelos en el espacio de datos para razonar sobre las magnitudes de los efectos, o comparar el desempeño de las personas en una tarea con líneas de base simples. Pero estos pasos realmente no resuelven esta dependencia. Y si ni siquiera podemos entender cuán sorprendentes son nuestros resultados a la luz del diseño de nuestro propio experimento, entonces parece aún más inútil especular qué implican nuestros resultados para situaciones del mundo real donde las personas usan visualizaciones.
Podríamos resumir el problema en términos de diversas fuentes de ambigüedad no resuelta cuando se presentan los resultados de los experimentos. Los experimentadores toman muchas decisiones en el diseño (algunas de las cuales es posible que ellos mismos ni siquiera sepan que están tomando) que influyen en la gama de posibles efectos que podríamos ver en los resultados. Al estudiar las pantallas de información en particular, podríamos preguntarnos cosas como:
- El grado en que las diferencias de desempeño probablemente sean impulsadas por diferencias en la cantidad de información relevante que se muestra para esa tarea. Por ejemplo, a menudo las diferentes estrategias de visualización para mostrar la distribución varían en la forma en que resumen los datos (por ejemplo, medias versus intervalos versus gráficos de densidad).
- ¿Cuán instrumental es la visualización de información para realizar bien la tarea? Si uno entendiera el problema pero respondiera sin mirar la visualización, ¿qué tan bien esperaríamos que lo hiciera?
- ¿En qué medida se podría esperar que los participantes en el estudio se sintieran incentivados a utilizar la pantalla?
- ¿Qué parte del proceso de responder a la tarea (extraer la información de la pantalla o descubrir qué hacer con ella una vez extraída) condujo a pérdidas observadas en el rendimiento entre los participantes del estudio?
- Etcétera.
El enfoque del status quo para escribir secciones de resultados parece ser permitir que el lector se forme sus propias opiniones sobre estas preguntas. Pero como lectores a menudo no estamos en buena posición para comprender lo que estamos aprendiendo a menos que nos tomemos el tiempo para analizar cuidadosamente el problema de decisión del experimento, suponiendo que los autores lo hayan presentado con suficiente detalle para hacerlo posible. Pocos lectores estarán dispuestos y/o serán capaces de hacer esto. Entonces, lo que sacamos de los resultados de los estudios empíricos sobre visualizaciones es, por decir lo menos, ruidoso.
Una alternativa que exploramos en este artículo es construir puntos de referencia utilizando el diseño del experimento para que los resultados sean más interpretables. Primero, tomamos el problema de decisión utilizado en un estudio de visualización y lo formulamos en términos teóricos de decisión de un modelo generador de datos sobre un estado incierto extraído de algún espacio de estados, una acción elegida de algún espacio de acción, una estrategia de visualización y una puntuación. regla. (Al menos en teoría, no deberíamos tener problemas para elegir un artículo que describa un experimento evaluativo e identificar estos componentes, aunque en la práctica, en campos donde muchos experimentadores no piensan de manera muy explícita en cosas como las reglas de puntuación, puede que no sea así. ser tan fácil). Luego concebimos un agente racional que conoce el modelo de generación de datos y comprende cómo se generan las visualizaciones (señales), y comparamos el desempeño de este agente bajo diferentes supuestos en análisis preexperimentales y postexperimentales.
Análisis preexperimental: Una razón para analizar la tarea de decisión de forma preexperimental es identificar casos en los que hemos diseñado un experimento para evaluar visualizaciones pero no hemos dejado mucho espacio para observar las diferencias entre ellas, o en realidad no les hemos dado a los participantes un incentivo para hacerlo. Míralos. ¡Ups! Para definir el valor de la información para el problema de decisión, observamos la diferencia entre el desempeño esperado del agente racional cuando solo tiene acceso a lo anterior versus cuando conoce lo anterior y también ve la señal (actualizando sus creencias y eligiendo la acción óptima basada en sobre lo que vieron).
El valor de la información captura cuánto se espera que el acceso a la visualización mejore el desempeño en la tarea en el espacio de recompensa. Cuando se comparan múltiples estrategias de visualización, las calculamos utilizando la estrategia de máxima información. De manera preexperimental, podemos observar el tamaño del valor de la unidad de información en relación con el rango de puntuaciones posibles dadas por la regla de puntuación. Si la diferencia esperada en la puntuación al tomar la decisión después de observar la visualización versus la anterior es solo una pequeña fracción del rango de puntuaciones posibles en una prueba, entonces no tenemos mucho «espacio» para observar ganancias en la decisión. rendimiento (en el caso de estudiar una sola estrategia de visualización) o (más comúnmente) al comparar varias estrategias de visualización.
También podemos comparar preexperimentalmente el valor de la información con la recompensa inicial que uno espera obtener por realizar el experimento, independientemente del desempeño. Suponiendo que pensemos que las personas están motivadas por las recompensas (lo que está implícito siempre que pagamos a las personas por su participación), un valor de información que sea una pequeña fracción de la recompensa inicial esperada debería hacernos preguntarnos qué probabilidades hay de que los participantes se esfuercen en la tarea.
Análisis post-experimental: El valor de la información también resulta útil post-experimentalmente, cuando intentamos entender por qué a nuestros participantes humanos no les fue tan bien como el punto de referencia del agente racional. Podemos observar qué fracción del valor de la unidad de información que logran los participantes humanos con diferentes visualizaciones. También podemos diferenciar fuentes de error calibrando las respuestas humanas. La puntuación de comportamiento calibrada es la puntuación esperada de un agente racional que conoce lo anterior, pero en lugar de actualizarse a partir de la distribución conjunta de la señal y el estado, se actualiza a partir de la distribución conjunta de la señal y el estado. respuestas conductuales y el estado. Esta distribución puede contener información sobre la cual los agentes no pudieron actuar. Calibrar (al menos en el caso de tareas de decisión no binarias) nos ayuda a ver cuánto.
Específicamente, calcular la diferencia entre la puntuación calibrada y el punto de referencia del agente racional como una fracción del valor de la información mide hasta qué punto los participantes no pudieron extraer de los estímulos la información relevante para la tarea. Calcular la diferencia entre la puntuación calibrada y la puntuación esperada de los participantes humanos (por ejemplo, según lo predicho por un modelo ajustado a los resultados observados) como una fracción del valor de la información, mide hasta qué punto los participantes no pudieron elegir la acción óptima. dada la información que obtuvieron de la visualización.
Hay una complicación interesante en todo esto: muchos experimentos conductuales no dotan a los participantes de un previo para el problema de decisión, pero el agente racional necesita conocer el previo. Técnicamente, las definiciones de pérdidas anteriores deberían tener en cuenta las pérdidas causadas por no tener el derecho previo. Así que estoy simplificando un poco aquí.
Para demostrar cómo toda esta formalización puede ser útil en la práctica, elegimos un par de trabajos de investigación de visualización previamente premiados y aplicamos el marco. Ambos son artículos de los que soy autor. ¿Por qué crear nuevos métodos si no puedes aprender cosas sobre tu propio trabajo? En ambos casos, descubrimos cosas que los artículos originales no tenían en cuenta, como incentivos débiles para consultar la visualización suponiendo que se entendiera la tarea, y una mejor explicación para una disparidad en las clasificaciones de estrategias de visualización por desempeño para una tarea de creencia versus una de decisión. . Estos fueron los dos primeros artículos a los que intentamos aplicar el marco, no los seleccionados para ser objetivos fáciles. También lo hemos aplicado en otros experimentos que hemos realizado, como para comparar la asignación del presupuesto de privacidad en el análisis visual.
Sigo considerándome un experimentador muy escéptico, ya que al final del día, las decisiones sobre si implementar alguna intervención en el mundo siempre dependerán del mapeo (desconocido) entre el mundo de su experimento y el contexto del mundo real en el que se encuentra. Estamos tratando de aproximarnos. Pero me gusta la idea de hacer un mayor uso de los marcos de agentes racionales en la visualización, ya que al menos podemos obtener una mejor comprensión de lo que significan nuestros resultados en el contexto del problema de decisión que estamos estudiando.