d'Economía.net

EEUUÚLTIMA HORA

Meta, OpenAI, Anthropic o Cohere


Si los mejores modelos de IA de la industria tecnológica tuvieran superlativos, microsoftEl GPT-4 de OpenAI respaldado sería el mejor en matemáticas, MetaLlama 2 de Anthropic sería el más intermedio, Claude 2 de Anthropic sería el mejor para conocer sus límites y Cohere AI recibiría el título de la mayoría de las alucinaciones y las respuestas incorrectas más seguras.

Eso es todo según un informe del jueves de investigadores de Arthur AI, una plataforma de monitoreo de aprendizaje automático.

La investigación llega en un momento en que la información errónea derivada de los sistemas de inteligencia artificial se debate más acaloradamente que nunca, en medio de un auge de la IA generativa antes de las elecciones presidenciales de EE. UU. de 2024.

Es el primer informe que «da una mirada exhaustiva a las tasas de alucinaciones, en lugar de simplemente proporcionar un número único que habla sobre dónde se encuentran en una tabla de clasificación de LLM», Adam Wenchel, cofundador y director ejecutivo de Arthur, le dijo a CNBC.

Las alucinaciones de IA ocurren cuando los grandes modelos de lenguaje, o LLM, fabrican información por completo, comportándose como si estuvieran soltando hechos. Un ejemplo: en junio, se conoció la noticia de que ChatGPT citó casos «falsos» en una presentación ante un tribunal federal de Nueva York, y los abogados de Nueva York involucrados podrían enfrentar sanciones.

En un experimento, los investigadores de Arthur AI probaron los modelos de IA en categorías como matemáticas combinatorias, presidentes de EE. UU. y líderes políticos marroquíes, haciendo preguntas «diseñadas para contener un ingrediente clave que hace que los LLM cometan errores: exigen múltiples pasos de razonamiento sobre la información, «, escribieron los investigadores.

En general, el GPT-4 de OpenAI tuvo el mejor rendimiento de todos los modelos probados y los investigadores descubrieron que alucinaba menos que su versión anterior, GPT-3.5; por ejemplo, en preguntas de matemáticas, alucinaba entre un 33 % y un 50 % menos. dependiendo de la categoría.

Llama 2 de Meta, por otro lado, alucina más en general que GPT-4 y Claude 2 de Anthropic, según los investigadores.

En la categoría de matemáticas, GPT-4 ocupó el primer lugar, seguido de cerca por Claude 2, pero en los presidentes de EE. UU., Claude 2 ocupó el primer lugar en precisión, desplazando a GPT-4 al segundo lugar. Cuando se le preguntó sobre la política marroquí, GPT-4 volvió a ocupar el primer lugar, y Claude 2 y Llama 2 optaron casi por completo por no responder.

En un segundo experimento, los investigadores probaron cuánto cubrirían los modelos de IA sus respuestas con frases de advertencia para evitar riesgos (piense: «Como modelo de IA, no puedo dar opiniones»).

Cuando se trata de cobertura, GPT-4 tuvo un aumento relativo del 50% en comparación con GPT-3.5, lo que «cuantifica la evidencia anecdótica de los usuarios de que GPT-4 es más frustrante de usar», escribieron los investigadores. El modelo de IA de Cohere, por otro lado, no se cubrió en absoluto en ninguna de sus respuestas, según el informe. Claude 2 fue más confiable en términos de «autoconciencia», mostró la investigación, lo que significa medir con precisión lo que sabe y lo que no sabe, y responder solo preguntas que tenía datos de entrenamiento para respaldar.

Un portavoz de Cohere rechazó los resultados y dijo: «La tecnología de generación automatizada de recuperación de Cohere, que no estaba en el modelo probado, es muy eficaz para dar a las empresas citas verificables para confirmar las fuentes de información».

Lo más importante para los usuarios y las empresas, dijo Wenchel, fue «probar su carga de trabajo exacta», y luego agregó: «Es importante comprender cómo funciona para lo que está tratando de lograr».

«Muchos de los puntos de referencia solo analizan alguna medida del LLM en sí mismo, pero esa no es la forma en que se usa en el mundo real», dijo Wenchel. «Asegúrese de que realmente comprende la forma en que el LLM funciona para la forma en que realmente se usa es la clave».



U.S. News

RELACIONADOS