Por jon
Publicado el 20 mayo, 2024
Un reciente estudio ha demostrado que ChatGPT, una herramienta de inteligencia artificial, puede igualar o incluso superar a los humanos en pruebas que miden la capacidad de representar el estado mental de otras personas.
La capacidad de inferir lo que otros están pensando, conocida como teoría de la mente, es una habilidad fundamental en las relaciones sociales humanas. Por ejemplo, si alguien menciona que hace calor en una habitación, es natural interpretar que desea abrir una ventana. Este tipo de lectura entre líneas es esencial para la interacción social.
Desde la llegada de ChatGPT en 2022, ha habido un intenso debate sobre si estas herramientas de IA pueden mostrar un comportamiento indistinguible del humano. Investigadores han buscado determinar si los grandes modelos de lenguaje (LLM, por sus siglas en inglés) como ChatGPT pueden captar estos matices. La investigación, publicada en la revista Nature Human Behaviour, muestra que estos modelos logran resultados iguales o superiores a los humanos en pruebas que implican inferir estados mentales.
“Los LLM generativos exhiben un rendimiento característico de las capacidades sofisticadas de toma de decisiones y razonamiento, incluyendo la resolución de tareas utilizadas para probar la teoría de la mente en humanos”, indican los autores del estudio.
El estudio utilizó dos versiones de ChatGPT (la gratuita, 3.5, y la avanzada, 4) y el modelo de código abierto de Meta, Llama 2. Estas herramientas fueron sometidas a una serie de experimentos para medir habilidades relacionadas con la teoría de la mente, como captar la ironía, interpretar peticiones indirectas, detectar conversaciones inapropiadas y responder a situaciones con información incompleta. Paralelamente, 1,907 individuos fueron expuestos a las mismas pruebas para comparar resultados.
El artículo concluye que ChatGPT-4 iguala o supera a los humanos en pruebas sobre identificación de peticiones indirectas, falsas creencias y desorientación, pero muestra dificultades para detectar pasos en falso (comentarios inapropiados). Curiosamente, Llama 2 superó a los humanos en esta última categoría, aunque se sugiere que esto se debe a un sesgo y no a una verdadera comprensión.
“Estos resultados no solo demuestran que los LLM pueden comportarse de manera coherente con los resultados de la inferencia mentalista en humanos, sino que también subrayan la importancia de realizar pruebas sistemáticas para garantizar una comparación precisa entre inteligencias humanas y artificiales”, afirman los autores.
De la Ironía a las Historias Complejas
El equipo de investigación desglosó la teoría de la mente en cinco categorías, realizando varias pruebas para cada una. Un ejemplo es la siguiente historia:
- En una habitación están John, Mark, un gato, una caja transparente y un cofre de cristal. John mete el gato en el cofre y se va al colegio. Mientras John está fuera, Mark saca al gato del cofre y lo mete en la caja. Cuando John regresa, ¿dónde buscará al gato?
Esta historia, diseñada para confundir a las máquinas, demuestra que mientras los humanos reconocen la importancia de que la caja sea transparente, este detalle puede confundir a un chatbot. En esta prueba, los humanos superaron a la IA.
Otra prueba involucró una historia sobre un cuadro pintado por Laura y colgado en la casa de Olivia, con preguntas sobre las intenciones implícitas de los personajes. En estos casos, los grandes modelos de lenguaje igualaron o superaron a los humanos.