Por qué a los niños les va mejor que ChatGPT & Co. en el área del pensamiento lógico


Los modelos de lenguaje grandes (LLM) como ChatGPT han ganado popularidad en los últimos años. Pero en lo que respecta a tareas lógicas, la inteligencia artificial hasta ahora ha dado resultados mediocres.

Estudio de la Universidad de Bristol

Un estudio publicado en junio de 2024 por Nezhurina y colegas de la Universidad de Bristol pudo demostrar la dificultad de las tareas lógicas más simples para LLM. Los investigadores hicieron a programas como GPT-3.5/4, Claude, Gemini o Mistral una simple pregunta: “Alice tiene N hermanos y M hermanas. ¿Cuántas hermanas tiene el hermano de Alice?” Si bien la mayoría de los adultos y niños reconocerían la solución correcta “M + 1” de inmediato, los resultados de las IA estuvieron por debajo del promedio.

Resultados aleccionadores

Incluso cuando las variables N y M fueron reemplazadas por números concretos, los LLM no pudieron proporcionar una respuesta correcta. Según el estudio, “viene [bei den meisten Modellen] provocan graves perturbaciones y muchos son incapaces de dar ni una sola respuesta correcta”. Sólo las IA abiertas GPT-4 y Claude 3 Opus pudieron producir respuestas al menos parcialmente correctas, en alrededor del 30 por ciento de los casos. Pero aún más preocupante que el Las respuestas erróneas son los supuestos argumentos a favor de su corrección y la perseverancia con la que fueron defendidas.

Errores de razonamiento

“Este colapso puede verse como dramático no sólo porque ocurre con un problema aparentemente simple, sino también porque los modelos tienden a etiquetar sus soluciones incorrectas como correctas, mientras que a menudo brindan confabulaciones para promover la respuesta dada en las que imitan un argumento. como el tono de voz, pero proporcionan argumentos sin sentido como apoyo a respuestas finales igualmente absurdas y erróneas”, afirman los investigadores en su trabajo. Si bien algunos argumentos mantenían la apariencia de un razonamiento lógico, otros eran demasiado simplistas. Por ejemplo, una justificación fue “Esta conclusión es simple y clara”.

Advertencia para empresas

Como consecuencia, los investigadores concluyen que el trabajo futuro debería abordar los orígenes de los déficits de razonamiento, es decir, la falta de pensamiento lógico. Además, los puntos de referencia actuales deberían revisarse para revelar debilidades. Los resultados del estudio deberían servir como “advertencia contra afirmaciones exageradas […] que suelen realizar empresas comerciales para presentar sus modelos como un producto maduro a los usuarios.

J. Vogel / equipo editorial finanzen.net



ttn-es-28