
Cada vez es más común que los usuarios utilicen los chatbots para hacerles preguntas sobre una amplia cantidad de temas o que desarrollen relaciones afectivas. En este sentido, los investigadores indagaron si estas herramientas nuevas tiene la capacidad de la metacognición, es decir, de reflexionar y comprender sus propios procesos de pensamiento y aprendizaje; algo que sí tienen los humanos. Para eso, el equipo científico comparó la autoconfianza de personas con Chat GPT, Gemini, Sonnet y Haiku al hacerles distintas pruebas. Por ejemplo, predecir los resultados de la National Football League y de los Premios Oscar, responder preguntas de trivia y sobre la vida en la universidad, o jugar a un juego de identificación de imágenes similar al Pictionary.
De esta manera, notaron que tanto las personas como los chatbots tienen una alta autoconfianza, pero sólo los humanos pudieron ajustar sus expectativas cuando se les preguntó en retrospectiva cómo creían que les había ido en las pruebas. Incluso, los autores aclaran que la investigación recopiló datos durante dos años con distintas versiones actualizadas de los chatbots y en todas se detectó una confianza en sí mismos muy alta.
Esta debilidad que detecta el estudio varía según cada modelo. Por ejemplo, Sonnet tendió a ser menos confiado que los demás. Asimismo, Chat GPT-4 tuvo un rendimiento similar al de los participantes humanos en la prueba del Pictionary, identificando con precisión 12,5 imágenes dibujadas a mano de 20, mientras que Gemini solo pudo identificar 0,93 bocetos, en promedio.
En este sentido, Natalia Corvalán, especialista en Educación y Nuevas Tecnologías de la Universidad Nacional de Hurlingham, explica a la Agencia de Noticias Científicas de la UNQ: “Los grandes modelos de lenguaje pueden responder con seguridad incluso cuando se equivocan, inventan, ‘alucinan’ fuentes, o mezclan datos reales con falsos, porque están diseñados para generar texto plausible en base a patrones lingüísticos, y no para ofrecer información verificada. Este funcionamiento, sumado a la falta de transparencia y su autoconfianza, nos exige una postura más crítica”.
Sin introspección
Además, en el estudio, Gemini predijo que obtendría un promedio de 10,03 bocetos correctos, e incluso después de responder correctamente menos de 1 de 20 preguntas, la IA estimó retrospectivamente que había respondido 14,40 correctamente, lo que demuestra su falta de autoconciencia. “Gemini era simplemente pésimo jugando al Pictionary. Pero peor aún, no sabía que era malo en el Pictionary. Es como ese amigo que jura que es muy bueno jugando al billar, pero nunca acierta un tiro”, dijo Trent Cash, autor principal del estudio, a la Universidad Carnegie Mellon.
En cuanto a los humanos, Cash afirmó: “Supongamos que nos dijeron que iban a acertar 18 preguntas y finalmente acertaron 15, después corrigieron su estimación a unas 16 respuestas correctas. Así que aún estaban un poco confiados, pero no tanto”. “Todavía no sabemos exactamente cómo la IA calcula su confianza, pero parece no realizar introspección, al menos no hábilmente”, dijo Danny Oppenheimer, coautor del estudio. Así, los investigadores señalan que, si se los entrena, los chatbots pueden desarrollar una mejor comprensión de sus propias habilidades en conjuntos de datos mucho más grandes.
Además, Clash reflexionó: “Me parece interesante que los grandes modelos de lenguaje a menudo no aprendan de su propio comportamiento. Y quizás ahí haya una historia humanística que contar. Quizás simplemente haya algo especial en la forma en que los humanos aprenden y se comunican”.
Leer con ojos críticos
Corvalan dirige su atención no solo a qué se le pregunta a la IA, sino a cómo las personas se vinculan con ella: “¿’Dialogamos’ con esta tecnología o simplemente aceptamos lo que dice? ¿Revisamos sus respuestas o confiamos por default? La mayoría de las personas no entrenan el hábito de desconfiar de la IA, de tensionar sus afirmaciones o de revisar sus fuentes, las cuales muchas veces no las tiene o no las explicita”.
En esta línea, en un estudio, la BBC pidió a Chat GPT, Copilot, Gemini y Perplexity que resumieran 100 noticias y ciertos periodistas expertos en el tema de cada artículo calificaron la calidad de las respuestas de las IAs. Así, se descubrió que el 51 por ciento de todas las respuestas de las tecnologías presentaban problemas importantes de algún tipo, como declaraciones fácticas, números y fechas incorrectas, o que las citas fueron alteradas de la fuente original o no estaban presentes en el artículo citado. De igual manera, otro estudio de 2024 llevado adelante por el Instituto Stanford para la Inteligencia Artificial Centrada en el Ser Humano reveló que los grandes modelos de lenguaje “alucinaban” o producían información incorrecta en entre el 69 por ciento y el 88 por ciento de las consultas legales y judiciales.
Con todo, tal vez la diferencia que tienen las IAs con las personas al no poder reflexionar sobre sí mismos hace que los humanos puedan elegir el camino de pensar por sí mismos y ser críticos ante una tecnología que aún no es perfecta. Y, como todo, probablemente no lo sea nunca.

