Matemáticas avanzadas: el talón de Aquiles de la Inteligencia Artificial

Un reto extremo diseñado por humanos mostró que las máquinas aún no están listas para dominar esta ciencia. Modelos como ChatGPT y AlphaCode no lograron superar el 2 por ciento de aciertos.

Los humanos celebran una pequeña victoria en un terreno que, al menos por el momento, sigue siendo suyo. Crédito: UNIR.

El orgullo humano está a salvo, al menos por ahora: una prueba matemática diseñada para humillar a las mentes más brillantes de la inteligencia artificial expuso lo que muchos temían —y otros esperaban—, frente a problemas realmente complejos, las máquinas todavía tienen mucho que aprender.

La Agencia de Noticias Científicas de la Universidad Nacional de Quilmes, accedió a un experimento llevado a cabo por el Instituto Epoch AI, una organización sin fines de lucro con sede en California, Estados Unidos, dedicada a rastrear tendencias y avances en inteligencia artificial, que enfrentó a los modelos más avanzados con una prueba de matemáticas diseñada para ser prácticamente irresoluble. El objetivo: medir el verdadero alcance de las capacidades de estas máquinas que, hasta ahora, sorprendieron con su desempeño en áreas como la generación de textos, resolución de problemas y análisis de datos. Los resultados fueron contundentes: la inteligencia artificial, por ahora, no puede competir con el pensamiento humano en desafíos matemáticos de vanguardia.

¿Cómo se diseñó la prueba?

El equipo de Epoch AI convocó a 60 matemáticos de renombre y les solicitó crear problemas originales que representan un desafío extremo, incluso para las mentes humanas más capacitadas. Se les pidió “usar todos los trucos que conocieran” para asegurarse de que las preguntas fueran lo más difíciles posibles, a incluir áreas complejas y con soluciones que a menudo requieren días de trabajo.

Para evitar la llamada “contaminación de datos” (cuando la IA encuentra problemas similares durante su entrenamiento en bases de datos en línea), los matemáticos tomaron ciertas precauciones. Utilizaron servidores cifrados para compartir ideas y evitar cualquier editor de texto en la nube que pudiera ser accesible para las máquinas. El resultado: una batería de 150 preguntas que representaban un verdadero laberinto lógico.

Seis de los modelos de lenguaje más avanzados, entre ellos las últimas versiones de OpenAI y DeepMind, enfrentaron la prueba. Con un tiempo limitado de entre 20 segundos y 1 minuto por pregunta, los resultados fueron abrumadores: ninguno logró superar el 2 por ciento de aciertos.

Incluso cuando los investigadores alentaron a los modelos con frases motivacionales como “sigue trabajando” y “no tengas miedo de ejecutar tu código”, las respuestas siguieron siendo incorrectas. Peor aún, los sistemas exhibieron lo que los expertos llaman “confianza equivocada”: daban respuestas erróneas con una seguridad desconcertante.

¿Compañera o competidora?

Aunque los modelos de inteligencia artificial demuestran habilidades sorprendentes en matemáticas de nivel escolar y universitario, este experimento confirma que todavía están lejos de enfrentar problemas de investigación avanzada. Sin embargo, el debate continúa. Para algunos expertos, la IA será una herramienta compañera, que amplifique las capacidades humanas. Para otros, su avance podría plantear desafíos éticos, técnicos y sociales.

Con todo, por ahora, continúa siendo un actor en un escenario de números y ecuaciones, una máquina de respuestas con la capacidad de asombrar y engañar. Pero la carrera no terminó, y el tiempo dirá si, en el juego de la inteligencia, el hombre seguirá siendo el rey o simplemente se convertirá en el espectador de la coronación de una nueva especie de genios digitales.

¿Cómo se diseñó la prueba?

¿Compañera o competidora?

Últimas noticias de la sección Tecnología:

Escándalo Pokémon GO: de atrapar criaturas a mapear el mundo para robots de delivery

¿De qué se trata el acuerdo que firmó México con Google, Meta y Tik Tok para frenar la violencia digital contra mujeres?

Artistas que no existen: ¿cómo son los nuevos cantantes de IA que rompen récords en el mundo?

Lanzan “NoVa+”, un asistente virtual que ayuda a prevenir la ludopatía y las apuestas online

Carnaval 4.0: cómo la inteligencia artificial, los drones y el streaming cambian la fiesta popular

Chile presentó a Latam GPT, la primera inteligencia artificial latinoamericana

La IA en la mira: The New York Times denuncia a Perplexity por utilizar su contenido sin permiso

IA, sensores y realidad aumentada: ¿Cómo será el Mundial más tecnológico de la historia?

México construirá la supercomputadora más potente de América Latina

Estudiantes y graduados de la UNQ lanzan una guía de consejos para utilizar la IA en la universidad

Macaozinho, el chatbot de IA especializado en el cambio climático global

Según un informe, el 45 por ciento de las noticias generadas por IA son falsas o tienen imprecisiones

Roblox: la plataforma de juegos acusada de causar grooming, ansiedad y adicción

Crean ropa que actúa como músculo para facilitar movimientos cotidianos

OpenAI admite que más de un millón de usuarios habla sobre suicidio con Chat GPT cada semana

Abono Aventura, un videojuego que fomenta el reciclaje, el compostaje y la educación ambiental