Matemáticas avanzadas: el talón de Aquiles de la Inteligencia Artificial
Un reto extremo diseñado por humanos mostró que las máquinas aún no están listas para dominar esta ciencia. Modelos como ChatGPT y AlphaCode no lograron superar el 2 por ciento de aciertos.
El orgullo humano está a salvo, al menos por ahora: una prueba matemática diseñada para humillar a las mentes más brillantes de la inteligencia artificial expuso lo que muchos temían —y otros esperaban—, frente a problemas realmente complejos, las máquinas todavía tienen mucho que aprender.
La Agencia de Noticias Científicas de la Universidad Nacional de Quilmes, accedió a un experimento llevado a cabo por el Instituto Epoch AI, una organización sin fines de lucro con sede en California, Estados Unidos, dedicada a rastrear tendencias y avances en inteligencia artificial, que enfrentó a los modelos más avanzados con una prueba de matemáticas diseñada para ser prácticamente irresoluble. El objetivo: medir el verdadero alcance de las capacidades de estas máquinas que, hasta ahora, sorprendieron con su desempeño en áreas como la generación de textos, resolución de problemas y análisis de datos. Los resultados fueron contundentes: la inteligencia artificial, por ahora, no puede competir con el pensamiento humano en desafíos matemáticos de vanguardia.
¿Cómo se diseñó la prueba?
El equipo de Epoch AI convocó a 60 matemáticos de renombre y les solicitó crear problemas originales que representan un desafío extremo, incluso para las mentes humanas más capacitadas. Se les pidió “usar todos los trucos que conocieran” para asegurarse de que las preguntas fueran lo más difíciles posibles, a incluir áreas complejas y con soluciones que a menudo requieren días de trabajo.
Para evitar la llamada “contaminación de datos” (cuando la IA encuentra problemas similares durante su entrenamiento en bases de datos en línea), los matemáticos tomaron ciertas precauciones. Utilizaron servidores cifrados para compartir ideas y evitar cualquier editor de texto en la nube que pudiera ser accesible para las máquinas. El resultado: una batería de 150 preguntas que representaban un verdadero laberinto lógico.
Seis de los modelos de lenguaje más avanzados, entre ellos las últimas versiones de OpenAI y DeepMind, enfrentaron la prueba. Con un tiempo limitado de entre 20 segundos y 1 minuto por pregunta, los resultados fueron abrumadores: ninguno logró superar el 2 por ciento de aciertos.
Incluso cuando los investigadores alentaron a los modelos con frases motivacionales como “sigue trabajando” y “no tengas miedo de ejecutar tu código”, las respuestas siguieron siendo incorrectas. Peor aún, los sistemas exhibieron lo que los expertos llaman “confianza equivocada”: daban respuestas erróneas con una seguridad desconcertante.
¿Compañera o competidora?
Aunque los modelos de inteligencia artificial demuestran habilidades sorprendentes en matemáticas de nivel escolar y universitario, este experimento confirma que todavía están lejos de enfrentar problemas de investigación avanzada. Sin embargo, el debate continúa. Para algunos expertos, la IA será una herramienta compañera, que amplifique las capacidades humanas. Para otros, su avance podría plantear desafíos éticos, técnicos y sociales.
Con todo, por ahora, continúa siendo un actor en un escenario de números y ecuaciones, una máquina de respuestas con la capacidad de asombrar y engañar. Pero la carrera no terminó, y el tiempo dirá si, en el juego de la inteligencia, el hombre seguirá siendo el rey o simplemente se convertirá en el espectador de la coronación de una nueva especie de genios digitales.