
La Agencia de Noticias Científicas de la Universidad Nacional de Quilmes analizó el capítulo “Science” del AI Index Report 2026, un informe de la Universidad de Stanford publicado recientemente, que pone números y ejemplos concretos a una transformación en marcha. El documento muestra que la IA gana terreno en laboratorios, centros de datos y grupos de investigación de todo el mundo. Sin embargo, también marca un límite: los sistemas más avanzados todavía están lejos de reproducir investigaciones completas con la precisión de especialistas humanos.
Según el reporte, en 2025 las publicaciones vinculadas con IA en ciencias naturales alcanzaron unas 80.150, un 26 por ciento más que en 2024. El crecimiento es sostenido: en 2010, los trabajos que mencionaban IA representaban menos del 1 por ciento de la producción científica en los campos analizados; en 2025, esa proporción se ubicó entre 6 y 9 por ciento, según la disciplina.
La foto general es clara: la IA se vuelve parte de la rutina científica. Pero el entusiasmo tiene un límite. El propio informe advierte que más publicaciones no equivalen, necesariamente, a mejores descubrimientos. Una cosa es que un modelo proponga moléculas, hipótesis o predicciones; otra, muy distinta, es demostrar que funcionan en el mundo real.
Uno de los ejemplos más impactantes aparece en el campo del clima. En 2025, un sistema llamado Aardvark Weather reemplazó por primera vez una cadena completa de predicción meteorológica tradicional por un sistema de aprendizaje automático. A su vez, FourCastNet 3 logró generar un pronóstico global de 60 días en menos de cuatro minutos con una sola GPU, a una velocidad entre 8 y 60 veces superior a enfoques previos.
La prueba de fuego: hacer ciencia de principio a fin
El contraste se repite en química, física y astronomía. Algunos modelos responden preguntas especializadas con gran precisión e incluso superan promedios humanos en ciertos bancos de evaluación. Sin embargo, cuando se les pide algo más parecido a la ciencia real —leer varios trabajos, integrar evidencia, usar herramientas externas, escribir código, analizar datos y llegar a una conclusión defendible— su rendimiento cae. Un caso testigo es PaperArena, una prueba diseñada para evaluar si agentes basados en modelos de lenguaje pueden responder preguntas reales de investigación. Allí, el mejor sistema alcanzó 39 por ciento de precisión, frente al 84 por ciento logrado por expertos con doctorado.
Otro dato va en la misma dirección: en BixBench, un banco de tareas reales de bioinformática, los modelos de frontera lograron alrededor de 17 por ciento de precisión. El problema no es solo “saber biología”, sino encadenar herramientas, manejar archivos, interpretar resultados y evitar errores en procesos de varios pasos.
La conclusión no es que la IA fracase, sino que su potencia todavía depende de la escala, la calidad de los datos y la supervisión humana. En áreas con grandes bases de datos disponibles —como estructura de proteínas, astronomía, clima o materiales— los avances son más visibles. En campos donde faltan datos estandarizados o donde la validación exige experimentos largos y costosos, el progreso es más difícil de medir.

