ValgrAI y la UPV impulsan ADeLe, una herramienta que prevé el rendimiento de la IA antes de usarla

La metodología, publicada en Nature, permite estimar con cerca de un 90% de precisión si un modelo de inteligencia artificial será capaz de completar una tarea nueva

ValgrAI y la Universitat Politècnica de València (UPV) han participado en el desarrollo de ADeLe, una nueva metodología que permite anticipar si un sistema de inteligencia artificial podrá resolver con éxito una tarea que todavía no ha ejecutado. El avance, publicado este miércoles en la revista Nature, ofrece una capacidad predictiva cercana al 90% y plantea una nueva forma de evaluar los grandes modelos de lenguaje antes de que se desplieguen en entornos reales.

En este proyecto, ValgrAI cobra un papel destacado como entidad valenciana especializada en formación, investigación e innovación en inteligencia artificial. La fundación se define como una organización sin ánimo de lucro integrada por la Generalitat Valenciana, empresas y las cinco universidades públicas de la Comunitat Valenciana —UV, UPV, UA, UJI y UMH—, con el objetivo de coordinar la formación y la investigación en IA, impulsar nuevo talento y dar respuesta a las necesidades tecnológicas del tejido productivo.

La investigación se ha desarrollado con participación del Instituto Universitario Valenciano de Investigación en Inteligencia Artificial (VRAIN) de la UPV y de personal investigador vinculado a ValgrAI, en colaboración con universidades y centros internacionales. El resultado es una herramienta que no se limita a medir cómo responde una IA en exámenes ya conocidos, sino que intenta prever qué hará cuando se enfrente a tareas nuevas.

Qué aporta ADeLe a la evaluación de la inteligencia artificial

La principal novedad de ADeLe es que introduce una evaluación más cognitiva y explicativa. En lugar de quedarse solo en una nota final de rendimiento, el sistema analiza qué capacidades pone en juego cada tarea y hasta dónde llega realmente cada modelo. Esa información resulta especialmente útil para empresas, auditores, reguladores y responsables públicos que necesitan saber con más claridad qué puede hacer una IA antes de incorporarla a productos, servicios o procesos sensibles.

Según expone el equipo investigador, esta metodología responde a una demanda creciente en un ecosistema de inteligencia artificial que evoluciona con rapidez y donde las pruebas convencionales ya no bastan para entender bien el comportamiento de los modelos. La evaluación predictiva que propone ADeLe busca precisamente cubrir esa carencia.

El sistema organiza las tareas cognitivas de los modelos de lenguaje en 18 dimensiones clave, entre ellas la atención, el razonamiento o la singularidad de cada prueba. A partir de ahí, cada tarea se valora según el nivel de exigencia que plantea en esas dimensiones, lo que permite construir un perfil mucho más preciso de las fortalezas y límites de cada modelo.

Las conclusiones que deja el estudio

La aplicación de ADeLe a distintas pruebas de rendimiento ha permitido extraer varias conclusiones relevantes. La primera es que muchos test actuales de inteligencia artificial no miden exactamente lo que dicen medir, porque en realidad terminan evaluando capacidades distintas de aquellas para las que fueron diseñados.

La segunda es que los modelos de IA no responden todos igual: presentan patrones diferentes de fortalezas y debilidades según su tamaño, su familia tecnológica o su metodología de razonamiento. La tercera conclusión apunta que ADeLe sí permite ofrecer explicaciones y predicciones fiables sobre si un sistema tendrá éxito o fracasará en una tarea inédita.

El estudio también matiza el debate sobre si la IA razona o no. Según los autores, buena parte de las conclusiones contradictorias publicadas hasta ahora se explica porque no todas las pruebas exigen el mismo nivel de dificultad. Algunas requieren una resolución básica de problemas, mientras otras demandan lógica avanzada, abstracción o un conocimiento más profundo del dominio.

En esa línea, los investigadores sostienen que los modelos de razonamiento muestran mejoras cuantificables frente a los modelos estándar, no solo en lógica o matemáticas, sino también en capacidades más ligadas a comprender con mayor precisión qué está pidiendo realmente el usuario.

Fernando Martínez-Plumed, investigador de VRAIN-UPV, destaca que esta metodología permite anticipar antes del despliegue si un modelo será capaz o no de superar una tarea nueva. Según explica, esto puede ayudar a detectar fallos con antelación y evitar el coste de lanzar sistemas que después no rindan como se esperaba.

El trabajo ha reunido también a especialistas de la Universidad de Cambridge, Princeton, Carnegie Mellon, William & Mary, Microsoft Research y el Centro de Automática y Robótica (CAR, CSIC-UPM), entre otras instituciones, junto a la aportación de la red investigadora y formativa que articula ValgrAI en la Comunitat Valenciana.


Accede a nuestra hemeroteca Accedeix a la nostra hemeroteca Access our archive