Tecnología

Revolucionan la evaluación de la IA situando el trabajo económicamente valioso como nuevo estándar

Un nuevo estándar para medir la inteligencia artificial, llamado ‘Agent’s Last Exam’ (ALE), propone centrar la evaluación en la capacidad real de realizar tareas laborales económicamente significativas, superando a los benchmarks tradicionales que miden habilidades aisladas.

por

junio 15, 2026

La industria de la inteligencia artificial avanza hacia la creación de estándares y sistemas de evaluación más sólidos y armonizados, impulsados por organizaciones como la Tokenomics Foundation. Sin embargo, sigue existiendo la necesidad de contar con métricas que midan el valor real y práctico de los modelos de IA, especialmente desde la perspectiva económica y laboral.

Recientemente, Nvidia destacó el benchmark AgentPerf, desarrollado por Artificial Analysis, como un referente para comparar sistemas de IA orientada a agentes. Además, es habitual que los modelos incluyan puntuaciones en pruebas como el MMLU, también de Artificial Analysis, que evalúan habilidades específicas. No obstante, tanto desarrolladores como responsables de negocio demandan herramientas de evaluación que reflejen la efectividad de la IA en casos concretos y aplicados al mundo real.

Evaluando la IA por su capacidad de trabajo económicamente valioso

La semana pasada se presentó un nuevo benchmark llamado Agent’s Last Exam (ALE), diseñado para medir en qué medida los sistemas de IA agentes pueden realizar de forma efectiva tareas laborales reales con valor económico. Este estándar se basa en un análisis exhaustivo de sistemas avanzados como Fable 5, GPT-5.5, Composer 2.5 y otros agentes de última generación, evaluando su desempeño en más de 1.500 tareas distribuidas en 55 ocupaciones del mundo real.

El proyecto está liderado por la profesora y doctora en informática Dawn Song, de la Universidad de California, Berkeley. Según Song, ALE se apoya en actividades de trabajo que existen en el mercado laboral actual y que tienen un valor económico definido, en lugar de en benchmarks abstractos o teóricos. Cada tarea evaluada parte de una función laboral que un experto desarrolla en entornos empresariales, productivos o de investigación.

La medición de la IA ha estado equivocada

“La principal pregunta es cuándo estarán las IA preparadas para el trabajo real”, apunta Song. “El problema es que no estábamos midiendo lo que realmente necesitamos para responder a esto”. ALE considera, además, el tiempo requerido para completar cada tarea y el nivel de experticia necesario, permitiendo calcular el valor laboral implicado. De esta forma, no se inventa un valor arbitrario, sino que se evalúa el trabajo por el que las empresas ya pagan.

La investigadora destaca que la mayoría de benchmarks actuales se limitan a evaluar habilidades aisladas como resolver problemas matemáticos, responder preguntas, escribir fragmentos de código o maniobrar en entornos simulados. Sin embargo, las empresas no contratan a personas para superar estos test, sino para realizar trabajos concretos y aplicados. Por eso, a medida que la IA gana capacidades, evaluar su eficacia en tareas reales ya no es opcional, sino imprescindible.

“Las empresas no contratan para resolver preguntas de benchmark, sino para hacer trabajo real. A medida que los agentes mejoran, evaluar el trabajo real se vuelve básico.” – Profesora Dawn Song

Los resultados preliminares de ALE muestran que los agentes actuales pueden resolver una parte significativa de tareas profesionales, pero aún tienen limitaciones marcadas. En tareas que exigen razonamiento continuado, profundo conocimiento del dominio y ejecución fiable a largo plazo, los sistemas están lejos del nivel humano. De hecho, en el nivel más complejo de ALE, ningún agente probado, incluido Fable 5, logró éxito.

Para Song, calibrar a las IA con base en tareas con valor económico ofrece un lenguaje común para medir avances entre diferentes sistemas y comprender en qué áreas la IA puede complementar o incluso automatizar el trabajo humano.

El valor económico es sólo una dimensión

No obstante, la profesora subraya que el valor económico representa solo una dimensión del impacto de la IA. En muchos trabajos la relación entre tiempo de labor, experticia y salario es un buen indicativo, pero en áreas como la investigación esto puede no aplicarse. Un proyecto puede consumir años y generar poco impacto, mientras que un descubrimiento único puede tener valor incalculable.

La conclusión del equipo detrás de ALE es que no existe un agente universalmente superior. Cada modelo tiene áreas donde destaca y otras donde presenta dificultades. La clave está en analizar dónde tienen éxito o fracasan los agentes y cómo varían según el ámbito laboral.

La diversidad de modelos como estrategia óptima

Dado que distintos modelos fracasan en tareas similares por motivos distintos, Song recomienda a los equipos de ingeniería que implementan agentes usar una combinación de modelos. Esta estrategia permite asignar tareas al modelo con mejor rendimiento y coste óptimo según el dominio, maximizar la eficiencia y aprovechar fortalezas específicas.

El volumen de variables en juego –desde tipos de ocupación hasta clases de tareas– hace que la diversidad de modelos sea especialmente valiosa hoy en día. No es cuestión de encontrar el mejor modelo global, sino el más adecuado para cada ámbito de trabajo económicamente relevante.

“La era de los agentes útiles ya ha llegado. La era de los agentes realmente preparados para el trabajo aún está por venir.”

Para facilitar su adopción, el grupo detrás de ALE también ha lanzado ALE-CLI, una versión del benchmark operable únicamente desde la línea de comandos, para evaluar agentes en entornos terminales.

El proyecto está impulsado por un equipo de estudiantes de doctorado y postdoctorado de la Universidad de California, Berkeley, bajo la dirección de Dawn Song, quien también lidera el Berkeley Center for Responsible Decentralized Intelligence (RDI).

La aspiración es que ALE se convierta en un nuevo referente y guía para el desarrollo de agentes capaces de realizar de forma fiable trabajo económicamente valioso en un amplio rango de sectores.