GPT-5.5 sorprende y derrota a Claude Fable 5 en el exigente benchmark Agents’ Last Exam

El nuevo benchmark Agents’ Last Exam (ALE), desarrollado por la Universidad de California, Berkeley, pone a prueba la capacidad de la inteligencia artificial para ejecutar tareas profesionales complejas y de largo plazo. En su estreno, GPT-5.5 de OpenAI logró la mejor puntuación, superando al esperado modelo Claude Fable 5 de Anthropic.

Un grupo de investigadores del Centro para la Inteligencia Descentralizada y Responsable (RDI) de la Universidad de California, Berkeley, junto con un comité consultor formado por más de 300 expertos de diversos sectores, ha lanzado Agents’ Last Exam (ALE), un nuevo y riguroso benchmark diseñado para evaluar si la inteligencia artificial puede cumplir con flujogramas profesionales de alta complejidad y valor económico a largo plazo.

En una sorprendente victoria, GPT-5.5 de OpenAI, lanzado en abril y utilizado a través del agente Codex, alcanzó una tasa de aprobación del 24,0%, situándose en lo más alto del ranking de ALE. Este resultado superó al modelo Claude Fable 5 de Anthropic, que debutó apenas un día antes y obtuvo una tasa del 22,0%, quedando en tercer lugar.

Un nuevo enfoque para evaluar la verdadera capacidad de la IA

ALE rompe con los estándares previos que evaluaban a los modelos con preguntas aisladas o puzzles de código simples. Su objetivo es cerrar la brecha entre las pruebas académicas en laboratorio y la capacidad real de estos sistemas para impactar en la economía mediante la automatización de tareas laborales complejas y profesionales.

Patrocinado

Una de las principales innovaciones de ALE reside en su arquitectura de evaluación, que obliga a las IA a desempeñarse como agentes generalistas capaces de usar computadoras de forma integral. Para superar el examen, un agente no solo debe ejecutar comandos en terminal, sino también interactuar visualmente y manejar herramientas complejas en entornos como máquinas virtuales Linux o Windows.

El benchmark evalúa cinco capas funcionales: «Cerebro» (razonamiento), «Ojos» (percepción visual), «Cuerpo» (orquestación), «Manos» (uso de herramientas) y «Pies» (infraestructura de ejecución). Esta exigencia elimina prácticas poco éticas detectadas en otras pruebas, donde algunos modelos «hacían trampa» accediendo a respuestas ocultas en el historial de versiones, en lugar de resolver las tareas.

Evaluación realista, basada en 55 industrias y miles de tareas

ALE cuenta actualmente con 1.490 tareas y está en camino de alcanzar las 5.000. Lo más notable es que todos los flujos de trabajo se extraen directamente del historial profesional de expertos en campos muy variados, incluyendo creación de modelos 3D en Siemens NX, configuración de escenas en Unreal Engine, análisis de neuroimagen con FSLeyes o composición de efectos visuales en Adobe After Effects.

Las tareas están categorizadas en tres niveles de dificultad: corto plazo (Near-Term), completo (Full-Spectrum) y último examen (Last-Exam), este último representa el mayor desafío para la IA y donde las tasas de éxito son mínimas.

Ránking actual de los mejores agentes en ALE

Posición Agente Modelo subyacente Tasa de aprobados Puntuación media
1 Codex gpt-5-5 24,0% 42,8%
2 Ale Claw gpt-5-5 23,0% 45,8%
3 Claude Code claude-fable-5 22,0% 40,5%
4 OpenClaw gpt-5-5 21,1% 41,0%
5 Cursor CLI composer-2-5 20,4% 38,5%

Los expertos destacan que la fortaleza de GPT-5.5 radica en su capacidad para interpretar y seguir instrucciones complejas y multipartitas de forma rigurosa, a diferencia de modelos como Claude de Anthropic, que según algunos usuarios tienden a olvidar pasos intermedios importantes en flujos de trabajo exigentes.

A pesar de que el 24,0% es suficiente para coronar a GPT-5.5 como líder, la puntuación máxima general aún es muy baja. En la cima del nivel «Last-Exam», que representa la dificultad máxima, modelos relevantes como Claude Opus 4.8 de Anthropic y Gemini CLI de Google registran un 0,0% de aprobación.

Protegiendo la validez del benchmark contra filtraciones

Uno de los grandes problemas en la evaluación de IA es la «contaminación» del benchmark: cuando las preguntas de las pruebas se filtran y quedan presentes en los datos de entrenamiento, las IA dejan de demostrar su verdadera capacidad y simplemente memorizan respuestas.

ALE mitiga este problema con una estrategia de doble uso. Sólo alrededor del 10% de las tareas (unas 150) se hacen públicas en plataformas como GitHub y Hugging Face, mientras que más de 1.300 permanecen en secreto. Las tareas privadas se rotan periódicamente con las públicas para evitar la repetición y mantener la frescura del test.

Este sistema garantiza que las empresas que utilizan ALE para evaluar agentes puedan confiar en que las altas puntuaciones reflejan habilidades genuinas y no aprendizaje previo superficial.

La evaluación también distingue entre tareas que requieren software comercial y licenciado (lista «Full») y aquellas que emplean únicamente herramientas gratuitas (lista «Unlicensed»), para ofrecer comparaciones justas y transparentes sin favorecer modelos con acceso a programas de pago.

Un llamado a la realidad en la industria de la IA

Para los desarrolladores y empresarios que buscan medir el verdadero potencial de las IA, el duro criterio de ALE ofrece una validación necesaria frente a las exageraciones de marketing.

Zengyi Qin, doctor del MIT y uno de los investigadores clave en el proyecto, compartió en la red social X el lanzamiento del benchmark, destacando su amplio respaldo con más de 100 instituciones y la colaboración de 300 expertos. Qin subrayó el bajo rendimiento de modelos previos en las tareas más difíciles y elogió el trabajo de los responsables del proyecto en Berkeley.

En un momento donde se invierten miles de millones para integrar agentes de IA en sectores productivos, ALE podría marcar el punto de inflexión que nos permita discernir qué modelos están realmente preparados para el trabajo profesional y cuáles solo superan evaluaciones superficiales. Hasta entonces, las bajas tasas de aprobación sirven como un recordatorio necesario para todo el ecosistema de inteligencia artificial.

Add a Comment

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Patrocinado