La mayoría de los agentes de programación actuales experimentan dificultades cuando se enfrentan a tareas complejas que implican más de 30 pasos consecutivos, especialmente durante procesos de refactorización en producción. El problema surge cuando el agente se atasca en una hipótesis equivocada, lo que genera una acumulación de errores que terminan por descarrilar el proyecto.
Esta limitación podría quedar en el pasado gracias a MiMo Code, un agente de programación desarrollado por el equipo de inteligencia artificial de Xiaomi y liberado como código abierto. Según la empresa, MiMo Code supera a Claude Code de Anthropic en tareas que requieren una ejecución continuada de más de 200 pasos, una capacidad que abre nuevas perspectivas de fiabilidad en proyectos de desarrollo a largo plazo.
El llamado «gap de resistencia» se refiere precisamente a ese umbral de pasos que un agente es capaz de completar de manera coherente antes de perder el hilo de la tarea. Aunque la cifra de 200 pasos es un dato autodeclarado por Xiaomi basado en pruebas internas y encuestas a más de 570 desarrolladores, representa un hito significativo en un campo donde, tradicionalmente, los agentes fracasan mucho antes.
Los puntos débiles de los agentes actuales
Cuando se solicita a un agente que construya una aplicación pequeña desde cero, suele responder bien en las primeras etapas. Sin embargo, cuando el proyecto se extiende a cientos de pasos involucrando edición, pruebas y revisiones, aparecen tres fallos recurrentes:
- Las hipótesis se fijan demasiado pronto, haciendo que el agente trabaje sobre supuestos incorrectos.
- Los errores se heredan y acumulan a lo largo del proceso.
- El contexto inicial se pierde progresivamente y desaparece a medio camino.
Estos problemas fueron detallados por equipos como el de Ejentum, que identificaron el punto crítico alrededor del paso treinta, comparando la situación con procesos sin puntos de control que obligan a reiniciar por completo tras un fallo.
El examen definitivo de Berkeley
Investigadores de la Universidad de California en Berkeley, como Dawn Song y Yiyou Sun, desarrollaron un benchmark llamado Agents’ Last Exam para evaluar la capacidad real de los agentes en términos de entrega funcional y no solo en demostraciones. Este test ha sido configurado con la participación de más de 250 expertos de distintas industrias y convierte proyectos reales ya puestos en producción en pruebas objetivas, puntuando solo el resultado final.
Los resultados mostraron que incluso la combinación más potente, Codex con GPT-5.5, no supera el 50 % en tareas fáciles y cae por debajo del 10 % en las más complejas. Otros agentes como Claude Code se sitúan prácticamente en cero en estas pruebas de dificultad alta. Esto evidencia que, a día de hoy, los agentes sólo pueden encargarse de una parte limitada del trabajo profesional más exigente.
La importancia del «harness» o capa de soporte
Los avances actuales se centran en la creación de una capa llamada «harness» que mantiene el estado, controla el ritmo y decide los pasos a seguir en el proceso. Tres enfoques destacados son:
- Claude Code: Utiliza subagentes anidados hasta cinco niveles, con un modelo principal que planifica y subagentes secundarios que ejecutan.
- Arbor (Universidad Renmin, China): Emplea un coordinador persistente, ejecutores temporales y un árbol de hipótesis que guarda puntos de control y permite reanudación.
- MiMo Code (Xiaomi): Desarrollado como un sistema nativo para terminales, optimizado para tareas que superan los 200 pasos y con código abierto.
Cada uno ofrece ventajas, pero también presenta limitaciones y evidencia de eficacia basada principalmente en pruebas internas y encuestas, sin validación independiente aún.
Relevancia para las empresas
La brecha de resistencia es crucial para empresas que integran agentes en sus procesos de desarrollo. Un agente que falla tras 30 pasos puede devolver resultados aparentemente correctos pero basados en supuestos erróneos, causando trabajos extra y defectos silenciosos. Benchmark exigentes como el de Berkeley permiten evaluar hasta dónde un agente puede trabajar sin necesidad de intervención humana.
Por ello, las compañías deberían exigir información sobre cómo los agentes mantienen el estado durante largas operaciones, si disponen de puntos de control y cuál es su rendimiento real en tareas extensas. Muchas ofertas comerciales destacan cifras de modelos en benchmarks tradicionales pero no abordan esta perspectiva clave a largo plazo.
Perspectivas y próximos pasos
La atención en el ámbito de agentes de programación está cambiando del protagonismo del modelo individual a la capacidad de mantener coherencia durante largos procesos y la verificación independiente de esas capacidades. Proyectos como MiMo Code, Arbor y Claude Code representan los primeros intentos en este terreno.
El futuro inmediato pasa por la validación independiente de benchmarks como Agents’ Last Exam para confirmar o ajustar las afirmaciones de resistencia y por un cambio en el mercado hacia evaluaciones basadas en entregables reales. En última instancia, el dato que marcará la diferencia para los compradores será cuántos pasos puede aguantar un agente antes de requerir supervisión humana, transformando las promesas comerciales en criterios claros de adquisición.
En definitiva, la clasificación más relevante será la que valore proyectos terminados y funcionales, frente a victorias autodeclaradas en pruebas menos rigurosas, beneficiando a todos los equipos que incorporan agentes en sus flujos de trabajo.