A medida que los agentes de inteligencia artificial (IA) empresariales asumen tareas cada vez más complejas y de largo plazo, su desempeño suele estar limitado por el ‘harness’, el armazón de software que conecta el modelo fundamental (LLM) con su entorno. Hasta ahora, estos armazones eran en gran parte estáticos y diseñados manualmente, sin capacidad para perfeccionarse automáticamente a partir de los datos recogidos en la ejecución.
Para superar esta limitación, los investigadores de Xiaomi han desarrollado HarnessX, un sistema que interpreta el harness como un objeto modular y composable, capaz de autoeditar su código durante la ejecución para mejorar su desempeño. Esta innovación permite que los sistemas de IA se ajusten dinámicamente a las necesidades específicas de cada aplicación empresarial.
Los ensayos prácticos de HarnessX revelaron avances importantes en áreas como ingeniería de software o interacción web. Sorprendentemente, este enfoque demuestra que ampliar el tamaño del modelo base no es la única vía para potenciar la IA: los modelos más pequeños, mediante la evolución de su harness, alcanzan ganancias aún mayores. En concreto, HarnessX logró un incremento medio del 14,5 % en rendimiento en 15 combinaciones de modelos y pruebas, mientras que en tareas de planificación corporal el modelo Qwen3.5-9B alcanzó una mejora del 44 %.
Desafíos en la ingeniería de los sistemas de soporte para IA
El harness es la capa operativa que traduce las salidas del modelo de IA en comportamientos concretos y estructurados del agente. Incluye diversas funciones fundamentales: plantillas de instrucciones, integración con herramientas externas, administración de memoria y flujos de control que determinan cómo observa el agente el entorno, razona y actúa.
Ante la creciente complejidad de los flujos de trabajo empresariales, la construcción del harness se ha convertido en un factor central de la ingeniería de IA. Sin embargo, esta área aún no está plenamente desarrollada y presenta importantes retos:
- Estática y manual: las modificaciones en el modelo base, nuevas herramientas o dominios requieren reescrituras de código especializadas, sin capacidad de aprendizaje automático.
- Entrelazado arquitectónico: los componentes como plantillas, herramientas y gestión de memoria están altamente interdependientes, dificultando modificaciones aisladas o la reutilización modular.
- Optimización independiente: el modelo y el harness se mejoran por separado, desperdiciando datos valiosos generados durante la ejecución para optimizar ambos elementos.
HarnessX: fundición autónoma para la evolución de agentes de IA
El enfoque de HarnessX consiste en tratar el harness como un objeto de primera clase, una entidad independiente, serializable y modular que puede cambiarse o adaptarse sin afectar al modelo subyacente. Esta arquitectura segmenta el comportamiento del agente en componentes específicos —como recopilación de contexto, gestión de memoria, conjunto de herramientas, control de flujo y observabilidad— implementados mediante procesadores que encajan en puntos concretos del ciclo de vida del harness.
Para automatizar la mejora de esta estructura modular, HarnessX incorpora AEGIS, un motor de evolución basado en aprendizaje por refuerzo que transforma la adaptación del harness en un problema de optimización simbólica. AEGIS aborda tres riesgos comunes: el uso indebido de atajos (“reward hacking”), el olvido catastrófico que rompe funcionalidades previas y la exploración limitada que solo ajusta detalles sin cambios estructurales.
La solución de AEGIS implica un proceso de cuatro etapas: Digester, que condensa las trazas de ejecución para identificar fallos; Planner, que propone cambios estructurales; Evolver, que genera y prueba el código modificado; y un mecanismo crítico que detecta trampas en la recompensa y rechaza regresiones de funciones ya establecidas.
Lo innovador de HarnessX es su enfoque de coevolución entre modelo y harness. En lugar de optimizarlos aisladamente, alterna evolución del armazón con entrenamiento del modelo base. A través de una técnica llamada Group Relative Policy Optimization (GRPO), captura y aprovecha las diferencias en estrategias entre distintas versiones del harness para entrenar al modelo a explotar sus nuevas capacidades. Este proceso conjunto rompe las limitaciones tradicionales de los agentes de IA.
Resultados destacados en pruebas industriales
Para validar HarnessX, se realizaron pruebas en cinco áreas: ingeniería de software, diálogo multi-turno de atención al cliente, navegación web, razonamiento multi-etapa abierto y planificación física embebida. Se separaron dos roles: un «meta-agente» (Claude Opus 4.6) encargado de analizar registros y actualizar el harness, y «agentes de tarea» que ejecutaban los flujos.
El marco se probó con tres modelos ejecutores: Claude Sonnet 4.6, GPT-5.4 y el modelo abierto Qwen3.5-9B, demostrando su independencia respecto al modelo. Se comparó con un harness estático típico y con el SDK Claude Code, que representa versiones monolíticas y no modulares para evolución.
Los resultados mostraron que la adaptación dinámica del harness aportó mejoras significativas en 14 de las 15 combinaciones evaluadas, con una ganancia media del 14,5 %. Los modelos menos potentes, especialmente Qwen3.5-9B, apreciaron mayores avances: un 44 % adicional en tareas de planificación física y un 18,2 % en ingeniería de software.
La coevolución simultánea de modelo y harness añadió un beneficio extra del 4,7 % en modelos abiertos, confirmando que la mejora conjunta supera a la evolución aislada de cualquiera de los dos componentes.
Casos destacados incluyen cómo HarnessX identificó y solventó problemas específicos: en el benchmark GAIA, sustituyó un navegador que fallaba por consultas directas a la API de MediaWiki, desbloqueando tareas fallidas; en pruebas de e-commerce WebShop, creó un procesador que detecta y previene bucles repetitivos de navegación, mejorando el rendimiento del agente.
Limitaciones y perspectivas futuras
Entre las restricciones actuales, destaca la dependencia de modelos potentes y cerrados (ejemplo, Claude Opus) para desempeñar el rol de meta-agente que reescribe el harness. Aunque los modelos abiertos están mejorando, aún no se ha comprobado su eficacia en esta función.
Asimismo, si el modelo de base no posee capacidades suficientes para aprovechar un harness más sofisticado, las mejoras globales se limitan, como se observó en ciertas pruebas con Qwen3.5-9B.
No obstante, HarnessX demuestra que la ingeniería del armazón es una palanca crítica para ampliar la capacidad y eficacia de los agentes de IA, especialmente útil para equipos que operan con modelos de menor tamaño y complejidad, antes de optar por modelos de frontera más costosos. Está previsto que Xiaomi libere el código en próximas actualizaciones para impulsar la investigación y adopción de esta tecnología.