Las habilidades de los agentes se han convertido en una parte esencial de las aplicaciones de inteligencia artificial (IA) en entornos reales. Estas habilidades, habitualmente almacenadas en documentos de texto en formato markdown (.md), permiten que los modelos se adapten a casos de uso específicos dentro de empresas y complejos flujos de trabajo. Sin embargo, la optimización de estas habilidades es un proceso lento y propenso a errores, ya que no se pueden entrenar de la misma manera que los parámetros del modelo de IA. Básicamente, los usuarios deben actualizar manualmente las instrucciones en cada archivo, lo que implica un continuo proceso de prueba y error para determinar qué cambios pueden mejorar el rendimiento del agente y reducir fallos.
Microsoft ha presentado SkillOpt, un framework de código abierto bajo licencia MIT que revoluciona este paradigma. SkillOpt convierte el documento de habilidades del agente en un objeto entrenable y adaptable con base en retroalimentación de desempeño, sin alterar los pesos del modelo de IA subyacente.
La novedad de SkillOpt radica en su método de optimización inspirado en el deep learning, que permite explorar sistemáticamente modificaciones en el documento de habilidades para encontrar la mejor combinación de instrucciones. Según las pruebas en distintos benchmarks industriales, SkillOpt supera las soluciones existentes y mejora significativamente la precisión en modelos como GPT-5.5 y Qwen. Así, genera artefactos compactos y trasladables que facilitan la adaptación fluida de los agentes de IA a nuevos dominios.
El reto de optimizar las habilidades de los agentes
Las habilidades de un agente condensan conocimientos procedimentales mediante especificaciones en lenguaje natural, que incluyen heurísticas del dominio, políticas de uso de herramientas, restricciones de salida y modos de fallo conocidos. Estas habilidades funcionan como una interfaz externa para que los agentes puedan ajustarse a procesos empresariales complejos, almacenándose comúnmente como documentos de texto que se insertan en el contexto del agente antes de su ejecución.
El gran valor de las habilidades radica en personalizar el comportamiento del modelo sin modificar sus pesos. Pero para maximizar el rendimiento del agente, estos documentos deben ser ajustados y optimizados constantemente.
A diferencia del aprendizaje profundo, que se basa en controles matemáticos rigurosos para mantener la estabilidad, la ingeniería de prompts humanos suele apoyarse en ensayos y errores. Intentar actualizar automáticamente un documento de habilidades en función del feedback resulta complicado porque el texto es un medio volátil que carece de disciplina matemática.
Según Yifan Yang, ingeniero senior en Microsoft Research Asia, el problema no es modificar las habilidades, sino garantizar que las modificaciones mejoren realmente el desempeño. Explica que hay tres fallos recurrentes: ausencia de control en el tamaño de los pasos (las habilidades derivan sin rumbo), falta de validación (correcciones que parecen lógicas empeoran el rendimiento) y carencia de memoria negativa (errores repetitivos sin solución).
Por ejemplo, Yang menciona que una modificación sin control redujo la puntuación de GPT-5.5 en el benchmark SpreadsheetBench de 41.8 a 41.1, ilustrando cómo la falta de validación matemática puede afectar negativamente los resultados.
Estos problemas son aún más evidentes en flujos de trabajo con múltiples pasos, donde los modelos más avanzados fallan especialmente en la disciplina procedimental relacionada con formatos, autoverificación o políticas de uso de herramientas.
Hasta ahora, las habilidades se elaboraban manualmente, se generaban de forma puntual o evolucionaban mediante revisiones sin control riguroso, lo que limitaba la mejora basada en el feedback. Métodos recientes para optimizar prompts, como TextGrad o GEPA, tratan los artefactos de lenguaje como objetos optimizables, pero se centran en configuraciones de un solo prompt, no en la producción de habilidades duraderas y reutilizables. Por otro lado, técnicas como EvoSkill o Trace2Skill refinan las habilidades a partir de experiencias de ejecución, pero carecen de controles propios del aprendizaje profundo necesarios para entrenar de forma continua documentos compactos de habilidades.
Incorporando disciplina matemática al texto
SkillOpt aborda esta problemática mediante un ciclo iterativo de propuesta y prueba que separa el modelo encargado de ejecutar tareas del modelo que optimiza la habilidad. El proceso consta de varias etapas:
- Parte de un documento inicial de habilidades y un modelo objetivo congelado que ejecuta un conjunto de tareas para recolectar trayectorias de ejecución, las cuales actúan como evidencia para la optimización.
- Un modelo optimizador offline analiza estas trayectorias, agrupando éxitos y fallos en minibatches para identificar patrones de error sistemáticos, y propone ediciones estructurales (añadir, eliminar o reemplazar) sobre el documento de habilidades.
- Las propuestas pasan por un filtro para eliminar duplicados o contradicciones, y luego el optimizador las ordena según su utilidad esperada.
- Solo se aplica un máximo de ediciones por ciclo (presupuesto de edición), generando una habilidad candidata.
- Esta habilidad se evalúa en un conjunto de validación con el modelo objetivo. Si la puntuación mejora, la edición se acepta y se actualiza la habilidad actual; si no, se rechaza la edición y se añade a un buffer de rechazo para evitar repetir errores.
Con esta metodología, SkillOpt aplica conceptos clave del aprendizaje profundo como tasas de aprendizaje, validaciones estrictas y memoria negativa, garantizando que las modificaciones al texto sean matemáticamente sólidas y estables en el tiempo.
El presupuesto de edición funciona como una tasa de aprendizaje, limitando la magnitud de los cambios para evitar desviaciones bruscas. La validación emplea ejemplos retenidos para confirmar que cada ajuste mejora objetivamente el rendimiento del agente, y la comparación al final de cada ciclo actúa como un término de momentum que permite consolidar aprendizajes duraderos.
Resultados y aplicabilidad práctica
SkillOpt ha sido evaluado con diversos modelos, desde modelos de vanguardia como GPT-5.5 hasta modelos más pequeños como GPT-5.4-mini y Qwen3.5-4B, y en entornos de ejecución variados que incluyen chat básico y herramientas de codificación como Codex CLI y Claude Code.
Las pruebas cubrieron benchmarks industriales variados, como preguntas de una sola ronda, generación de código en múltiples pasos con uso de herramientas, y razonamiento multimodal sobre documentos. En total, se analizaron 52 combinaciones de modelo, benchmark y entorno.
Los resultados posicionan a SkillOpt como superior en todos los casos, destacando mejoras promedio de +23.5 puntos sobre la línea base sin habilidades en GPT-5.5, y superando incluso oráculos hipotéticos que seleccionan el mejor método para cada problema.
Modelos pequeños obtuvieron mejoras relativas notables, demostrando que un archivo de texto compacto puede proporcionar conocimientos procedimentales ausentes en sus pesos. Por ejemplo, GPT-5.4-nano casi duplicó sus resultados en preguntas multimodales y triplicó su desempeño en tareas de interacción y toma de decisiones secuenciales.
Estos avances son especialmente relevantes para empresas, ya que los modelos zero-shot suelen fallar en formatear correctamente o usar herramientas en escenarios de múltiples pasos. Yang subrayó que la mayor mejora está en tareas que históricamente resultan difíciles de automatizar con fiabilidad, como la extracción precisa de datos de contratos, facturas y formularios —funciones clave para automatización de pagos, reclamaciones y cumplimiento normativo—. El valor está en la fiabilidad: formatos exactos, autoverificación y resultados auditables, basados en el aprendizaje de procedimientos, no en la memorización.
SkillOpt también destaca por su eficiencia y portabilidad. Es compatible con infraestructuras ya existentes, y puede entrenar habilidades en un entorno y desplegarlas en otro sin perder eficacia. Por ejemplo, una habilidad creada en Codex fue transferida exitosamente a Claude Code, con una mejora de +59.7 puntos sobre el nivel base de este último, sin modificaciones adicionales.
Además, las habilidades optimizadas para un modelo más grande pueden aplicarse en versiones más pequeñas con beneficios positivos, evidenciando que los procedimientos aprendidos son reutilizables y no exclusivos de características particulares del modelo.
En cuanto a uso de tokens, las habilidades finales nunca superaron los 2.000 tokens, con una longitud media de unos 920, lo que facilita su lectura y auditoría por personas encargadas de su gestión.
Estrategias de implementación y recomendaciones para empresas
Para las organizaciones tecnológicas, adoptar SkillOpt implica evaluar recursos y limitaciones. Aunque en pruebas académicas se han usado hasta 210 millones de tokens para entrenamiento, en aplicaciones reales empresariales el costo es mucho menor, ya que las evaluciones masivas de pruebas no son tan comunes.
Yang explica que «el trabajo inicial más pesado es crear el verificador y un conjunto representativo de ejemplos de validación. El optimizador es liviano; la ingeniería principal reside en el entorno de evaluación». En contextos comunitarios como GBrain, actualizar una habilidad para una tarea concreta tiene un coste aproximado de 1 a 5 dólares, un gasto único que se amortiza con el despliegue.
El framework requiere contar con unos pocos ejemplos representativos y una señal de retroalimentación clara y evaluable. No se aconseja aplicarlo a tareas abiertas o subjetivas sin un evaluador automático fiable, ya que esto puede generar inestabilidad.
SkillOpt se integra fácilmente con pilas orquestadoras existentes, lo que facilita su adopción. Por ejemplo, puede coexistir con compiladores de pipelines como DSPy, que optimiza la estructura del programa, mientras SkillOpt optimiza el estado externo de la habilidad que carga un agente congelado.
De cara al futuro, desarrolladores open source planean usar SkillOpt para mejorar continuamente sus agentes con base en trayectorias pasadas, creando un pequeño ecosistema de plugins de código auto-optimizable. Este ciclo de retroalimentación representa una transformación en la forma en que los sistemas de IA aprenden y se adaptan.
«La verdadera mejora autónoma valiosa es que un agente descubra conocimientos para perfeccionar su comportamiento y la experiencia del usuario, bajo control y auditoría», concluye Yang. «Las habilidades son el primer paso más rápido, barato y reversible, y esta filosofía señala que los agentes eventualmente optimizarán hasta sus propios pesos».