Los equipos empresariales enfrentan una realidad frustrante: una demostración de agente de inteligencia artificial funciona a la perfección, arranca en producción y apenas duras horas o días antes de que el sistema se estanque. Entonces, requiere intervención humana para actualizar su contexto y monitorizar sus respuestas, reduciendo la eficiencia prometida a un proceso de supervisión constante. En muchos casos, esto hace que los pilotos de agentes no se traduzcan en sistemas productivos permanentes.
La esperanza generalizada es que el agente pueda realizar una tarea compleja de forma autónoma durante largos períodos, incluso toda la noche, y que el humano sólo tenga que revisar una pequeña parte final —por ejemplo, el 10 %— de los resultados. Sin embargo, alcanzar esta autonomía máxima topa con un problema frecuentemente ignorado en las conversaciones sobre orquestación de IA: la pérdida de precisión a medida que el agente procesa más contexto. Un análisis reciente de la empresa Chroma sobre 18 modelos líderes reveló que todos disminuyen su exactitud a medida que crece el volumen de información de entrada, un fenómeno inherente al mecanismo de atención de estos sistemas, no solucionable con modelos más potentes.
Este punto es clave: alimentar continuamente a un agente con más datos de negocio no aporta estabilidad sino más incertidumbre en sus respuestas, lo que cuestiona la duración real que un agente puede trabajar sin supervisión humana. Este desafío trasciende la gestión de la orquestación, que suele asumir que los agentes ya poseen competencias sólidas para coordinar tareas.
Las dos formas tradicionales de incorporar el conocimiento empresarial en modelos de IA
La mejora constante de los modelos base sigue sin cerrar la brecha porque el problema no radica en la capacidad del modelo, sino en la ubicación del conocimiento específico de la empresa dentro de la arquitectura AI. Históricamente, existen dos métodos para integrar este conocimiento:
1. Fine-tuning (ajuste fino): Consiste en incorporar el conocimiento modificando directamente los pesos del modelo. Sin embargo, esta técnica sufre del llamado “olvido catastrófico”, un problema documentado desde los años 80 y aún vigente en 2026: cuando un modelo aprende algo nuevo, tiende a perder lo que ya sabía. Para evitarlo, los equipos suelen crear múltiples versiones especializadas o adaptadores para diferentes tareas, generando un ecosistema complejo y costoso de mantenimiento y gobernanza. Además, cada ajuste fino es una fotografía estática que se desactualiza con cambios en políticas o normativas, requiriendo costosos y lentos ciclos de reentrenamiento.
2. Aprendizaje en contexto (in-context learning): Este sistema evita reentrenamientos incluyendo las políticas o reglas relevantes en el propio prompt que se pasa al modelo en cada ejecución. Aunque efectivo para evitar la actualización de pesos, este método sufre el problema de la “degradación del contexto”. Al limitar la cantidad de información que cabe en el prompt, el recupero (retrieval) selecciona qué incluir, pero si falla en traer datos clave, el modelo puede generar respuestas erróneas con la misma confianza que las correctas. Además, los costes y latencias aumentan conforme se añade más contexto.
Ambas técnicas fallan por motivos similares: el modelo puede operar con información obsoleta (fine-tuning) o perder datos clave en prompts demasiado largos (aprendizaje en contexto). En ambos casos, la salida parece confiada pero puede contener errores invisibles sin supervisión total, obligando a mantener la intervención humana constante para validar resultados. Algunas organizaciones combinan ambos métodos para mitigar fallos, pero no eliminan la necesidad de revisión estrita.
La tercera vía: generación bajo demanda de modelos especializados con hiperredes
Una alternativa emergente y prometedora es la generación dinámica de modelos especializados en función de las políticas empresariales, sin necesidad de ajustar pesos ni rellenar prompts extensos. Esta estrategia utiliza hiperredes, redes neuronales cuyo objetivo es producir los pesos de otra red específica para una tarea concreta.
Este concepto, propuesto ya en 2016, ha cobrado vigor recientemente en la generación de adaptadores para modelos de lenguaje que se crean a partir de descripciones en lenguaje natural o documentos. Por ejemplo, Sakana AI presentó en ICML 2025 Text-to-LoRA, un sistema que genera adapters para tareas concretas en una sola pasada a partir de texto sencillo. Más recientemente, un modelo denominado SHINE destaca el potencial de la adaptación mediante hiperredes como solución que evita tanto el coste de reentrenamiento del fine-tuning como los límites contextuales del prompting.
La ventaja clave de generar adaptadores bajo demanda es consolidar las múltiples adaptaciones por tarea en un único generador capaz de producir versiones personalizadas cuando se necesita, incluso para tareas no previamente entrenadas, eliminando el problema de gestionar un zoo de modelos diverso y complejo.
Este enfoque además mitiga el olvido catastrófico, ya que no requiere memorizar permanentemente todo el conocimiento, sino generarlo fresco desde la política actual. En términos de costes operativos, estudios como uno de Nvidia en 2025 constatan que para tareas específicas y repetitivas, los modelos pequeños son suficientemente eficientes y pueden resultar de 10 a 30 veces más baratos que los grandes modelos generalistas.
Un ejemplo empresarial destacado es la startup Nace.AI, que tras captar 21,5 millones de dólares en capital semilla en mayo, ha desarrollado su generador llamado MetaModel, diseñado para crear adaptaciones parametrizadas en tiempo real según políticas internas, enfocado especialmente en auditoría, cumplimiento y evaluación de riesgos. Según Nace, sus agentes realizan la mayor parte del trabajo rutinario, reservando sólo un 10 % para revisión humana.
Comparativa entre los tres métodos principales
| Ajuste fino (fine-tuning) | Aprendizaje en contexto / RAG | Modelos generados con hiperredes | |
|---|---|---|---|
| Dónde reside el conocimiento empresarial | En los pesos del modelo | En el prompt que se suministra cada ejecución | En pesos generados bajo demanda |
| Coste de actualización tras cambios en políticas | Alto, requiere reentrenamiento | Bajo, basta editar la fuente de datos | Bajo, se regeneran pesos actualizados |
| Estancamiento o envejecimiento del conocimiento | Alto, es una fotografía estática | Bajo, siempre actualizado en cada prompt | Bajo, pesa sobre política actual |
| Coste y latencia por llamada | Bajo | Alto, crece con el contexto | Bajo, adaptadores ligeros |
| Modo dominante de fallo | Olvido catastrófico y complejidad operativa | Degradación de contexto y fallos silenciosos en recuperación | Calibración de generador y calidad del adaptador |
| Propiedad del activo que mejora | Quien entrena el modelo | Propietario del almacén de datos | Depende del lugar donde se aloje generador y feedback |
Ventajas de un modelo hiperespecializado para alcanzar mayor autonomía
Un modelo reducido, especializado y permanentemente actualizado limita la superficie de error potencial, disminuyendo el número de respuestas que el agente debe escalar a supervisión humana. Esto es la base real para cualquier reclamo serio de alta autonomía en agentes inteligentes. En la práctica, cifras como el 90/10 —agente trabajando el 90 % y humanos verificando solo el 10 %— son resultados medidos, no objetivos fijados arbitrariamente.
Para que esa autonomía sea confiable, deben concurrir dos factores críticos. Primero, la dibujabilidad o grounding: cada salida debe estar respaldada por una fuente verificable para que el revisor pueda validar sin rehacer completamente el trabajo. Investigaciones como HalluGuard etiquetan cada afirmación con su soporte concreto; Nace integra modelos de grounding y trazas de razonamiento para facilitar esta comprobación rápida.
En segundo lugar, el circuito de feedback: cuando un humano supervisa resultados, debe quedar claro quién se beneficia de esa validación, es decir, qué modelo se ajusta y dónde se almacena. Las implementaciones varían; Nace, por ejemplo, utiliza expertos externos para algunas tareas y personal interno para otras, guardando los modelos actualizados en la nube del cliente, garantizando propiedad y gobernanza según contexto.
Limitaciones y desafíos actuales del enfoque de hiperredes
Si bien la generación bajo demanda es prometedora, todavía es una tecnología en su infancia y presenta retos clave. La calibración, es decir, que el modelo sepa cuándo dudan o no de sus respuestas, es fundamental y aún no está garantizada automáticamente. Estudios recientes muestran que estos adaptadores generados no mejoran la calibración de manera natural sino sólo bajo ciertas restricciones.
Además, la calidad del modelo depende estrictamente de los datos de política con los que se le alimenta, lo que exige una cuidadosa curación de información. En cuanto a la escala, los trabajos publicados hasta la fecha describen hiperredes pequeñas, aunque Nace ha declarado haber escalado su generador mucho más allá y haber establecido una ley de escala que relaciona el tamaño con el rendimiento, datos que actualmente revisa la comunidad científica.
Por último, las transiciones humanas siguen siendo necesarias, y su diseño es crítico. Un caso controvertido fue el informe gubernamental de Deloitte Australia, que valió aproximadamente 440.000 dólares australianos y que incluía citas falsificadas y una cita judicial inventada a pesar de haber pasado la revisión senior, debido a que los evaluadores sólo comprobaron la validez de las conclusiones y no la procedencia. Esto evidencia el sesgo automatizado identificado en el artículo 14 de la Ley Europea de IA, que resalta la necesidad de sistemas transparentes y verificables.
Recomendaciones para compradores y desarrolladores de agentes autónomos
La principal conclusión es que la autonomía de un agente depende menos de su tamaño o capacidad bruta y más de si conoce suficientemente bien el negocio para operar sin supervisión. Para procesos extensos, repetitivos y críticos, la generación de modelos hiperespecializados es la solución más rentable y duradera. Para tareas breves o puntuales, un modelo generalista bien promptado probablemente sea suficiente y más sencillo de integrar.
Antes de invertir en agentes autónomos o especialistas, conviene hacerse cuatro preguntas clave:
- ¿Dónde reside realmente el conocimiento empresarial, en pesos del modelo, en el prompt o en modelos generados bajo demanda?
- ¿Cada resultado incluye su fuente o respaldo para que se pueda verificar sin rehacerlo?
- ¿Qué criterio determina qué trabajos saltan a supervisión humana?
- ¿Quién posee el modelo que mejora a partir de ese feedback y dónde se ejecuta?
Las respuestas a estas dudas proporcionan más información sobre la calidad y fiabilidad del producto que los números de autonomía anunciados.
En definitiva, el método de generación con hiperredes representa el intento más sólido hasta ahora de dotar a modelos reducidos del conocimiento empresarial de forma dinámica, sin olvidar información ni repetirla constantemente. No obstante, sigue siendo un enfoque experimental, pendiente de validación en aspectos como calibración y escala, y debe pilotarse cuidadosamente según el caso de uso. Para ciertos escenarios, la integración puede no justificar aún su compra frente a modelos potentes generalistas bien configurados.