Tecnología

Alibaba revoluciona el entrenamiento de agentes con Qwen-AgentWorld: predicción de entornos sin interacción directa

Alibaba presenta Qwen-AgentWorld, un innovador modelo que mejora el rendimiento de agentes autónomos en siete dominios diferentes sin necesidad de interactuar directamente con los entornos, superando las limitaciones de los métodos tradicionales.

por

junio 25, 2026

El equipo de Alibaba responsable de Qwen ha presentado Qwen-AgentWorld, un modelo de inteligencia artificial que no se entrena para actuar directamente en entornos de agentes, sino para predecir las respuestas que dichos entornos generarán. Esta novedosa aproximación cubre siete dominios distintos bajo una única arquitectura: MCP, búsqueda, terminal, ingeniería de software, Android, web y sistema operativo.

Este lanzamiento es un paso más en la apuesta reciente de Alibaba por el desarrollo de agentes autónomos. En mayo, la compañía ya había dado a conocer Qwen3.7-Max, un modelo diseñado para ejecutar acciones de forma autónoma durante 35 horas continuas, brindando soporte a integraciones externas como Anthropic’s Claude Code.

Uno de los retos más serios para los equipos que entrenan agentes a gran escala es la limitación que ofrecen los entornos de producción en el entrenamiento. Por ejemplo, los motores de búsqueda tradicionales solo muestran resultados existentes sin posibilidad de introducir condiciones controladas, ni los terminales permiten simular fácilmente estados extremos, como falta de espacio en disco. Esto dificulta que los agentes se expongan a casos límite que, aunque infrecuentes durante el entrenamiento, son cruciales para su funcionamiento robusto.

Para superar esta barrera, los investigadores entrenaron a los agentes dentro de simuladores generados por el propio modelo, obteniendo mejoras en el rendimiento que superaron los resultados conseguidos en entornos reales. De hecho, en pruebas separadas, el entrenamiento previo con modelos de simulación antes del acondicionamiento específico para agentes incrementó el desempeño en siete benchmarks, incluyendo tres dominios completamente nuevos para el modelo.

La investigación que acompaña al lanzamiento subraya una carencia en trabajos previos: «Sostenemos que la modelización del entorno o ‘world modeling’ es una pieza clave ausente en la evolución hacia agentes generales».

Qwen-AgentWorld aprende a anticipar las respuestas del entorno, no solo a actuar

Los modelos convencionales para agentes se centran en determinar la acción a tomar tras observar el estado del entorno. En contraposición, Qwen-AgentWorld se entrena para anticipar qué mostrará el entorno a continuación en función de la acción realizada. Esta inversión del planteamiento tradicional da lugar a lo que el estudio denomina un «modelo lingüístico del mundo»: un sistema que no optimiza la selección de acciones, sino que predice el siguiente estado del entorno en los siete dominios considerados con un único objetivo formativo.

Proyectos anteriores se habían enfocado en dominios más reducidos o con propósitos diferentes. Por ejemplo, WebWorld, otro proyecto de Qwen, solo cubría entornos web, mientras que el Agent World Model de Snowflake generaba entornos orientados a SQL, pero sin entrenar explícitamente un modelo para predecir estados del entorno. Qwen-AgentWorld es pionero en integrar estos siete ámbitos en un solo modelo, desde la fase inicial de preentrenamiento.

Para su entrenamiento, Alibaba utilizó más de 10 millones de interacciones reales de agentes. La formación se dividió en tres etapas: la primera enseñó al modelo el comportamiento básico del entorno (como sistemas de archivos, estados de terminal, cambios en DOM de navegadores y respuestas de APIs); la segunda le entrenó para razonar sobre lo que sucederá a continuación antes de predecirlo; y la tercera aplicó aprendizaje por refuerzo que ajusta las predicciones mediante verificaciones basadas en reglas y evaluaciones abiertas de calidad.

Ambos modelos implementan una arquitectura Mixture-of-Experts, lo que significa que solo una parte de sus parámetros se activa por token: el modelo menor de 35.000 millones de parámetros activa 3.000 millones, mientras que el mayor de 397.000 millones utiliza 17.000 millones. Ambos admiten ventanas de contexto de hasta 256.000 tokens. En los dominios de interfaz gráfica (Android, web y sistemas operativos), emplean árboles de accesibilidad textual y jerarquías de vistas en lugar de imágenes de pantalla.

El modelo de 35.000 millones de parámetros y el benchmark AgentWorldBench se distribuyen bajo licencia Apache 2.0, mientras que los pesos del modelo más grande no se han liberado públicamente.

Resultados y valor real del entrenamiento más allá de las métricas

Los benchmarks demuestran la precisión con la que los modelos predicen las respuestas del entorno. Sin embargo, para los desarrolladores de agentes, lo relevante es el impacto que esta capacidad tiene en el rendimiento de los agentes entrenados con estos modelos.

Los ensayos mostraron que los agentes entrenados mediante simulación controlada obtuvieron resultados superiores a aquellos formados únicamente en entornos reales. Por ejemplo, al introducir perturbaciones dirigidas que forzaban pasos adicionales en el agente y casos límite poco comunes, la puntuación MCPMark mejoró notablemente, pasando de 24,6 a 33,8. En tareas de búsqueda, agentes entrenados en mundos ficticios lograron transferir sus habilidades a tareas reales, elevando la precisión de la búsqueda amplia (WideSearch F1 Item) del 34,02 al 50,31 en el modelo abierto de 35.000 millones de parámetros. En pruebas de precalentamiento, el entrenamiento previo con el modelo de mundo aumentó el rendimiento de BFCL v4 de 62,29 a 71,25 y el de Claw-Eval de 53,60 a 64,88 sin necesidad de ajuste específico para agentes.

Debate científico y críticas sobre los resultados

El trabajo generó reacciones inmediatas entre la comunidad de investigadores en IA, quienes señalaron aspectos clave para ser valorados con cautela antes de aceptar plenamente los hallazgos.

Un experto en inteligencia artificial y aprendizaje automático destacó que, tradicionalmente, los modelos para agentes se entrenan para actuar en entornos específicos, mientras que Qwen invierte esta lógica al entrenar para predecir el comportamiento del entorno. Esta capacidad predictiva es lo que posteriormente mejora el desempeño en tareas de agente sin ajuste adicional. Además, resaltó la importancia del resultado sobre el aprendizaje por refuerzo en simulación controlada como la evidencia clave para defender que el entrenamiento sintético podría, en cierta medida, sustituir a la ejecución de RL en entornos reales a gran escala. También invocó que tres de los siete benchmarks de transferencia correspondían a dominios inéditos para el modelo.

Sin embargo, otro analista apuntó que AgentWorldBench es un benchmark desarrollado por el propio Alibaba y publicado en el mismo documento, lo que genera dudas sobre la independencia y dificultad de la prueba cuando la mejora sobre este benchmark fue apenas de 0,46 puntos.

Se ha planteado también la preocupación clásica por el sobreajuste en entrenamientos con simuladores. Si el modelo del entorno es demasiado «perfecto» o simplificado, el agente podría aprender a explotar particularidades del modelo y no la tarea en sí. Al respecto, se recomienda revisar la división de datos que mantuvo el artículo para evitar conclusiones prematuras. La diferencia sustancial entre el aprendizaje por refuerzo sin control (MCPMark 24,6) y con control (MCPMark 33,8) apunta a que las mejoras dependen más del mecanismo de control que de la fidelidad del simulador. Además, la transferencia exitosa desde entornos ficticios a tareas reales de búsqueda es la principal evidencia frente a la crítica de sobreajuste.

Implicaciones para el desarrollo de agentes autónomos

Este avance representa un cambio significativo para los equipos de ingeniería de inteligencia artificial que diseñan y escalonan agentes autónomos. La llegada de este modelo abre una tercera vía para entrenar agentes, que complementa el aprendizaje por refuerzo en entornos reales y las pruebas en benchmarks estáticos: la simulación controlada que permite introducir escenarios extremos que los entornos de producción no reflejan.

Los entornos sintéticos deben entenderse como una capa legítima de entrenamiento, capaz de aportar casos de uso difíciles de recrear en entornos físicos o de producción, pero sin sustituir completamente el aprendizaje en condiciones reales.

Asimismo, la evidencia sugiere que lo que un modelo aprende antes de comenzar su entrenamiento específico como agente tiene un impacto sustancial y suele estar infraestimado en los pipelines habituales. El hallazgo de mejoras en pruebas con benchmarks desconocidos sin ajuste posterior pone de manifiesto que la base de conocimiento sobre el entorno debería integrarse mucho antes en el proceso de desarrollo.