En el debate sobre la infraestructura necesaria para la inteligencia artificial, la atención suele centrarse en GPUs y TPUs, los aceleradores diseñados para manejar los enormes modelos de lenguaje actuales. Sin embargo, el papel de la CPU, que en los últimos años ha caído en un segundo plano mediático, está cobrando mayor relevancia a medida que la IA evoluciona de simples chatbots hacia agentes autónomos capaces de actuar por sí mismos.
Bhumik Patel, responsable del ecosistema de software para la nube e inteligencia artificial en Arm, junto a Mo Farhat, líder de gestión de producto en Google en Axion y máquinas virtuales basadas en Arm para Google Compute Engine, explicaron a The New Stack cómo esta transición tecnológica está impulsando un renovado protagonismo de la CPU.
De responder preguntas a ejecutar acciones
En las primeras etapas, los chatbots se limitaban a proporcionar respuestas a consultas concretas. En cambio, los agentes actuales realizan acciones concretas, llamando a herramientas externas, e incluso creando entornos para ejecutar código que ellos mismos generan. «Todas estas tareas son cargas de trabajo propias de la CPU», indica Farhat.
Mientras que los modelos de lenguaje de gran tamaño se ejecutan en aceleradores especializados, la CPU se encarga de las operaciones internas que permiten que el agente funcione correctamente. Patel destaca que estas tareas incluyen la orquestación, comunicación con APIs y gestión de memoria, operaciones que las CPUs siempre han manejado con eficiencia, especialmente gracias a su capacidad para gestionar trabajos concurrentes y distribuidos.
Además, aunque la mayoría del procesamiento de modelos recae en los aceleradores, las CPUs ejecutan modelos más pequeños destinados a tareas específicas como resumidores, clasificadores o evaluadores dirigidos. Farhat señala que actualmente las CPUs ofrecen un buen rendimiento para modelos con alrededor de 8.000 millones de parámetros, y espera que la complejidad de las cargas de trabajo que pueden manejar continúe aumentando.
La necesidad de entornos seguros y múltiples ‘sandboxes’
Para que estos agentes puedan ejecutar código de forma segura, se hace indispensable aislar esas ejecuciones dentro de entornos controlados que eviten comprometer sistemas productivos. «Los agentes ejecutan código en nuestro nombre y no todo el código es seguro, por eso hace falta una capa de aislamiento», explica Patel.
Google promueve el uso de gVisor, un proyecto de código abierto que actúa como intermediario entre la aplicación y el sistema operativo host, y que ofrece como opción en GKE Agent Sandbox, el entorno gestionado creado para ejecutar agentes a gran escala. «No es necesario confiar completamente en los agentes, simplemente se aíslan dentro de estos sandboxes», añade Patel.
GKE Agent Sandbox tiene la capacidad de escalar en esta nueva era de agentes autónomos. Según Farhat, puede iniciar hasta 300 sandboxes por segundo y cluster, ejecutando la primera instrucción en menos de un segundo. Asimismo, los agentes generan cargas de trabajo con picos de actividad intercalados con períodos de inactividad mientras esperan respuestas, y por ello la plataforma utiliza técnicas como snapshots de pods y pools calientes para mantener los costes bajos cuando los agentes están en reposo, evitando pagar por recursos ociosos.
Ventajas en eficiencia y rendimiento
Durante el evento Google Cloud Next, la compañía destacó que sus clientes que utilizan procesadores Axion basados en arquitectura Arm dentro de GKE Agent Sandbox obtienen un 30 % mejor rendimiento en relación calidad-precio en comparación con los proveedores de nube líderes.
Este avance se apoya en la eficiencia energética y de procesamiento de los últimos chips Axion, que incorporan los núcleos más recientes de Arm optimizados para la nube. Google ofrece dos tipos de máquinas basadas en esta arquitectura: las Axion N4A, diseñadas para maximizar la eficiencia y el coste, ideales para ejecutar sandboxes; y las C4A, enfocadas en un alto rendimiento en tareas de un solo hilo, aptas para la orquestación con estado y lógica que requieren los flujos de trabajo basados en agentes.
Patel concluye destacando que estas tecnologías son familiares para desarrolladores nativos de la nube y usuarios amplios del cloud, y que esta familiaridad facilita la adopción de herramientas que soportan la creciente implementación de agentes autónomos en el ecosistema tecnológico.