La inteligencia artificial está transformando radicalmente la forma en que se gestionan las inferencias, pasando de simples respuestas a consultas concretas a sistemas complejos, persistentes y multi-etapa. Según Jeff Harthorn, líder de investigación aplicada en IA en Solidigm, la limitación principal ya no está en la disponibilidad de GPUs o la capacidad de cálculo, sino en la gestión del contexto que debe mantenerse activo a lo largo de múltiples sesiones.
«La cuestión crítica para 2026 es por qué la gestión del contexto se ha convertido en un cuello de botella más relevante que la disponibilidad de GPU o la eficiencia computacional», explica Harthorn. Las GPUs han reducido notablemente su coste por operación FLOP, y los modelos y motores de inferencia son cada vez más eficientes. Sin embargo, la cantidad de estado persistente –es decir, la información contextual que se debe conservar entre sesiones– está creciendo con mayor rapidez que ambas.
Este fenómeno se produce debido al aumento significativo en las ventanas de contexto, que elevan el tamaño de los datos de entrada individuales. Las arquitecturas de IA agentic enlazan decenas o incluso cientos de llamadas al modelo, generando estados que deben ser monitorizados, al tiempo que las organizaciones requieren que estos estados de inferencia se conserven para auditorías, cumplimiento normativo y reutilización.
Ace Stryker, director de marketing de IA y ecosistemas en Solidigm, apunta que estas tendencias convergen acelerando el volumen de datos de contexto y memoria más allá de la capacidad para la cual fueron diseñadas las memorias existentes.
La respuesta a este desafío ha sido el desarrollo de un nivel de contexto dedicado que opera entre la memoria de las GPUs y el almacenamiento masivo en red. Esta capa de memoria flash de alto rendimiento y alta densidad está especialmente optimizada para gestionar la caché clave-valor (Key-Value, KV) utilizada para contener y servir datos de inferencia y contexto a la velocidad que requieren los modelos. Nvidia ha estandarizado esta arquitectura bajo el término Context Memory eXchange (CMX), y fabricantes como Solidigm están preparando unidades SSD ajustadas a estas especificaciones.
«Hasta ahora, el almacenamiento no era una prioridad en la planificación de infraestructuras empresariales, pues su coste era modesto comparado con la computación y se consideraba un recurso básico donde solo se buscaba el menor precio por gigabyte. Pero hoy, un almacenamiento inadecuado perjudica el retorno de la inversión y afecta directamente los resultados económicos», comenta Stryker.
Inferencia y entrenamiento: arquitecturas de almacenamiento divergentes
La arquitectura de almacenamiento que sustenta actualmente los sistemas de IA proviene en gran medida de los flujos de trabajo centrados en el entrenamiento. Este proceso es secuencial y mayormente dominado por escrituras en bloques grandes a y desde almacenamiento masivo, con una estructura jerárquica que incluye memoria de alta velocidad en la GPU, NVMe rápido en servidores y almacenamiento masivo en red. Esta configuración resulta adecuada para entrenamiento, pero no para inferencia.
La inferencia es sensible a la latencia, orientada a operaciones finas y de acceso rápido, y cada vez más dependiente del estado persistente. Tanto la caché KV como los datos de recuperación implican patrones de acceso distintos pero requieren tiempos de respuesta ultrarrápidos y la capacidad de reutilizar información entre interacciones. Ni la memoria de alta velocidad de la GPU, limitada en capacidad y coste, ni el almacenamiento tradicional, diseñado para cargas menos activas, cumplen estas demandas.
“El principal desafío arquitectónico por resolver está en el nivel intermedio de la pila de memoria, donde componentes destinados originalmente a tareas distintas se ven forzados a adaptarse y esto crea problemas interesantes y oportunidades para la innovación”, sostiene Harthorn.
Una clara consecuencia de esta brecha es la recomputación: durante la inferencia, se debe procesar todo el contexto pertinente antes de generar cada token, y si el estado almacenado en caché no está accesible con rapidez, el sistema debe recalcularlo, lo que consume ciclos valiosos de GPU sin generar nuevo valor.
“Una porción significativa de los ciclos en GPU se destina a una etapa de precarga repetida. Esto equivale a gastar recursos en reproducir estados en lugar de producir resultados nuevos”, señala Harthorn. Esta reflexión lleva a priorizar métricas como el buen rendimiento útil (goodput), que mide tokens útiles por dólar invertido, en vez del rendimiento bruto.
El surgimiento de la capa de memoria contextual en IA
Frente a este panorama, está emergiendo un nivel de memoria dedicado, situado entre la memoria de GPU y el almacenamiento tradicional en red, pensado exclusivamente para almacenar y servir el contexto de inferencia. Esta capa se diferencia tanto de los dispositivos internos en servidores GPU (G3) como del almacenamiento en red (G4), y su función es devolver datos a los aceleradores con la máxima rapidez.
“Para quienes diseñen centros de datos desde finales de este año o principios del próximo, será imprescindible contemplar un almacenamiento no solo en dos niveles sino en tres, incluyendo esta memoria contextual que se convertirá en un componente permanente de la infraestructura”, comenta Stryker.
Esta aparición recuerda a la evolución de los sistemas de almacenamiento por objetos, que surgieron cuando la demanda superó las capacidades previas, dando lugar a nuevos estándares, acuerdos de nivel de servicio (SLA), modelos económicos y un ecosistema comercial consolidado.
Harthorn subraya que esta presión volumétrica está impulsando la formación espontánea de esta categoría, más allá de las hojas de ruta de proveedores individuales.
Para responsables de infraestructura, esto implica anticiparse e integrar plenamente este nuevo nivel, que permite reducir la dependencia de la DRAM, un recurso exponencialmente más caro y limitado en disponibilidad y capacidad térmica.
“La inversión se optimiza al priorizar esta capa SSD, como recomienda Nvidia para muchos casos prácticos, reduciendo los costes comparativos de desplegar memoria”, confirma Stryker.
Exigencias técnicas del almacenamiento para inferencia en IA
Participar efectivamente en la cadena de inferencia requiere que la tecnología SSD cumpla nuevos estándares. La latencia de cola, es decir, el peor desempeño registrado de un disco, debe ser predecible y estable, no solo rápida en promedio. Los sistemas de orquestación que asignan recursos GPU basados en tiempos de respuesta de almacenamiento no toleran demoras inesperadas de varios segundos. En esta etapa, la consistencia y la visibilidad del desempeño son más cruciales que el pico de rendimiento.
Además, la densidad cobra especial valor en centros de datos masivos, donde el consumo energético por petabyte es el factor limitante. La tecnología NAND por puerta flotante, empleada en productos Solidigm, se adapta especialmente bien a esta necesidad. También es indispensable la integración en red mediante NVMe over Fabrics, RDMA y, a futuro, compatibilidad con CXL, dadas las estrictas restricciones de latencia en pipelines activos.
“Los dispositivos deben garantizar características de rendimiento fiables y consistentes, y facilitar la observabilidad para quienes gestionan y coordinan estos sistemas, más allá de transferir grandes cantidades de datos rápidamente, que era el foco en entrenamiento”, argumenta Harthorn.
Estrategias para abordar la nueva capa de memoria en IA empresarial
Los estándares, primitivas de software y mejores prácticas que se están definiendo ahora marcarán la pauta en la infraestructura de inferencia durante muchos años. Solidigm participa activamente en estos procesos mediante organismos normalizadores, colaboraciones y publicaciones, aspectos clave dado que esta categoría aún está en sus inicios.
“La gran incógnita en los próximos años no es si se necesita más potencia de cálculo para IA, sino cómo aprovechar de manera más eficiente la que ya existe. Gran parte de esa mejora recae en esta nueva capa que se está desarrollando”, concluye Harthorn.