Durante años, los equipos de inteligencia artificial en las empresas han centrado sus esfuerzos en resolver aspectos como la capacidad de cómputo, asegurar la asignación de GPUs, negociar la disponibilidad en la nube y medir el rendimiento del entrenamiento a través de benchmarks. Sin embargo, existe una suposición implícita que ha venido demostrando ser falsa en producción: que la comunicación entre almacenamiento y cómputo será fluida y sin problemas.
En entornos reales, el tráfico introduce picos de latencia, fluctuaciones en la red (jitter) y degradación en los nodos, fenómenos que los benchmarks controlados no logran reproducir. Esta discrepancia provoca que las canalizaciones de datos funcionen eficientemente en laboratorio, pero se paralicen o ralenticen significativamente cuando se despliegan en producción. Como respuesta emergente, se está impulsando el concepto de entrega inteligente de datos para IA, que consiste en implementar controladores avanzados de entrega y seguridad de aplicaciones frente al almacenamiento, que actúan como puntos de control resilientes y seguros.
Según Hunter Smit, gerente senior de marketing de producto en F5, “el problema no está en la capacidad per se, sino en la entrega. Las empresas adquieren suficientes GPUs y almacenamiento, pero asumen que la ruta entre ellos funcionará sin inconvenientes. La realidad es que el tráfico de IA es impredecible, altamente concurrente y con patrones aleatorios de lectura que las redes tradicionales de almacenamiento no fueron diseñadas para manejar”.
El desfase entre benchmarks y el mundo real
Paul Pindell, arquitecto principal de soluciones en alianzas tecnológicas de F5, señala que la metodología habitual de benchmarking agrava el problema. “Estos tests suelen estar orientados a mostrar el mejor rendimiento posible o la máxima seguridad, pero raramente consideran escenarios realistas”, explica. Un ejemplo claro es la latencia que introduce el protocolo S3, conocida por degradar el rendimiento.
La mayoría de los entornos de benchmarking no simulan esas latencias, lo que implica que las métricas que usan las empresas para tomar decisiones de infraestructura se basan en condiciones ficticias, nunca replicadas en producción. Para validar esto, F5 y MinIO realizaron pruebas de rendimiento bajo condiciones de red degradada.
“Lo que más nos sorprendió fue la rápida caída en el rendimiento de S3 al introducir latencia”, comenta Pindell. “Incluso pequeñas latencias afectan considerablemente el rendimiento, y a medida que estas aumentan, como en conexiones de larga distancia, la degradación se vuelve crítica”.
Otro hallazgo importante fue que la latencia influye mucho más que el jitter en la pérdida de rendimiento, un dato que contradecía sus expectativas iniciales. En la práctica, esto significa que las implementaciones de almacenamiento S3 deben ser diseñadas pensando en condiciones reales de red degradada y no en supuestos ideales.
Consecuencias de rutas de datos frágiles
Tanu Mutreja, directora senior de gestión de producto en F5, subraya que el foco natural en la infraestructura de IA suele estar en las GPUs por su alto coste y visibilidad, pero recuerda que “en producción, las GPUs solo son tan valiosas como la ruta de datos que las alimenta”.
Esta ruta incluye almacenamiento, redes, bases de datos, seguridad y sistemas de orquestación, frecuentemente integrados con tecnología de distintos proveedores. Los usuarios no perciben esa complejidad; solo experimentan el resultado final.
Cuando la ruta de datos se degrada, las consecuencias son múltiples: la subutilización de GPUs es la más evidente, pero también se notan rendimientos inferiores en la inferencia, calidad deficiente de los resultados de IA, mayores costes por replicación innecesaria de datos y complicaciones operativas crecientes.
“A gran escala, la eficiencia en la ruta de datos se convierte en una palanca estratégica de negocio, no solo en una optimización técnica”, añade Mutreja. “Con una ruta bien diseñada, las GPUs mantienen productividad, las aplicaciones de IA se mantienen ágiles y fiables, las operaciones escalan con eficiencia y se maximiza el retorno de la inversión en IA”.
Los trabajos de IA son especialmente sensibles a estas fallas en comparación con otras aplicaciones empresariales tradicionales, como bases de datos o sistemas ERP, que pueden absorber retrasos con mecanismos de caché y buffers. En contraste, los procesos de IA son paralelos y masivos, por lo que incluso pequeñas latencias o cuellos de botella en el ancho de banda pueden afectar simultáneamente la utilización de GPUs, la eficiencia en el entrenamiento y, en última instancia, la experiencia del cliente.
El almacenamiento como punto de control estratégico
Durante décadas, el almacenamiento y el análisis se consideraron fases secuenciales en la arquitectura empresarial: primero se almacenaban los datos y luego se procesaban. Mutreja señala que esta visión ha quedado obsoleta para la IA.
“La ventaja competitiva ya no se mide solo por el volumen de datos, sino por su relevancia, trazabilidad, seguridad y entrega eficiente”, explica. “En la industria, desde NVIDIA hasta AWS y proveedores de almacenamiento empresarial, la tendencia es integrar inteligencia directamente en la infraestructura de datos, no agregarla encima”.
F5, en colaboración con MinIO, implementa esta estrategia al situar su plataforma BIG-IP dentro de la ruta de datos. Este sistema monitoriza continuamente la salud de los nodos de almacenamiento distribuidos de MinIO y dirige las solicitudes únicamente hacia los nodos operativos.
Esto cobra importancia cuando un nodo sufre degradación, algo esperado en clusters distribuidos. Sin una ruta inteligente, las peticiones que llegan a nodos dañados deben reintentarse, pudiendo caer en otros nodos también afectados y deteriorando el rendimiento general.
“F5 garantiza que el tráfico siempre se dirige hacia nodos saludables, o al menos los menos ocupados, para que el tráfico S3 se procese de la manera más eficiente posible”, asegura Pindell.
Gobernanza y control en entornos distribuidos
El desafío aumenta cuando las canalizaciones de IA se distribuyen en múltiples regiones, nubes o entornos edge.
“Al cruzar regiones y nubes, la preocupación principal deja de ser el rendimiento para enfocarse en el control”, destaca Smit. “Se debe operar bajo normativas distintas en cada jurisdicción y ahora la soberanía digital se convierte en un requisito de diseño. Dónde puede residir un dato, quién puede acceder y qué fronteras puede cruzar, todo esto determina la arquitectura antes de pensar siquiera en la velocidad”.
Esta situación impulsa una tendencia visible: las empresas empiezan a repatriar sus cargas de IA desde la nube pública a infraestructuras propias que controlan directamente. El modelo propuesto por Smit desacopla las aplicaciones de ubicaciones únicas de almacenamiento y coloca un punto de control unificado entre ellas que aplica políticas de forma consistente.
“La soberanía, la resiliencia y el coste dejan de ser compromisos que se gestionan región a región,” explica. “Se convierten en una capacidad operativa integrada”.
De la conexión directa a un punto de control gestionado
Para resolver estos problemas, las empresas deben dejar de tratar la ruta almacenamiento-cómputo como una conexión directa y comenzar a gestionarla como un punto de control avanzado, concluye Smit. Validaciones independientes del laboratorio SecureIQLab han confirmado que incorporar un ADC (controlador de entrega de aplicaciones) como BIG-IP garantiza resiliencia sin sacrificar el rendimiento.
“Colocar un proxy completo entre almacenamiento y computación convierte el camino en algo observable, programable y consciente de fallos, con redireccionamiento basado en salud, calidad de servicio y seguridad integrados”, detalla. “Este paso transforma la entrega de datos de una suposición a una disciplina de ingeniería, lo que mantiene alimentadas las GPUs incluso cuando las condiciones se degradan”.