Apple revoluciona la inteligencia artificial local con modelos de 20.000 millones de parámetros fuera de la RAM

Durante años, el desarrollo de modelos de inteligencia artificial (IA) capaces de funcionar directamente en dispositivos ha sufrido un límite importante: la memoria RAM (DRAM). Esta limitación ha obligado a que los modelos que operan localmente tengan un tamaño reducido, con un número de parámetros muy inferior al que emplean los sistemas basados en servidores. Los arquitectos tecnológicos que valoraban cargas de trabajo complejas con IA tenían que elegir entre modelos potentes que dependían de la nube o modelos locales menos capaces.

Con la presentación de sus modelos fundacionales de tercera generación en la WWDC26, Apple ha anunciado un avance significativo: una arquitectura que desvincula el almacenamiento del conjunto de parámetros de la memoria DRAM, utilizando la memoria NAND flash como hogar permanente de esos datos. Esto permite la existencia de modelos de IA con 20.000 millones de parámetros, operando localmente y sin las restricciones anteriores.

Colaboración entre Apple y Google para una nueva familia de modelos

La familia AFM 3, creada en colaboración con Google, incluye cinco modelos divididos en dos para dispositivos locales y tres para servidores. Estos últimos funcionan en la nube privada de Apple, ejecutándose sobre GPUs Nvidia en Google Cloud y destinados a tareas de razonamiento complejo o para el uso con agentes inteligentes. En cambio, la arquitectura de los modelos locales es completamente propia de Apple.

El modelo AFM 3 Core Advanced es el más destacado en esta línea local, con 20.000 millones de parámetros guardados en memoria NAND flash, no en DRAM como tradicionalmente se hacía. Esta innovación resulta clave, pues la transferencia directa y continua entre flash y RAM sería demasiado lenta para funcionar bajo los estándares habituales.

Cómo funciona la arquitectura de Apple

Este nuevo diseño rompe con un problema recurrente en el desarrollo de IA locales, que podríamos llamar «la pared de la memoria». Como apuntó Awni Hannun, investigador de Anthropic y ex científico de Apple, introducir 20.000 millones de parámetros en memoria RAM con la precisión requerida no es factible con la tecnología actual ni bajo presupuestos razonables.

Para solucionar esto, Apple ha desarrollado un mecanismo por el cual un modelo pequeño evalúa cada consulta o prompt para decidir qué «expertos» – segmentos o subconjuntos del modelo– deben cargarse desde la memoria NAND a la RAM. Esta decisión se toma una sola vez por consulta, no por cada token generado, lo que evita la lentitud insalvable impuesta por la baja transferencia entre memorias.

En detalle, la arquitectura contempla tres aspectos fundamentales:

Almacenamiento íntegro en flash: El conjunto completo de 20.000 millones de parámetros permanece en memoria flash NAND, que actúa como residencia fija del modelo. La RAM funciona como memoria de trabajo para los expertos seleccionados necesarios para cada tarea específica.
Ruta única por consulta: La selección de expertos no se hace token a token (como en los modelos típicos MoE, Mixture of Experts), sino una sola vez al inicio de cada prompt. Posteriormente, toda la generación de texto se realiza con ese conjunto determinado de expertos cargados en RAM.
Escalabilidad según la complejidad: La cantidad de parámetros activos ajusta dinámicamente entre 1.000 millones y 4.000 millones, en función de la dificultad del trabajo, aprovechando el pool de 20.000 millones almacenados en flash.

Aspectos aún por aclarar

Aunque la publicación técnica de Apple detalla el enfoque del diseño de memoria y el proceso de activación parcial, quedan dudas sobre cuestiones prácticas clave para su implantación masiva.

Las herramientas de profilado actuales muestran tiempos de ejecución, pero no métricas cruciales como consumo energético, ancho de banda de memoria o gestión térmica, factores que determinan el rendimiento real en dispositivos móviles o portátiles. Marco Abis, desarrollador de Ziraph –una herramienta de profiling para IA local en silicio Apple–, ha destacado esta carencia en la información pública disponible.

Otro aspecto importante es la transparencia sobre cuándo una petición de IA local pasa a ejecutarse en la nube privada y cómo se registra o informa esto a desarrolladores o usuarios. Esta información es vital para empresas sujetas a regulaciones estrictas que deben controlar dónde y cómo se procesan sus datos y tareas. Actualmente, Apple no ha clarificado si esta gestión es visible o configurable.

Apple ha asegurado que un informe técnico completo, incluyendo benchmarks y detalles de uso, se publicará durante el verano, lo que arrojará más luz sobre estas cuestiones.

Implicaciones para el sector empresarial

Para los arquitectos tecnológicos y responsables de IT en industrias reguladas, este avance plantea nuevas decisiones estratégicas sobre la implementación de agentes de inteligencia artificial:

Superar el límite de la memoria RAM en IA local: Ya está disponible una opción local con 20.000 millones de parámetros, hasta ahora inédita, que permite ejecutar agentes complejos sin necesidad de conectividad constante con la nube. El reto pasa a ser la capacidad y características del hardware del dispositivo.
Delimitación privada/nube como decisión de arquitectura: Las tareas sencillas se procesan localmente, mientras que las complejas pueden derivarse al modelo Cloud Pro en la nube privada. Sin embargo, la falta de transparencia cuando se produce esta transferencia dificulta el cumplimiento normativo para algunas empresas.
Dependencia en Google Cloud para procesamientos en servidor: Aunque el entorno de ejecución en la nube está protegido por el acuerdo de privacidad de Private Cloud Compute de Apple, la infraestructura backend depende de Google Cloud y sus GPUs Nvidia.

El modelo AFM 3 Core Advanced abre nuevas oportunidades para la IA en dispositivos Apple, ofreciendo opciones de gran tamaño y complejidad inéditas hasta ahora. La viabilidad de su despliegue a gran escala queda pendiente de la publicación oficial de detalles técnicos próximamente.