Hace aproximadamente un año, Google sorprendió en su conferencia para desarrolladores I/O con un modelo de difusión para generación de texto, pero desde entonces apenas había dado detalles sobre esta tecnología. Sin embargo, el pasado miércoles la compañía volvió a dar un paso adelante con el anuncio oficial de DiffusionGemma, un modelo experimental con 26.000 millones de parámetros que emplea la técnica de mezcla de expertos para crear texto cuatro veces más rápido que sus modelos Gemma anteriores.
La difusión es una técnica que se ha popularizado principalmente para la creación de imágenes, como es el caso de Stable Diffusion. En vez de generar texto palabra por palabra, los modelos de difusión, entre los que se incluyen DiffusionGemma y Mercury 2 de Inception Labs, generan bloques de palabras simultáneamente.
Al inicio, esos bloques pueden parecer incoherentes, pero con cada iteración el modelo elimina el “ruido” y va refinando el texto hasta obtener un resultado coherente y relevante. Este proceso es equivalente a cómo los modelos de difusión de imagen progresivamente afinan y completan imágenes durante su generación.

En cada ciclo, el modelo procesa en paralelo 256 tokens (unidades de texto), lo que le permite ser mucho más rápido en comparación con los modelos de lenguaje autoregresivos tradicionales que generan token por token. Además, todos los tokens se relacionan entre sí, lo que según Google beneficia aplicaciones que requieren edición en línea, relleno de código, análisis de secuencias de aminoácidos o manejo de gráficos matemáticos.

En cuanto a rendimiento, DiffusionGemma puede generar más de 1.000 tokens por segundo utilizando una única GPU Nvidia H100. Gracias a la técnica de mezcla de expertos, no es necesario cargar los 26.000 millones de parámetros completos en memoria; sólo se activan 3.800 millones durante la inferencia. Por este motivo, puede funcionar en GPUs con una memoria VRAM de tan solo 18GB.
No obstante, hay ciertos compromisos: en todas las pruebas de rendimiento, DiffusionGemma rinde por debajo de Gemma 4 26B A4B. Google reconoce esta limitación y señala que no existen impedimentos técnicos que impidan igualar el rendimiento de un modelo de lenguaje tradicional, pero el enfoque de esta herramienta es acelerar la generación de texto.
«Para aplicaciones que requieran la máxima calidad, recomendamos la implementación del modelo estándar Gemma 4», advierte Google en su comunicado.

Disponibilidad y soporte
DiffusionGemma ya está disponible públicamente a través de HuggingFace. También existen versiones optimizadas, como Unsloth y otras cuantificaciones, para quienes deseen ejecutarlo localmente mediante herramientas como llama.cpp y próximamente otras soluciones locales de inferencia.
Google ha colaborado además con Nvidia para optimizar el modelo en su hardware, incluyendo tarjetas gráficas de alta gama como las GeForce RTX 5090 y 4090, así como en estaciones especializadas Nvidia DGX Spark y DGX Station, accesibles para usuarios con recursos avanzados. También están disponibles Nvidia NIMs para facilitar la integración.
Este lanzamiento representa un avance significativo en la aplicación de técnicas de difusión para la generación de texto a gran velocidad, ofreciendo opciones eficientes para desarrolladores y empresas que busquen un equilibrio entre rapidez y calidad en sus modelos de lenguaje.