Tecnología

Google presenta DiffusionGemma: generación de texto 4 veces más rápida con un modelo de difusión revolucionario

Google lanza DiffusionGemma, un modelo experimental de generación de texto que utiliza difusión para producir bloques de 256 tokens en paralelo, acelerando la producción hasta seis veces en GPUs de última generación, aunque con una calidad inferior a la versión estándar de Gemma 4.

por

junio 12, 2026

Los generadores de imágenes basados en inteligencia artificial, como Stable Diffusion, no crean imágenes pixel a pixel de izquierda a derecha. En lugar de ello, parten de ruido aleatorio e iteran refinando toda la imagen simultáneamente hasta lograr un resultado coherente, en un proceso conocido como difusión. Sin embargo, trasladar esta técnica a la generación de texto a gran escala había sido un desafío durante años.

Los modelos de lenguaje convencionales funcionan como una máquina de escribir: generan un token tras otro en secuencia, sin posibilidad de corregir salidas previas. Este método es eficiente en entornos en la nube con altos volúmenes de peticiones que mantienen saturadas las GPUs, pero en situaciones con pocas solicitudes o donde se ejecuta localmente, el hardware está subutilizado la mayor parte del tiempo.

Ante esta limitación, Google ha presentado esta semana DiffusionGemma, un modelo de código abierto que explora la generación de texto mediante difusión a escala productiva. Basado en la arquitectura Gemma 4 y licenciado bajo Apache 2.0, es el primer modelo de lenguaje por difusión soportado nativamente en la plataforma de inferencia vLLM. A diferencia de los modelos autoregresivos, genera de forma paralela un bloque completo de 256 tokens, con cada posición atendiendo a todas las demás simultáneamente. Según Google, DiffusionGemma puede producir texto hasta cuatro veces más rápido que modelos estándar en GPUs actuales, alcanzando 1.008 tokens por segundo en una Nvidia H100 y 1.288 tokens por segundo en la nueva H200, cifras que equivalen a seis veces la eficiencia de bases autoregresivas, según benchmarks publicados por vLLM.

No obstante, Google ha sido transparente respecto a las limitaciones del modelo; en su post oficial reconocen que la calidad de salida de DiffusionGemma es inferior a la del Gemma 4 estándar y recomiendan este último para aplicaciones donde la calidad sea crítica.

Funcionamiento de DiffusionGemma

Este modelo no genera texto en orden secuencial. Comienza con un bloque de 256 tokens aleatorios que actúan como un lienzo en blanco. Luego realiza múltiples iteraciones en las que evalúa y refina simultáneamente todas las posiciones. En cada pasada, bloquea los tokens en los que confía y vuelve a aleatorizar y reconsiderar las posiciones con baja confianza, usando la información previa para mejorar la siguiente ronda. Este proceso de refinamiento progresivo termina cuando la mayoría de posiciones están estabilizadas.

Esta arquitectura aporta dos propiedades clave:

Autocorrección: Los modelos autoregresivos están atados a errores previos porque cada token influye en los siguientes. DiffusionGemma puede identificar posiciones con baja confianza y corregirlas en iteraciones posteriores.
Contexto bidireccional: Cada token tiene en cuenta simultáneamente a todos los demás dentro del bloque, incluso aquellos que vienen después, lo que mejora tareas con restricciones complejas donde la generación estrictamente de izquierda a derecha falla.

Google ilustró estas ventajas con una versión ajustada para resolver Sudokus. Mientras que el modelo base no solucionaba ningún tablero, tras el ajuste alcanzó un 80% de éxito y redujo la cantidad de pasos de refinamiento de 48 a 12, gracias a su capacidad de autocorrección y finalización anticipada.

Detalles técnicos y construcción

DiffusionGemma se sostiene sobre un modelo Mixture of Experts (MoE) con 26.000 millones de parámetros, aunque activa solo 3.800 millones durante la inferencia para optimizar recursos. En su versión cuantificada, puede ejecutarse con 18 GB de memoria VRAM, compatible con tarjetas gráficas de consumo como Nvidia RTX 4090 y 5090. Además, Google y Nvidia han colaborado para optimizar su rendimiento en servidores empresariales Hopper y Blackwell mediante kernels NVFP4.

La integración en vLLM requirió innovaciones específicas, ya que DiffusionGemma alterna entre atención causal y bidireccional durante la lectura de prompts, refinamiento del lienzo y bloqueo de tokens, a diferencia del modelo estándar que mantiene un solo tipo de atención. Para ello, se modificaron los backends Triton y FlashAttention 4 para permitir cambiar los esquemas de atención en cada petición, reutilizando la ruta de decodificación especulativa para el ciclo de refinamiento.

También se desarrolló la interfaz ModelState, que permitirá incorporar futuros modelos de difusión en vLLM.

Áreas de aplicación y limitaciones

El aceleramiento de DiffusionGemma es significativo pero depende del contexto de uso. Según los benchmarks, a batch 1 en una H100 se logra aproximadamente cinco veces la velocidad de un modelo autoregresivo típico, y seis veces en una H200. Estas cifras representan condiciones ideales, con hardware dedicado y cuantización FP8.

Ventajas: Se destaca en inferencia local, aplicaciones con un solo usuario o baja concurrencia, donde la GPU suele estar infrautilizada y el ancho de banda de memoria se convierte en un cuello de botella. El método paralelo de generación aprovecha estos recursos ociosos.

Inconvenientes: En servicios en la nube con cientos de peticiones simultáneas, donde los modelos autoregresivos ya saturan los recursos, la generación paralela ofrece retornos decrecientes.

En cuanto a la calidad, el investigador Guilherme O’Tina puntualizó en X que la diferencia radica en que los artefactos locales producidos por DiffusionGemma y las alucinaciones típicas de modelos autoregresivos son problemas distintos, decidiendo en qué escenarios el modelo resulta verdaderamente ventajoso.

Comparativas con enfoques existentes

Modelos de difusión para texto existen desde hace años, aunque en escalas menores. Por ejemplo, Inception Labs aplicó un enfoque similar para generación de código en 2025 con su Mercury Coder. Lo que aporta DiffusionGemma es su salto de escala –26 mil millones de parámetros en MoE–, soporte nativo en vLLM y orientación para tareas generales con ajuste por instrucciones.

Otro método parecido es la decodificación especulativa, que combina un modelo pequeño para predecir varios tokens adelante con validación por el modelo objetivo, manteniendo la arquitectura autoregresiva intacta. Andrew Kuncevich, investigador en IA, destaca que DiffusionGemma no solo predice tokens futuros, sino que crea un lienzo completo de 256 tokens lleno de ruido y lo limpia repetidamente en paralelo, constituyendo un nuevo paradigma de generación.

El precio a pagar frente a Gemma 4 estándar es una menor calidad de texto en general, especialmente en generación abierta, aunque para tareas con restricciones estructuradas, como completar código o generación de plantillas, su arquitectura gana ventaja, como demuestran los resultados en la resolución de Sudokus.

Implicaciones para empresas

DiffusionGemma se puede desplegar fácilmente a través de un endpoint compatible con OpenAI en vLLM, sin necesidad de modificar pipelines específicos para difusión.

Este lanzamiento no implica una actualización universal, pero amplía las opciones para equipos que realizan inferencia local o con baja concurrencia, pues hasta ahora acelerar la generación implicaba reducir tamaño y calidad. Ahora existe una tercera vía que mantiene la cantidad de parámetros y permite ejecutarse en hardware accesible con soporte inmediato.

Además, el soporte para atención bidireccional abre la puerta a evaluar este modelo en tareas con generación condicionada al contexto futuro, como infilling de código o datos estructurados.

Google admite la existencia de compromisos en la calidad, pero para quienes trabajan con GPUs dedicadas localmente, DiffusionGemma representa una opción prometedora para probar y adaptar.