Google lanza Gemma 4 12B: potencia casi igual que el modelo 26B y funciona en portátiles comunes

Google ha anunciado el lanzamiento de Gemma 4 12B, un modelo de inteligencia artificial diseñado para brindar capacidades avanzadas y multimodales en portátiles convencionales. Este nuevo desarrollo destaca por ser lo suficientemente pequeño para funcionar localmente en dispositivos con apenas 16 GB de VRAM o memoria unificada, acercando la alta potencia de cálculo a cualquier usuario sin necesidad de recursos en la nube.

Casi igual de potente que el Gemma 4 26B, pero con un tamaño reducido

El aspecto más sorprendente de este modelo presentado el pasado miércoles es que, según Google, alcanza un rendimiento prácticamente igual al de Gemma 4 26B, aunque con menos de la mitad de la huella de memoria. En varias pruebas comparativas, se observa que el modelo 12B se mantiene al nivel del 26B, incluso superándolo en tareas de DocVQA, que evalúan la capacidad del modelo para responder preguntas visuales sobre documentos.

Esta reducción de tamaño y consumo permite a casi cualquier usuario ejecutar flujos de trabajo complejos y soluciones basadas en inteligencia artificial avanzada sin necesidad de equipos de alta gama o conexión a internet. Antes, este tipo de rendimiento se encontraba reservado a las variantes más potentes, pero más pesadas, de la familia Gemma.

Recordemos que en abril Google presentó una familia de cuatro modelos Gemma 4, catalogados como los «modelos abiertos más inteligentes hasta la fecha». Aquella línea incluía dos modelos para ordenadores personales con 26B y 31B parámetros, y dos para dispositivos móviles y IoT, denominados E2B y E4B. El nuevo Gemma 4 12B se sitúa justo en un término medio, ofreciendo más potencia que los modelos para dispositivos ligeros y una mejor portabilidad que sus hermanos mayores de 26B y 31B.

Innovación clave: entrada nativa de audio

Más allá de su tamaño y potencia, otro avance destacado en Gemma 4 12B es su arquitectura unificada, que permite la entrada nativa de audio. Es el primer modelo de tamaño medio de Google con esta capacidad, eliminando la necesidad de codificadores separados para procesar imágenes y sonido antes de la interpretación por el modelo.

Esto significa que el modelo puede recibir las señales visuales y auditivas directamente en su núcleo de procesamiento, reduciendo la latencia y el uso de memoria típicos de la mayoría de modelos multimodales tradicionales.

Respecto al procesamiento de imágenes, Gemma 4 12B incorpora un módulo de embeddings en lugar de un encoder visual, lo que permite que el propio modelo realice el análisis visual. En cuanto al audio, la novedad es aún mayor, ya que no emplea ningún codificador específico; simplemente proyecta la señal de audio cruda al mismo espacio dimensional que los tokens de texto para que el modelo la interprete de forma integrada.

Recepción positiva entre desarrolladores

Desde su presentación, Gemma 4 12B ha cosechado buenas críticas en comunidades de desarrolladores como Reddit. En el foro r/LocalLLaMA, usuarios han descrito el modelo como «una de las propuestas más emocionantes en mucho tiempo». La arquitectura unificada y la capacidad para manejar audio sin encoders separados son especialmente valoradas, considerándolas ventajas importantes frente a otros modelos locales.

Aunque todavía no se ha podido probar ampliamente, la comunidad muestra entusiasmo ya que identifican múltiples casos de uso que podrían beneficiarse de esta tecnología si logra un desempeño consistente.

No obstante, algunos comentarios señalan posibles limitaciones en las capacidades de programación del modelo. En Hacker News, se ha observado que Gemma 4 12B podría no ser tan eficiente para tareas de codificación en comparación con modelos especializados como Qwen 3.6 o Nvidia Nemotron 3 Nano, que suelen ofrecer mejor desempeño en ese ámbito.

Sin embargo, también se apunta que, para la mayoría de aplicaciones habituales de un modelo local, Gemma 4 12B mantiene una ventaja notable, siendo versátil y adecuado para tareas diversas más allá de la programación.

¿El futuro de la IA es local?

El hecho de que un modelo tan potente pueda ejecutarse de forma local en portátiles convencionales tiene implicaciones importantes, especialmente en costes y privacidad. Los desarrolladores ya no dependerán exclusivamente de la nube para ejecutar procesos de inteligencia artificial, lo que puede suponer un ahorro sustancial y un mayor control sobre los datos y las consultas realizadas.

Como apuntan opiniones en Reddit, aunque la nube es práctica, el coste se acumula por token procesado y además la información viaja sistemas externos, mientras que ejecutar modelos como Gemma 4 12B localmente implica una configuración única, más privacidad y sin costes recurrentes.

Esta tendencia hacia la IA en dispositivos propios también está alineada con iniciativas anteriores de Google, que en septiembre lanzó Google AI Edge Gallery para promocionar el uso de inteligencia artificial directamente en los dispositivos, incentivando a los desarrolladores a crear aplicaciones que funcionen sin conexión y con gran eficiencia.

Al acercar un nivel de rendimiento cercano al modelo de 26B a ordenadores portátiles comunes, Google impulsa de manera clara la adopción de inteligencia artificial embarcada, y la comunidad de desarrolladores ya está preparada para aprovecharlo.

Google lanza Gemma 4 12B: potencia casi igual que el modelo 26B y funciona en portátiles comunes

Casi igual de potente que el Gemma 4 26B, pero con un tamaño reducido

Innovación clave: entrada nativa de audio

Recepción positiva entre desarrolladores

¿El futuro de la IA es local?

Deja una respuesta Cancelar la respuesta

De interés

Snowflake revoluciona el desarrollo empresarial con CoCo para agilizar a los desarrolladores

El gran desafío de los agentes autónomos: dominar las bases de datos

La inteligencia artificial agentica convierte a la plataforma de operaciones en la capa clave para las empresas

Microsoft se libera de OpenAI y lanza su propio ambicioso proyecto de superinteligencia artificial

Microsoft impulsa la producción masiva de agentes de IA en empresas con su nueva plataforma Microsoft IQ

La memoria compartida: el gran desafío para la inteligencia artificial en equipos de trabajo