VibeThinker-3B: el pequeño gigante chino que sacude el mundo de la inteligencia artificial

Un modesto modelo de inteligencia artificial desarrollado por Sina Weibo desafía la lógica dominante al igualar o superar en varias pruebas la capacidad de gigantes como Google y OpenAI, generando un intenso debate sobre la validez de los benchmarks y el futuro del escalado en IA.

Un grupo de nueve investigadores de Sina Weibo, la compañía china famosa por su plataforma de microblogging, publicó discretamente un informe técnico de 14 páginas en arXiv que ha provocado un gran revuelo dentro de la comunidad de investigación en inteligencia artificial. Su afirmación principal es rotunda: un modelo de lenguaje con apenas 3.000 millones de parámetros puede igualar o superar el desempeño en razonamiento de los sistemas más avanzados de Google DeepMind, OpenAI, Anthropic y DeepSeek, cuyos modelos son cientos de veces más grandes.

El modelo, nombrado VibeThinker-3B, consiguió una puntuación de 94,3 en el examen matemático AIME 2026 (American Invitational Mathematics Examination), reconocido como uno de los concursos estandarizados de matemáticas más exigentes del mundo. Esta cifra lo coloca a la par del modelo DeepSeek V3.2, con 671.000 millones de parámetros, y por encima de Gemini 3 Pro de Google, que obtuvo un 91,7. Además, empleando una técnica llamada Claim-Level Reliability Assessment, la puntuación se eleva hasta 97,1, superando prácticamente a cualquier sistema registrado públicamente.

En las horas siguientes a la publicación, el artículo acumuló 62 votos positivos en la plataforma Hugging Face, la página del repositorio del modelo alcanzó 130 likes y su repositorio en GitHub superó las 685 estrellas. Sin embargo, la reacción en redes sociales fue desigual, predominando el escepticismo.

Patrocinado

Un usuario en X expresó: “¿Qué demonios está pasando en la IA? Un modelo de 3.000 millones de parámetros obtiene resultados en benchmarks de codificación comparables a Claude Opus 4.5… No sé si esto supone un gran avance o si los benchmarks están rotos”. Este debate refleja una tensión creciente entre avances científicos legítimos y la desconfianza sobre la fiabilidad y la manipulabilidad de las métricas de evaluación.

Resultados que desafían las leyes de escalado en IA

Los datos obtenidos por VibeThinker-3B son extraordinarios bajo cualquier criterio tradicional. En matemáticas lograron lo siguiente: 91,4 en AIME 2025, 94,3 en AIME 2026, 89,3 en el torneo HMMT 2025 (Harvard-MIT Mathematics Tournament), 93,8 en BruMO 2025 (Brown University Math Olympiad) y 76,4 en IMO-AnswerBench, una prueba exhaustiva con 400 problemas al nivel de las Olimpiadas Matemáticas Internacionales.

En programación, alcanzó un 80,2 % en Pass@1 en LiveCodeBench v6 y un 96,1 % de soluciones aceptadas en concursos semanales y bimensuales de LeetCode de abril a mayo de 2026. En tareas de seguimiento de instrucciones logró un 93,4 en IFEval.

Para poner en perspectiva la disparidad, DeepSeek V3.2 cuenta con 671.000 millones de parámetros, 224 veces más que VibeThinker-3B. Otros modelos como GLM-5 o Kimi K2.5 superan los 700.000 millones y el billón respectivamente, situándolo en una categoría accesible para ejecutarse en un ordenador doméstico corriente.

Los autores plantean esta gran diferencia como evidencia de una hipótesis teórica, a la que denominan “Hipótesis de Compresión y Cobertura Paramétrica”. Según esta, distintas capacidades de IA tienen relaciones muy diferentes con el tamaño del modelo. El razonamiento verificable, como en matemáticas o codificación, es “denso en parámetros”, pudiendo comprimirse en un núcleo compacto. En cambio, el conocimiento de dominio abierto demanda una cobertura amplia, por lo que requiere muchos más parámetros.

Reconocen que en tareas de conocimiento científico de nivel avanzado, como en GPQA-Diamond, VibeThinker-3B obtuvo un 70,2, muy inferior al 91,9 de Gemini 3 Pro o al 87,0 de Claude Opus 4.5, lo que confirma que el pequeño modelo no busca reemplazar a los grandes generalistas sino destacar en razonamientos verificables.

Un entrenamiento cuidadoso en cuatro fases

VibeThinker-3B parte del modelo base Qwen2.5-Coder-3B desarrollado por Alibaba. Su entrenamiento se basa en lo que llaman el «Principio Spectrum-to-Signal», una metodología de varias etapas que incluye:

  • Una primera fase de ajuste supervisado con aprendizaje gradual: comienza entrenando con datos variados (matemáticas, código, razonamiento STEM, diálogo y seguimiento de instrucciones) y luego se focaliza en retos complejos y prolongados.
  • Un segundo paso con aprendizaje por refuerzo multidominio mediante el algoritmo MGPO (MaxEnt-Guided Policy Optimization), que prioriza problemas en el límite actual de capacidad, evitando casos triviales o imposibles para el modelo.
  • Una optimización secundaria llamada “Long2Short Math RL” para reducir la verbosidad al favorecer soluciones cortas y correctas sin afectar la precisión.
  • Una tercera fase de destilación del conocimiento, extrayendo trayectorias de razonamiento de alta calidad para afinar el modelo mediante aprendizaje supervisado, priorizando ejemplos que el modelo aún no domina.
  • Una última fase de RL orientada a tareas de instrucciones usando validadores regulatorios y modelos de recompensa formativos.

Este proceso refleja un enfoque meticuloso y diferenciado, destacando la importancia de la calidad del entrenamiento sobre el mero tamaño del modelo.

El debate sobre utilidad real y benchmarks

Por cada entusiasmo surgió un crítico mordaz. La comunidad de IA, en 2026, está cada vez más cautelosa respecto a las afirmaciones basadas únicamente en benchmarks.

Algunos usuarios señalaron que muchas de estas pruebas no reflejan el trabajo real de codificación y que el modelo parecía incapaz de manejar herramientas populares entre desarrolladores, evidenciando una diferencia entre rendimiento en pruebas y habilidades prácticas.

También se apuntó que ciertos benchmarks utilizados, como DeepSWE, estaban ausentes, y que la posible contaminación de datos que contengan preguntas ya vistas por el modelo podría explicar estos resultados. Los autores, sin embargo, aseguran haber realizado un riguroso filtrado para evitar solapamientos en los conjuntos de evaluación y destacar la alta puntuación en concursos recientes de LeetCode como la mejor prueba de ausencia de filtraciones.

La disparidad entre resultados y aplicación práctica continúa siendo un reto común; algunos usuarios notaron que el modelo responde bien a preguntas iniciales, pero no mantiene coherencia en interacciones largas.

Impulsando una relectura del paradigma de escalado

Reconociendo las limitaciones, incluso los más críticos valoran el logro técnico de obtener tales resultados con un modelo tan reducido, lo que evidencia la rápida evolución del campo.

Esto pone en cuestión la doctrina predominante de que “más parámetros siempre significa mejor rendimiento”. Según la hipótesis comunicada, ciertas tareas se beneficiaron históricamente de modelos gigantescos, pero otras, especialmente aquellas con señales de verificación claras, pueden abordarse eficazmente con modelos mucho más pequeños si se aplican métodos avanzados de entrenamiento.

Esta idea abre la puerta a un futuro donde modelos compactos y especializados cohabiten con arquitecturas híbridas que combinen motores de razonamiento ligeros y sistemas grandes y detallados para el conocimiento factual. El resultado sería una democratización del acceso a IA avanzada, reduciendo los costos y los requerimientos de hardware.

Paradójicamente, esta investigación proviene de Sina Weibo, una empresa no conocida por su liderazgo en IA de vanguardia. Ya en noviembre de 2025 habían demostrado con VibeThinker-1.5B que un modelo pequeño podía superar a DeepSeek R1 en varios desafíos matemáticos a un costo de entrenamiento mucho menor.

El equipo es pequeño y sus desarrollos están disponibles bajo licencia MIT, con pesos y código abiertos en plataformas como Hugging Face y ModelScope, lo que facilita la participación e innovación comunitaria.

El impacto real más allá de los números

La trascendencia de VibeThinker-3B está en su capacidad de hacer replantear la estrategia industrial y académica sobre el diseño y tamaño de los modelos de IA, no solo en un benchmark sino en la forma en que concebimos el liderazgo tecnológico y su accesibilidad económica.

Si la Hipótesis de Compresión y Cobertura Paramétrica se confirma, podríamos asistir a un escenario donde motores de razonamiento pequeños y eficientes trabajen junto a modelos mucho más grandes y especializados en conocimiento, permitiendo avances relevantes con recursos mucho más reducidos.

Como resumió un investigador en redes sociales: “Estamos comenzando a separar el conocimiento del razonamiento. Un modelo pequeño con un buen post-entrenamiento puede rendir muy por encima de su tamaño en tareas con retroalimentación clara”. Otro usuario sugirió que este será el camino hacia agentes de IA rápidos, baratos y flexibles.

En definitiva, VibeThinker-3B ofrece mucho más que un buen resultado en las pruebas: ha encendido un debate crucial sobre si la industria de la IA ha invertido durante años en aumentar parámetros cuando la inteligencia real podría haberse contenido, con eficacia, en un ordenador portátil. El código y los pesos son públicos, y la prueba definitiva será si esta propuesta se traduce en aplicaciones útiles y prácticas en el mundo real.

Add a Comment

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Patrocinado