Tecnología

Kimi K2.7-Code promete reducir un 30 % tokens de razonamiento pero expertos cuestionan sus benchmarks

Moonshot AI lanza K2.7-Code, una actualización de su modelo de código abierto que asegura mayor eficiencia y rendimiento, aunque desarrolladores independientes ponen bajo duda estas mejoras basándose en pruebas externas.

por

junio 13, 2026

La empresa Moonshot AI ha presentado esta semana Kimi K2.7-Code, la última versión de su familia de modelos K2 para generación de código, que promete una reducción del 30 % en el uso de tokens de razonamiento y mejoras de rendimiento de dos dígitos.

Este nuevo modelo mantiene la arquitectura de mezcla de expertos con un billón de parámetros, similar a su predecesor K2.6, y es compatible con una API similar a la de OpenAI, facilitando la integración para quienes ya utilizan versiones anteriores en sus sistemas de producción.

Cuando K2.6 fue lanzado en abril, consiguió posicionarse en lo más alto del ranking semanal de modelos de lenguaje grandes (LLM) de OpenRouter, una clasificación basada en decisiones reales de enrutamiento de API por parte de desarrolladores, no en puntuaciones de benchmark autoinformadas.

Novedades y características de K2.7-Code

K2.7-Code se distribuye bajo una licencia MIT modificada y sus pesos están disponibles en HuggingFace. Puede ser implementado mediante vLLM o SGLang. Funciona únicamente en modo de razonamiento y no permite ajustar la temperatura, la cual está fijada en 1.0, limitando la capacidad de modificar la determinismo de las salidas.

La principal innovación frente a K2.6 radica en cómo genera código de bajo nivel. Mientras la anterior versión creaba implementaciones utilizando librerías existentes y frameworks establecidos, K2.7-Code genera su propio código directamente. Moonshot AI asegura que este método mejora la generalización y confiabilidad en lenguajes como Rust, Go y Python, abarcando tareas desde desarrollo frontend hasta DevOps y optimización de rendimiento.

En cuanto a resultados, la compañía declara aumentos de rendimiento del 21,8 % en su benchmark propietario Kimi Code Bench v2, un 11 % en Program Bench y un 31,5 % en MLS Bench Lite. Sin embargo, estos benchmarks no son independientes. Por ahora, K2.7-Code no ha sido evaluado en DeepSWE, un benchmark externo que arroja una amplitud de puntuaciones mucho mayor y es considerado más riguroso para la comparación de modelos en tareas de generación de código.

Críticas y dudas desde la comunidad

Fuera de los tests internos de Moonshot, el consenso no es tan positivo. Elliot Arledge, investigador independiente, realizó pruebas en KernelBench-Hard, un benchmark público centrado en la optimización de kernels GPU, y publicó sus resultados en kernelbench.com.

Según Arledge, «K2.7 es más transparente pero no demuestra ser más capaz». En cinco de seis retos, K2.7-Code produjo kernels Triton escritos por el propio modelo, a diferencia de K2.6 que empleaba envoltorios a librerías externas. No obstante, dos de estos kernels contenían errores propios del modelo, haciendo que el puntaje de rendimiento cayese de 0,222 a 0,157 respecto a K2.6.

Para comparar, mencionó que Claude Fable 5 supera con creces los benchmarks en todas las pruebas donde no falla de forma verificable.

Otro desarrollador, Sugumaran Balasubramaniyan, creador de un sistema de enrutamiento de tareas para la plataforma Hermes Agent basado en DeepSWE, expresó sus reservas sobre los benchmarks usados por Moonshot AI, señalando que «todos los modelos mejoran en su propio conjunto de pruebas» y pidió a Moonshot que sometiera K2.7-Code a DeepSWE para validar las afirmaciones.

Balasubramaniyan también comentó que ajustar el benchmark para su sistema le llevó 13 rondas de revisión y afirmó que consideraría utilizar K2.7-Code si los resultados independientes confirman las mejoras anunciadas.

Implicaciones para empresas y usuarios

El ahorro del 30 % en tokens utilizados durante el razonamiento puede traducirse en una reducción significativa de costes para equipos que emplean K2.6 en producción, dado que K2.7-Code puede incorporarse directamente mediante la API compatible sin necesidad de cambiar la arquitectura existente.

No obstante, la efectividad real de esta optimización dependerá de la naturaleza concreta de las tareas y flujos de trabajo empleados por cada equipo. Por ello, la recomendación es probar el nuevo modelo con sus propias cargas de trabajo antes de realizar un cambio definitivo o ajustar el enrutamiento entre versiones.

En resumen, aunque Kimi K2.7-Code promete mayor eficiencia y mejor rendimiento en un entorno controlado, la comunidad técnica recomienda cautela y validación independiente antes de considerar una actualización total en entornos empresariales sensibles.