Revolución en Inteligencia Artificial: Nueva técnica reduce 16 veces la entrada de datos en modelos de lenguaje sin perder precisión

Un equipo internacional de investigadores ha desarrollado un método innovador que permite comprimir el contexto de los modelos de lenguaje de gran tamaño (LLM) hasta 16 veces, acelerando su respuesta y disminuyendo el consumo de memoria sin sacrificar la calidad de los resultados.

Las ventanas de contexto en los modelos de lenguaje actuales se están convirtiendo en un cuello de botella crítico para la eficiencia computacional. A medida que un agente trabaja durante más tiempo, se acumulan tokens procedentes de documentos recuperados, rastros de razonamiento y el historial de conversación, lo que aumenta exponencialmente la memoria y el poder de procesamiento requeridos.

Muchos métodos hasta ahora intentaban mitigar este problema, pero sus soluciones a menudo reducían la precisión del modelo, exigían cargar el contexto completo antes de comprimirlo o generaban ahorros de memoria que no se traducían en una mejora real del rendimiento en infraestructuras estándar.

En este escenario, un equipo de investigadores procedentes de la Universidad de Nueva York, Columbia, Princeton, Maryland, Harvard y el Laboratorio Nacional Lawrence Livermore ha publicado recientemente un estudio que propone una novedosa solución. Presentan los Modelos de Lenguaje con Contexto Latente (LCLM, por sus siglas en inglés), una familia de modelos encoder-decoder que comprimen el contexto de entrada antes de que llegue al decodificador. Además, estos modelos están disponibles en código abierto a través de HuggingFace.

Patrocinado

Un salto cualitativo en la compresión de contexto

A diferencia de las técnicas de compresión de caché KV dominantes hasta ahora, que primero construyen la caché completa para después eliminar entradas, los LCLM comprimen la secuencia de tokens de entrada antes del prefijado del decodificador. Esto significa que los mayores niveles de compresión reducen directamente el coste computacional y de memoria en la parte del decodificador.

Según el estudio, una compresión 16 veces mayor permitió que la salida fuera 8,8 veces más rápida que el método tradicional de caché KV en el benchmark de contexto largo RULER.

Micah Goldblum, co-líder del proyecto y científico de Columbia University, explicó a VentureBeat que «estos crecientes contextos consumen memoria y potencia de cálculo, y se están convirtiendo en un obstáculo para los LLM. Nuestro objetivo fue entrenar modelos de lenguaje end-to-end que puedan manejar contextos muy extensos con eficiencia y precisión. Si logramos esto, el uso de estos modelos será más barato y rápido».

Capacidades y precisión comprobadas

Los LCLM permiten que los modelos procesen contextos mucho más largos sin la penalización de memoria o cálculo típicamente asociada, y manteniendo una precisión elevada, algo que la mayoría de métodos de compresión no logra sin comprometer resultados.

En el benchmark RULER, una compresión 4 veces mayor mantenía una precisión del 91,76%, comparado con el 94,41% sin compresión. Esto equivale a una caída menor de 3 puntos porcentuales al reducir el contexto a una cuarta parte de su tamaño inicial. En el caso de 16 veces de compresión, eliminando el 93,75% de los tokens de entrada, la precisión descendió al 75,06%, superando todas las técnicas de caché KV evaluadas bajo el mismo nivel de compresión.

Este avance también se evidenció con entradas más cortas. En problemas matemáticos del conjunto GSM8K, donde se comprime la indicación completa y no solo documentos recuperados, los LCLM superaron a todas las alternativas, independientemente del nivel de compresión.

Detalles técnicos del desarrollo

La arquitectura combina un codificador de 0,6 mil millones de parámetros con un decodificador de 4 mil millones. El codificador comprime bloques de tokens en secuencias más breves de incrustaciones latentes, que el decodificador procesa en lugar de los tokens originales. El entrenamiento abarcó más de 350 mil millones de tokens.

El proceso de entrenamiento integró tres tipos de datos:

  • Entrenamiento continuo con segmentos comprimidos y sin comprimir intercalados.

  • Ajuste supervisado para tareas de razonamiento y contextos largos.

  • Una tarea auxiliar de reconstrucción que garantiza la preservación de detalles finos en la compresión.

Esta combinación permitió superar el desafío habitual que enfrentan otros métodos: la dificultad de mantener el equilibrio entre precisión de reconstrucción y rendimiento general en tareas.

Además, una búsqueda de arquitectura determinó que escalar el decodificador tiene mayor peso que incrementar el tamaño del codificador.

Aplicación práctica e integración sencilla

Los LCLM no son solo una propuesta teórica, sino que están diseñados para adaptarse sin complicaciones a infraestructuras ya existentes. «Solo hace falta reemplazar el modelo LLM actual por un LCLM. Cada vez que se recuperen documentos para alimentar el contexto, basta con comprimirlos primero con el modelo», aclaró Goldblum.

El equipo también mostró cómo construir agentes capaces de descomprimir selectivamente solo la información útil, comparando este comportamiento con la manera en que un ser humano hace una lectura rápida antes de centrarse en detalles relevantes.

No obstante, advirtió que quienes quieran integrar LCLM en flujos que usan sistemas de recuperación mixtos (RAG) deberán ajustar sus métricas para garantizar que la compresión no degrade la calidad de la información recuperada.

Además, Goldblum reconoce que la compresión en línea de los rastros de razonamiento sigue siendo un desafío abierto, y que comprimir estos rastros de forma periódica durante su generación podría ser una solución futura, aún por probar.

Implicaciones para empresas y el futuro de la IA

Las ventanas de contexto crecen más rápido que la capacidad de las infraestructuras de inferencia, lo que genera una presión creciente en empresas que tienen que invertir para mantenerse al día. Según datos de la encuesta VB Pulse del primer trimestre de 2026, la intención de adoptar sistemas híbridos de recuperación se triplicó, pasando del 10,3% en enero al 33,3% en marzo, y la optimización de recuperación se posicionó como la prioridad principal de inversión con un 28,9%.

Para los equipos que valoran la implantación en producción, hay tres puntos clave a considerar:

  1. El coste de inferencia escala con la longitud del contexto. A un millón de tokens, los métodos estándar de caché KV se quedan sin memoria en una única GPU H200. Sin embargo, los LCLM con compresión 16x mantienen el uso de memoria dentro de límites operativos.

  2. La integración en pipelines RAG precisa ajustes. Los equipos deberán validar cómo la compresión impacta en sus métricas de calidad antes de desplegar.

  3. La compresión de rastros de razonamiento aún está sin resolver. La acumulación de contexto por estas trazas representa una problemática aparte, con posibles soluciones todavía en fase experimental.

Los modelos están accesibles en huggingface.co/latent-context y el código fuente en github.com/LeonLixyz/LCLM.

Goldblum concluye que «estas arquitecturas no solo permiten acceso a contextos mucho más extensos, sino que abren la puerta a métodos multiescala donde el modelo puede hojear enormes cantidades de texto o código rápidamente y luego concentrarse solo en unas pocas partes realmente relevantes».

Add a Comment

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Patrocinado