Investigadores desarrollan un modelo de lenguaje avanzado por solo 1.500 dólares

Entrenar un modelo de lenguaje de base (LLM) desde cero suele costar millones de dólares y requiere enormes cantidades de datos a escala internet, lo que hace que muchas empresas lo consideren inviable. Sin embargo, el equipo de Sapient ha creado un método mucho más asequible.

Para superar la necesidad de aumentar la escala de manera indiscriminada, los investigadores desarrollaron HRM-Text, una arquitectura que sustituye los Transformers tradicionales por un Modelo Recurrente Jerárquico (HRM) altamente eficiente en el uso de muestras. Este modelo, presentado inicialmente el año pasado, aúna capas estratégicas lentas con capas de ejecución rápidas, lo que permite centrar el entrenamiento en pares de instrucciones y respuestas, acercándose así a escenarios empresariales reales donde se busca una respuesta precisa para tareas específicas.

Con HRM-Text, consiguieron entrenar un modelo con mil millones de parámetros desde cero, utilizando una fracción menor de recursos y datos en comparación con los LLM convencionales. Los resultados fueron comparables o superiores a otros modelos mucho más grandes en benchmarks industriales clave.

Esto supone una revolución para la inteligencia artificial empresarial, ya que la preformación de modelos avanzados dejaría de ser exclusiva de gigantes tecnológicos con capacidad para invertir millones. Organizaciones de todo tipo podrían entrenar modelos de razonamiento potentes desde la base y combinarlos con bases de conocimiento externas, todo a un coste razonable.

El verdadero obstáculo en el entrenamiento

Cuando entrenamos un modelo de lenguaje grande, el objetivo no es que memorice literalmente el texto que encuentra en internet, sino que desarrolle una comprensión profunda del lenguaje, la lógica y el razonamiento humano. Actualmente, el método dominante es el de fuerza bruta: recopilar cantidades colosales de datos y entrenar con la predicción de la siguiente palabra trillones de veces, confiando en que el modelo aprenda así el mundo.

Esto implica un gasto enorme en computación, gran parte del cual se invierte en que el modelo memorice contenido, incluso cuando ya se dispone del texto en la fase de inferencia. Además, según Guan Wang, CEO de Sapient Intelligence, este enfoque genera tres problemas principales para las empresas: un alto coste de entrenamiento, infraestructura pesada y ciclos de experimentación muy lentos. La estrategia habitual de incrementar tamaño y datos está alcanzando rendimientos decrecientes, con más latencia, dependencia de proveedores y poca mejora real en el razonamiento.

Este escenario hace que adaptar modelos preexistentes mediante fine tuning no siempre sea la solución, ya que mantener capacidades generales requiere cantidades grandes de datos versátiles, lo que encarece y complica el proceso.

Wang señala que empresas como fondos de inversión, aseguradoras o bancos tienen datos muy sensibles y específicos —notas internas, reglas de cumplimiento, modelos de riesgo— que no pueden transferirse a modelos externos generalistas. Lo que necesitan es un núcleo compacto y especializado en razonamiento, capaz de entender reglas y números específicos y funcionar en un entorno controlado.

HRM-Text se centra exclusivamente en el cumplimiento de tareas y el razonamiento latente, permitiendo comenzar con modelos más pequeños y adaptarlos a dominios propietarios sin necesidad de grandes infraestructuras.

Arquitectura innovadora: HRM-Text

El Modelo Recurrente Jerárquico (HRM), introducido en 2025, supone un cambio radical respecto a los Transformers convencionales. El modelo separa el cálculo en dos capas: una lenta para la estrategia y otra rápida para la ejecución, con ciclos organizados para mantener un contexto semántico estable mientras realiza refinamientos iterativos locales.

Investigadores de Sapient detectaron que, aunque modelos recurrentes compartidos de parámetros pueden resolver puzzles lógicos simples, son inestables a gran escala con tareas de lenguaje natural. Para el lenguaje, que es complejo y abierto, HRM necesita ambas capas bien diferenciadas para funcionar correctamente.

El modelo original funcionaba bien con razonamiento simbólico controlado, pero encontraba inestabilidad matemática al enfrentarse a la diversidad del lenguaje humano debido a problemas como el estallido o desaparición del gradiente. Para solucionarlo, Sapient introdujo MagicNorm, una técnica de normalización para estabilizar las señales internas durante los ciclos recurrentes. Además, implementaron un proceso de calentamiento del entrenamiento que comienza con secuencias de razonamiento cortas y las amplía gradualmente.

También modificaron el objetivo de entrenamiento: en lugar de predecir la siguiente palabra, el modelo se recompensa solo al completar correctamente la tarea. Para ello, cambiaron los datos de entrenamiento por pares de instrucciones y respuestas, alejándose del texto en bruto.

Resultados destacables y eficiencia

El equipo entrenó un modelo HRM-Text de mil millones de parámetros con un conjunto muy pulido de 40.000 millones de tokens, exclusivamente con datos de instrucciones y respuestas. El entrenamiento duró apenas 1,9 días en un clúster con 16 GPUs, con un coste estimado en alrededor de 1.500 dólares. Esto es entre 100 y 900 veces menos datos y entre 96 y 432 veces menos capacidad computacional en comparación con modelos como Qwen, Gemma o Llama.

En pruebas de referencia, HRM-Text alcanzó un 60,7% en MMLU (una evaluación de conocimientos generales), un 84,5% en GSM8K (tareas matemáticas) y un 56,2% en MATH (matemáticas avanzadas), resultados competitivos con modelos de entre 2.000 y 7.000 millones de parámetros.

Un hallazgo clave es que HRM-Text logra un razonamiento avanzado sin necesidad de memorizar grandes volúmenes de información provenientes de la web. Esto se traduce en una gran ventaja para aplicaciones empresariales, pues permite usar modelos compactos que actúan como núcleo de razonamiento, apoyándose en sistemas externos para consultar datos específicos sin cargar la memoria del modelo.

Críticas que argumentan que entrenar solo con pares instrucción-respuesta no es comparable con modelos entrenados en texto crudo son rechazadas por Wang, quien afirma que los LLM modernos igualmente ven este tipo de datos durante su entrenamiento o alineación. Así, HRM-Text parte directamente del formato que usan los usuarios reales, que dan instrucciones y esperan respuestas específicas.

Para garantizar que el modelo no estuviera memorizando respuestas de los benchmarks, realizaron pruebas de contaminación exhaustivas. En el benchmark DROP, donde se detectó un leve indicio, HRM-Text logró igualmente un 81,1% en un conjunto limpio sin datos contaminados.

Perspectivas y uso empresarial

Sapient aclara que esta versión inicial de HRM-Text debe considerarse como un prototipo que demuestra las ventajas arquitectónicas del modelo, no como un sustituto listo para ChatGPT en todos los usos.

Para equipos de ingeniería de IA interesados en experimentar, el modelo está disponible con soporte en la biblioteca Transformers y se están desarrollando integraciones para vLLM y SGLang. Sin embargo, se requiere gestionar aspectos específicos como el diseño de modelos prefijados y la atención en conversaciones para asegurar una experiencia óptima.

Según Wang, la clave es que, al reducir el coste de entrenar modelos de razonamiento a unos 1.500 dólares, la inteligencia artificial deja de ser un problema solo de infraestructura y se convierte en una cuestión estratégica. Las corporaciones pasarán de preguntarse si pueden permitirse un modelo base a decidir cómo su modelo debe entender su negocio y para qué tipo de razonamiento optimizarse.

Investigadores desarrollan un modelo de lenguaje avanzado por solo 1.500 dólares

El verdadero obstáculo en el entrenamiento

Arquitectura innovadora: HRM-Text

Resultados destacables y eficiencia

Perspectivas y uso empresarial

Deja una respuesta Cancelar la respuesta

De interés

El CEO de Anthropic exige una regulación al estilo FAA para los modelos de IA más potentes

MassMutual revoluciona su estrategia de IA con contratos flexibles y aumentos del 30% en productividad

La saturación en la observabilidad está abrumando a los ingenieros

Google lanza DiffusionGemma: un modelo de generación de texto cuatro veces más rápido

Fable 5 genera opiniones divididas: usuarios valoran su rendimiento pero critican limitaciones y política de retención

El creador de Claude Code abandona la ingeniería de prompts para apostar por la ‘loop engineering’