Los modelos de lenguaje grande (LLMs) siguen enfrentando el problema de las alucinaciones, errores que limitan su aplicación práctica en entornos empresariales. La eliminación total de estas fallas ha supuesto un difícil equilibrio, ya que reducir los errores fácticos suele comprometer la capacidad del modelo para proporcionar respuestas útiles y precisas.
En un reciente estudio publicado por investigadores de Google, se presenta el concepto de «incertidumbre fiel», una técnica metacognitiva que sincroniza la respuesta de un modelo con la confianza interna que posee sobre dicha respuesta. Esta alineación permite que el modelo formule hipótesis con matices, utilizando expresiones como «mi mejor suposición es» en lugar de recurrir a una respuesta estrictamente binaria que se limita a «responder o abstenerse».
Esta conciencia metacognitiva se convierte en una capa de control fundamental para sistemas autónomos, permitiéndoles discernir cuándo su conocimiento interno es suficiente y cuándo es necesario recurrir a herramientas externas o APIs de búsqueda para subsanar deficiencias de información.
El impuesto a la utilidad por las estrategias actuales
Comprender por qué los LLMs generan alucinaciones implica distinguir dos capacidades esenciales: el hecho de que el modelo conozca datos y que sea consciente de ese conocimiento. Hasta ahora, la mejora de la factualidad se ha basado en nutrir a los modelos con una mayor cantidad de información mediante el aumento de su tamaño y el volumen de datos de entrenamiento.
No obstante, ampliar el conocimiento del modelo no garantiza que mejore su conciencia sobre los límites de ese conocimiento y sus propias limitaciones para identificar lo que desconoce.
Gal Yona, científico investigador de Google y coautor del estudio, explica que existen básicamente dos vías para mejorar la factualidad de los modelos: seguir añadiendo hechos o hacer que el modelo sea consciente de lo que realmente sabe. Sin embargo, como apunta Yona, «la capacidad del modelo es finita, mientras que el conocimiento disponible es prácticamente infinito».
Cuando los modelos alcanzan ese límite, la esperanza es que sepan reconocer qué no saben y simplemente se abstengan de responder en esos casos. Pero esto es especialmente complicado para los LLMs.
Según Yona, «la mayoría de los intentos prácticos para reducir las alucinaciones no logran implementarse porque, aunque disminuyen los errores, afectan negativamente a la utilidad del modelo, que termina negándose a contestar preguntas que sí conoce».
Esta dificultad para distinguir entre lo conocido y lo desconocido genera lo que los autores denominan «impuesto a la utilidad»: para garantizar cero errores, el modelo debe abstenerse ante cualquier duda, lo que obliga a desechar una gran cantidad de respuestas correctas. Por ejemplo, reducir un error base del 25 % a un objetivo estricto del 5 % puede obligar a desechar el 52 % de respuestas adecuadas, según el documento.
Este enfoque lleva a una disyuntiva entre confiabilidad y utilidad, y los desarrolladores empresariales suelen optar por priorizar la cobertura, lo que implica aceptar que el modelo puede generar alucinaciones con confianza.
Redefinir las alucinaciones como errores confiados
Para superar este problema, los investigadores sugieren dejar de considerar cualquier error factual como una alucinación. En cambio, proponen verlos como «errores confiados»: información incorrecta expresada con seguridad pero sin la debida cautela.
Este cambio permite romper la rígida dicotomía entre «responder o abstenerse» y abre la puerta a que el modelo exprese sus dudas y niveles de incertidumbre.
Con este enfoque, si el modelo comete un error pero lo acompaña de avisos como «no estoy completamente seguro, pero creo que…», no es una alucinación, sino una hipótesis ofrecida al usuario. Así, el sistema mantiene su utilidad al compartir conocimiento parcial o probable sin comprometer la confianza del usuario.
No obstante, si el asistente inteligente se apoya en constantes advertencias de incertidumbre, el usuario tendrá que verificar todo, lo que anula la ventaja de la inteligencia artificial.
Por ello, los investigadores proponen la implementación de la «incertidumbre fiel», que consiste en que la expresión lingüística de la duda esté en consonancia con la verdadera confianza estadística interna del modelo. Solo se deben introducir matices de incertidumbre cuando realmente se refleje información contradictoria o con baja probabilidad interna.
Este concepto forma parte de la metacognición: la capacidad de la IA para ser consciente de su propio grado de incertidumbre y actuar en consecuencia. Un paralelo sencillo sería la confianza que depositamos en un médico, no porque lo sepa todo, sino porque sabe distinguir entre un diagnóstico seguro y una hipótesis educada.
Impacto para la inteligencia artificial en el ámbito empresarial
Bajo esta perspectiva, los errores en los que el modelo está realmente seguro pero se equivoca son considerados «errores honestos». La ampliación del conocimiento y la incertidumbre fiel no compiten, sino que se complementan: la primera reduce la cantidad de errores honestos, y la segunda comunica con transparencia los límites actuales del conocimiento.
Este planteamiento tiene especial relevancia para las aplicaciones de inteligencia artificial autónoma o agente, donde parece que la necesidad de que el modelo sepa lo que no sabe disminuye al poder consultar bases de datos externas.
Sin embargo, el acceso a herramientas externas intensifica la importancia de la incertidumbre fiel. En sistemas agentes, la metacognición pasa a ser la capa central de control que coordina todo el sistema.
Las herramientas externas eliminan la necesidad de que el modelo almacene cada dato en sus parámetros, pero plantean el reto de decidir cuándo buscar información, cómo verificarla y cómo coordinar estos recursos.
Sin incertidumbre fiel, el agente estaría «volando a ciegas» y dependería de heurísticas estáticas o estructuras demasiado complejas, con consecuencias como búsquedas innecesarias o respuestas erróneas basadas en la memoria interna.
Yona señala que en la actualidad estas funciones son resueltas usando clasificadores o reglas predefinidas, pero son métodos «estáticos y frágiles». En cambio, emplear la incertidumbre intrínseca del modelo permite optimizar dinámicamente el uso de herramientas externas, activando una búsqueda solo cuando la confianza interna sea realmente baja.
Además, la incertidumbre fiel es crucial para evaluar los resultados obtenidos durante la búsqueda externa. Un sistema metacognitivo no aceptará pasivamente información de baja calidad o inesperada, sino que equilibrará estos datos con sus propios conocimientos, evitando aceptar ciegamente fuentes externas contradictorias.
El reto de enseñar a los modelos a expresar incertidumbre
Para lograr esta incertidumbre fiel, es necesario enseñar a los modelos a utilizar un lenguaje que refleje dudas. Esto generalmente se consigue mediante un aprendizaje supervisado específico (SFT), ya que los modelos preentrenados tienden a generar respuestas autoritativas.
Pero esta enseñanza plantea una paradoja de autorreforzamiento: la «expresión correcta» de incertidumbre varía dinámicamente según el conocimiento que el modelo tiene en un momento concreto de su entrenamiento.
Yona explica: «Si el modelo es entrenado para expresar ‘no sé X’ mientras en realidad conoce X, se le está enseñando a simular incertidumbre… Los datos de entrenamiento son estáticos, pero el objetivo es dinámico, y esta es la tensión fundamental que deben resolver los equipos».
Hacia una IA autoconsciente
Para las empresas que no pueden permitirse un costoso reentrenamiento, la ingeniería de instrucciones (prompting) es el método más accesible para mejorar el comportamiento metacognitivo. Herramientas como el proyecto de código abierto MetaFaith permiten experimentar con enfoques para incentivar la incertidumbre fiel en modelos disponibles comercialmente.
No obstante, Yona advierte que esta vía tiene limitaciones y que, a largo plazo, la industria necesitará recurrir a técnicas avanzadas de aprendizaje por refuerzo para integrar la metacognición profundamente durante el entrenamiento.
En el futuro, a medida que las compañías avancen hacia flujos de trabajo complejos con múltiples agentes inteligentes, la autoconsciencia será requisito fundamental para una autonomía fiable. Sin embargo, evaluar si un modelo posee realmente esta capacidad sigue siendo un desafío técnico enorme.
«¿Cómo valorar si un modelo detecta su estado interno real?», plantea Yona. «Incluso en humanos es difícil distinguir entre verdadera autorreflexión y un simple uso efectivo de proxies. Los modelos pueden aprender a imitar un estilo de incertidumbre sin realmente sentirla. Desarrollar métodos que diferencien estas situaciones es uno de los retos clave del sector».