PixelRAG revoluciona la extracción de información y reduce costes en sistemas de IA hasta 10 veces

La mayoría de los sistemas empresariales actuales que utilizan RAG (Recuperación y Generación de Información) comienzan igual: un parser de texto transforma páginas web y documentos en texto plano para segmentarlos y organizarlos por índices. Sin embargo, este proceso de conversión termina por eliminar señales clave para la recuperación efectiva de datos y es responsable, según una investigación reciente, de la mayoría de las respuestas incorrectas generadas por estos sistemas.

Un equipo conjunto de investigadores de la Universidad de California en Berkeley, Princeton University, EPFL y Databricks ha presentado esta semana un innovador trabajo que introduce PixelRAG, un sistema que elimina por completo la conversión de páginas web a texto. En lugar de procesar el contenido como texto, PixelRAG toma capturas de pantalla de las páginas, indexa estas imágenes y luego alimenta los fragmentos recuperados directamente a un modelo de visión y lenguaje. Evaluado con 30 millones de fragmentos de capturas que cubren toda la Wikipedia, PixelRAG supera a los métodos tradicionales basados en texto en seis pruebas diferentes, mejorando la precisión hasta un 18,1% respecto a los modelos estándar.

El equipo investigador afirma que intentar mejorar los parsers es una solución ineficaz.

«Mejorar los parsers es un proceso interminable debido a que cada sitio web necesita un tratamiento específico», ha explicado Yichuan Wang, autor principal y estudiante de doctorado en UC Berkeley, a VentureBeat. «Nuestra intención era explorar si los recientes avances en modelos de visión y lenguaje permitían saltarse todo ese problema y construir un sistema de recuperación que funcione de manera generalizada, sin ingeniería específica por sitio.»

Los parsers de HTML deterioran las señales esenciales para la recuperación RAG

El objetivo de los investigadores fue diseñar una arquitectura limpia y directa de extremo a extremo.

«Las pipelines actuales para RAG en la web implican múltiples etapas hechas a mano, como renderizado, parsing, limpieza, segmentación, entre otras», explica Wang. «Cada etapa agrega posibles errores en cascada y abstracciones que se alejan cada vez más de la página original. Queríamos ver si era posible eliminar la mayor parte de esa complejidad y trabajar directamente con la página renderizada.»

Además, Wang puntualiza que el parsing siempre conlleva pérdida de información: imágenes, jerarquía visual, tipografía, énfasis como negritas, tablas y el diseño general se pierden o se convierten en aproximaciones textuales imperfectas.

«Por muy bueno que sea un parser, durante la conversión siempre se pierde información fundamental», asegura.

El estudio identifica tres causas principales por las que los sistemas RAG basados en texto fallan al recuperar respuestas correctas antes de la etapa de lectura. Estos datos se midieron en SimpleQA, un benchmark con 1.000 preguntas factuales de Wikipedia:

Pérdida por parser (36,6% de errores): La conversión de HTML a texto destruye la estructura del contenido, provocando que ningún fragmento textual del corpus contenga la respuesta.
Pérdida en el ranking (55,2% de errores): La respuesta está en el corpus pero queda relegada, superada por elementos como infoboxes ricos en palabras clave que dominan las primeras posiciones en el 75,9% de las consultas, mientras que los párrafos con la respuesta quedan en posiciones 20 o inferiores.
Pérdida en la lectura (8,2% de errores): El contenido correcto llega al lector, pero la estructura aplanada genera atribuciones erróneas.

¿Cómo funciona PixelRAG?

A diferencia de un modelo de lenguaje que sólo procesa texto, un modelo de visión y lenguaje (VLM) como el que utiliza PixelRAG es capaz de interpretar imágenes junto con texto. Esto le permite “leer” una página web renderizada como lo haría una persona, manteniendo intactos el diseño y la estructura. «Creemos que para muchas tareas de extracción de información estructurada, los modelos de visión y lenguaje modernos tienen una ventaja inherente al poder razonar conjuntamente sobre contenido y disposición, sin depender de una representación textual aplanada», señala Wang.

PixelRAG se basa en esta idea, sustituyendo la pipeline tradicional de parsing de texto por un sistema de cuatro fases que trabaja directamente con capturas renderizadas:

Renderizado: Cada página se procesa con Playwright, una biblioteca para automatización de navegadores, en un área de 875 píxeles de ancho y luego se divide en fragmentos verticales de 1024 píxeles de altura. Las 7 millones de páginas de Wikipedia generan unos 30 millones de fragmentos. Los recursos son almacenados en caché localmente y el proceso se realiza completamente offline.
Indexación: Cada fragmento se codifica en un vector de 2048 dimensiones usando Qwen3-VL-Embedding-2B y se almacena en un índice FAISS para la recuperación rápida. Este índice ocupa unos 120 GB en formato fp16 y permite actualizaciones incrementales sin necesidad de reconstruirlo por completo.
Entrenamiento: El modelo de recuperación se entrena con datos sintéticos generados a partir del almacén de datos, mediante técnicas de minería dinámica de negativos difíciles para filtrar falsos negativos. Utilizan LoRA, una técnica ligera de ajuste fino que modifica solo una pequeña parte de los pesos del modelo, aplicada tanto al núcleo del modelo de lenguaje como al codificador visual. El entrenamiento, con unas 40.000 parejas de datos, se completa en menos de tres horas en una única GPU H100.
Almacenamiento: Las capturas originales de Wikipedia ocupan 5,6 TB, pero con un sistema de renderizado bajo demanda, las capturas se eliminan tras la generación de sus vectores, minimizando el almacenamiento persistente. El índice vectorial ocupa unos 120 GB.

Resultados en seis benchmarks y ahorro de costes para agentes de IA

PixelRAG fue evaluado en seis benchmarks que abarcan preguntas factuales sobre Wikipedia, consultas basadas en tablas, preguntas multimodales y recuperación de noticias en tiempo real. En todos los casos superó a los sistemas RAG basados en texto, incluso en tareas en las que las respuestas podían encontrarse exclusivamente en el texto. En SimpleQA alcanzó un 78,8% de precisión frente al 71,6% del mejor parser basado en texto, mientras que en consultas estructuradas sobre tablas alcanzó un 48,8% frente al 42,5%. Para aprovechar al máximo PixelRAG es necesario utilizar modelos como Qwen3-VL-4B o superiores, dado que modelos más pequeños rinden más de 12,5 puntos porcentuales menos que la recuperación textual.

El mayor beneficio para las empresas radica en la reducción de costes. Durante pruebas de benchmark, un agente de IA con PixelRAG como backend de búsqueda procesó 3,6 millones de tokens de entrada frente a 37,5 millones con un sistema basado en texto, con un coste 2 a 4 veces inferior a otros métodos, incluyendo los ofrecidos por Google, y con mayor precisión. Además, la compresión de imágenes puede reducir aún más ese gasto en tokens hasta en un tercio.

El principal reto pendiente: la segmentación visual. Mientras los sistemas de RAG basados en texto han perfeccionado durante años la forma óptima de dividir documentos en unidades semánticas para la recuperación, PixelRAG segmenta la página en fragmentos de tamaño fijo, sin considerar límites de contenido. Esto significa que una tabla o párrafo puede cortarse a la mitad dentro de un fragmento sin sentido semántico.

“La comunidad de recuperación basada en texto ha estudiado intensamente las estrategias de segmentación, pero la recuperación visual ha recibido mucha menos atención”, afirma Wang. “Creemos que este es un área clave para la investigación futura.”

Implicaciones para el sector empresarial

La mejora en la calidad de recuperación que ofrece PixelRAG responde a una tendencia más amplia que ya se está extendiendo en el mercado. Datos recientes de VB Pulse muestran que la intención de adoptar sistemas híbridos de recuperación creció del 10,3% en enero a un 33,3% en marzo de 2026, convirtiéndose en la estrategia de mayor crecimiento dentro de las empresas.

Los propios investigadores de PixelRAG sugieren que el despliegue híbrido, que combine recuperación visual sobre sistemas existentes basados en texto, es la vía más accesible y práctica a corto plazo.

“Una solución práctica es utilizar PixelRAG como una capa complementaria que mejore los sistemas de recuperación textual ya implementados”, concluye Wang. “La recuperación híbrida, que combina búsqueda visual y textual, es sencilla y probablemente será la forma en que muchas implementaciones comerciales evolucionarán.”