¿Será Mythos el nuevo referente en detección de vulnerabilidades? El análisis de un desarrollador independiente

El último año ha estado marcado por los avances y controversias en torno a los modelos de inteligencia artificial para depuración y seguridad informática, especialmente con la llegada de Claude Fable 5 y Mythos 5 de Anthropic, que han generado debate tanto por sus capacidades como por sus desafíos.

Desde Austin, Texas, el desarrollador de software Joe Cooper, alias swelljoe, ha puesto a prueba Mythos para comprobar si realmente es capaz de detectar vulnerabilidades complejas, algo especialmente relevante en un contexto donde la ciberseguridad es crítica. Cooper se mostró escéptico sobre la capacidad del sistema para identificar fallos realmente difíciles de hallar y explotables en entornos reales.

Un reto inspirado en un clásico de internet

Inspirándose en la famosa serie de vídeos de YouTube Will It Blend? —en la que su creador intentaba triturar desde pollos enteros hasta iPhones para demostrar la potencia de sus batidoras—, Cooper bautizó su análisis como Will It Mythos?. Su objetivo era recoger fallos detectados específicamente por Mythos, usando la propia documentación de Anthropic, para construir un conjunto de pruebas y evaluar la eficacia del modelo en condiciones controladas y reales.

Para este experimento, Joe Cooper empleó la herramienta Nelson, desarrollada por él mismo para automatizar búsquedas de errores en proyectos. Nelson integra distintos modelos a través de APIs compatibles con Claude Code, Gemini CLI y OpenAI, generando un entorno de comparación para medir cómo cada modelo identifica las vulnerabilidades.

El punto clave de su prueba fue analizar versiones previas a la corrección de un fallo (commits) para verificar si un modelo avanzado como Opus es capaz de reconocer y comprender la vulnerabilidad cuando se le señala directamente, y si otros modelos, sin información previa, pueden detectarla y describirla con precisión.

Vulnerabilidades zero-day en sistemas operativos y navegadores

Anthropic afirmó en sus pruebas iniciales que Mythos Preview puede identificar y explotar vulnerabilidades zero-day en todos los principales sistemas operativos y navegadores web cuando así se le indica. Cooper se planteó comprobar hasta qué punto estas afirmaciones se sostienen en escenarios reales y multiarchivo —donde el reto es mucho mayor por la necesidad de contexto y entender la interacción entre múltiples ficheros de código.

Según Cooper, «los errores más complicados son aquellos que afectan a múltiples archivos. Los modelos pueden revisar todos los ficheros, pero muchas veces hay que comprender el contexto completo para identificar que un uso es inseguro. Esto plantea un desafío considerable, tanto para humanos como para la IA».

Admite que Mythos probablemente utiliza herramientas avanzadas, como debugueo o fuzz testing para aumentar la precisión. Sin embargo, su estudio se centra en evaluar la detección ciega sin ayuda externa.

¿Mythos marca la diferencia?

Los resultados de Cooper muestran que Mythos identificó cuatro vulnerabilidades que ningún otro modelo en la prueba pudo detectar, un dato que da credibilidad a la eficacia del sistema en detección avanzada de bugs. “Es probable que Mythos sea líder en capacidad bruta, diseñado para ‘mezclar’ una amplia variedad de fallos”, asegura.

Conor Sherman, CISO global de Sysdig, señala que aunque Mythos destaca por su potencial raw en la detección de varios tipos de bugs, “es crucial no depender únicamente de un único modelo para avanzar en ciberseguridad”. Destaca que modelos más sencillos y económicos pueden, con el apoyo adecuado, cubrir gran parte de las necesidades de detección y que la verdadera ventaja para los defensores radica en el contexto operativo y señales en tiempo real para actuar frente a ataques.

La necesidad de una evaluación independiente

Para Fabien Renaudineau, cofundador y CEO de Mozark, especialistas en testing sintético con IA, los agentes de prueba y depuración mejoran rápidamente y aportan un gran valor para acelerar la identificación y solución de potenciales fallos.

Sin embargo, Renaudineau advierte que la confiabilidad no puede basarse únicamente en las capacidades internas del agente, sino que su verificación debe realizarse de forma independiente y reproducible, analizando el desempeño bajo condiciones reales y no solo en ambientes controlados de desarrollo o benchmarking.

¿Qué deben valorar los desarrolladores DevSecOps?

Joe Cooper concluye que, aunque los resultados son prometedores, la respuesta definitiva sobre la capacidad de Mythos para encontrar fallos complejos sigue abierta: “El veredicto es un ‘quizá’ contundente. Seguiré ampliando pruebas y el corpus de bugs. Quizá, si Anthropic deja de destacar ciertos casos específicos, este proyecto evolucione hacia un benchmark genérico basado en CVE”.

En un entorno donde la comunidad de desarrolladores continúa analizando e interpretando las capacidades de estas herramientas, el trabajo independiente y transparente se vuelve más importante que nunca para comprender su verdadero alcance y limitaciones.