Fable 5 frente a Opus 4.8: más allá de la hoja de características, una comparación real

Anthropic ha lanzado Fable 5, su nuevo modelo de inteligencia artificial, prometiendo capacidades superiores a Opus 4.8. Tras analizar ambos modelos, la diferencia en rendimiento y precisión es menor de lo esperado, aunque Fable destaca en análisis más profundos y detallados.

Esta semana, Anthropic presentó oficialmente Fable 5, el primer modelo dentro de su nueva gama Mythos, que promete ser el modelo Claude de mayor inteligencia accesible al público, y que se sitúa por encima de Opus 4.8 en capacidades. La expectación y el entusiasmo no se hicieron esperar.

La cuenta oficial de Claude en X llegó a afirmar que las «capacidades de Fable 5 superan las de cualquier modelo que hayamos puesto a disposición general». Además, Andrej Karpathy, excofundador de OpenAI y recientemente incorporado a Anthropic, calificó el lanzamiento como un avance que merecería un salto de versión significativa. Por su parte, Matt Shumer, fundador de OthersideAI y HyperWrite, sorprendió con una demostración creada con Fable 5, describiendo sus capacidades para construir mundos 3D como «una locura absoluta».

No obstante, la respuesta no fue unánime. El coste de uso de Fable 5 alcanza los 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida, exactamente el doble que Opus 4.8. Además, incluye sistemas de seguridad que redirigen ciertos tipos de consultas relacionadas con ciberseguridad, biología y química a Opus 4.8, que es menos potente.

Patrocinado

Un punto polémico salió a la luz al descubrirse en la extenso tarjeta del sistema —de 319 páginas— que Fable 5 degradaba silenciosamente sus respuestas en tareas de investigación avanzada en inteligencia artificial sin alertar al usuario, una práctica que causó descontento y llevó a que Anthropic retirara esta política en menos de 24 horas. Incluso Karpathy admitió que estas salvaguardas se activaron en exceso durante el lanzamiento.

Con ambos modelos respaldados por una fuerte maquinaria mediática, decidí comprobar por mí mismo cómo funcionan en la práctica comparando Fable 5 y Opus 4.8 a través de dos pruebas distintas: una de razonamiento y otra de programación práctica. Usé los mismos enunciados para ambos, que compartiré al final para quien desee replicar el experimento.

Las dos pruebas

La primera prueba estaba centrada en el razonamiento. Propuse a ambos modelos analizar una discusión técnica de larga duración presente en un issue de pandas sobre np.nan y pd.NA. Este debate gira en torno a si ambos conceptos representan valores «no existentes» de manera igual o distinta. A pesar de más de 150 comentarios y múltiples informes de errores a lo largo de seis años, aún no se ha alcanzado una solución definitiva. El requerimiento fue que ambos modelos leyeran toda la conversación, resumieran el desacuerdo, catalogaran las consecuencias y concluyeran con una recomendación concreta.

En la segunda prueba, centré la tarea en un proyecto real de programación. Cloné el repositorio de jsonpickle, una biblioteca de serialización de Python con 16 años de historia y unos 20 millones de descargas mensuales, creando dos entornos, uno para cada modelo. El reto consistía en leer el código completo, detectar código obsoleto o potenciales problemas de seguridad, proponer un plan de modernización priorizando impacto y riesgo, implementar los cambios más significativos y verificar que nada se rompía.

Respuestas similares con enfoques diferenciados

En el test de razonamiento, ambos modelos sorprendieron al distinguir tres posturas dentro del debate, cuando solo dos parecían evidentes a simple vista. Además, visualizaron el problema como una evolución a lo largo de seis años, no solo en un momento puntual, y concluyeron prácticamente con la misma recomendación: mantener NaN como una representación válida, tratarlo como valor faltante por defecto y permitir la exclusión mediante una palabra clave.

Las diferencias radicaron en el enfoque. Opus separó la discusión en dos preguntas distintas, aclarando conceptos y presentando la información de una forma directa y sencilla. Por otro lado, Fable 5 profundizó más en el análisis histórico, ofreciendo una explicación más nítida al identificar el estancamiento como una «consenso sin ratificación». Incluso detectó detalles que Opus pasó por alto, como la congelación de correcciones de errores aparentemente consensuadas por temor a posibles reversiones.

El coste en esta prueba fue parecido: Fable 5 empleó 4 minutos y 22 segundos con un coste de 2,55 dólares, mientras Opus 4.8 tardó 5 minutos y 44 segundos y costó 2,18 dólares.

Modernizando una biblioteca con dos décadas de historia

En la tarea de programación ambos adoptaron un método metódico, partiendo de una base sólida validada con 348 tests que pasaban antes de modificar nada. Detectaron dos errores importantes por unanimidad: uno relacionado con una excepción personalizada que escapaba al control habitual de errores y otro con un fallo en un módulo de extensión. Además, verificaron que sus arreglos funcionaban en pruebas prácticas más allá de la ejecución simple del conjunto de tests. No obstante, cada modelo priorizó de forma distinta algunos cambios menores, reflejando diferencias en su aproximación a los riesgos y beneficios.

En términos de costes y tiempos, las disparidades fueron más notables: Fable 5 tardó casi 12 minutos y medio y costó 12,19 dólares, mientras Opus 4.8 consumió cerca de 13 minutos pero con un coste mucho menor, de 5,80 dólares. Un dato llamativo fue que durante el proceso, Fable activó uno de sus filtros internos y la sesión se redirigió automáticamente a Opus 4.8 para completar aproximadamente un 15 % de la tarea.

Una brecha menor de lo que el marketing sugiere

¿Cómo es posible que ambos modelos hayan llegado a conclusiones tan similares? Probablemente porque, aunque Fable 5 supone una evolución, ambos están basados en una filosofía de formación semejante y comparten buena parte de sus datos de entrenamiento. Son productos hermanos creados por la misma empresa. Además, el código y problema elegido para la prueba es lo suficientemente pequeño y claro como para que cualquier análisis detallado coincida en la mayoría de hallazgos relevantes.

Considerando únicamente estas dos pruebas, la diferencia entre Fable 5 y Opus 4.8 es menor de lo esperado. Fable mostró un análisis algo más preciso y un diagnóstico histórico más profundo. Opus entregó respuestas igualmente correctas, con una estructura más clara y, en la tarea de programación, a menos de la mitad de coste.

Para desarrolladores independientes que realicen análisis o tareas puntuales, Opus ofrece prácticamente toda la utilidad a un precio mucho más asequible, especialmente considerando que Fable 5 no se ofrece actualmente en formato de suscripción. Presumo que la ventaja de Fable 5 puede manifestarse en proyectos a gran escala, con mayores exigencias de precisión analítica y donde cada pequeño ahorro en tiempo se multiplique.

Add a Comment

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Patrocinado