Claude Fable 5 de Anthropic fue hackeado antes de 48 horas de su lanzamiento

Cada fragmento superaba los controles de forma independiente

La técnica de Pliny dividía preguntas riesgosas en partes inofensivas que se recomponían después de pasar los filtros.

Menos de dos días después de que Anthropic presentara Claude Fable 5 como su modelo de inteligencia artificial más seguro, un investigador conocido como Pliny the Liberator demostró que sus barreras podían ser sorteadas con técnicas accesibles para cualquier persona con conocimiento técnico moderado. El incidente no es solo una anécdota sobre una vulnerabilidad técnica: es un recordatorio de que la promesa de seguridad absoluta en sistemas complejos choca, una y otra vez, con la ingeniosidad humana. La pregunta que queda suspendida no es si los modelos pueden ser vulnerados, sino qué significa construir confianza en tecnologías que aún no han aprendido a guardar sus propios secretos.

Anthropic lanzó Claude Fable 5 con clasificadores avanzados y un sistema de redirección automática hacia versiones especializadas, prometiendo una capa de seguridad sin precedentes.
En menos de 48 horas, Pliny the Liberator publicó en X que había eludido todos esos mecanismos usando caracteres Unicode, marcos narrativos y una técnica de fragmentación de preguntas que el sistema no supo detectar.
La técnica más efectiva —dividir una solicitud riesgosa en fragmentos aparentemente inocuos que se recomponían en el backend— funcionó con consistencia, exponiendo una brecha estructural en el diseño de los filtros.
Pliny, quien administra una comunidad de más de 20.000 investigadores de jailbreak y ha colaborado con OpenAI, argumenta que su trabajo busca exponer riesgos antes de que actores maliciosos los exploten.
El incidente reabre el debate sobre si las barreras de seguridad en IA avanzada son genuinamente efectivas o si los investigadores siempre llevarán ventaja sobre las defensas de las empresas.

Anthropic presentó Claude Fable 5 como su apuesta más ambiciosa en materia de seguridad: clasificadores capaces de detectar consultas sobre ciberseguridad, química y biología, y un mecanismo que redirigía automáticamente las solicitudes riesgosas hacia una versión especializada del modelo. Las promesas eran claras. La realidad llegó antes de lo esperado.

Menos de 48 horas después del lanzamiento, el investigador conocido como Pliny the Liberator anunció en X que había vulnerado el sistema. No recurrió a herramientas especializadas ni a acceso privilegiado. Utilizó caracteres Unicode, marcos narrativos y, sobre todo, una técnica de descomposición: dividir una pregunta sensible en fragmentos aparentemente inofensivos que superaban los filtros por separado y se recomponían para obtener la respuesta restringida. El método funcionó con consistencia.

Pliny no es un nombre nuevo en la industria. Lleva años descubriendo vulnerabilidades en sistemas como ChatGPT, Grok y versiones anteriores de Claude, y comenzó a hacer públicas sus técnicas después de que varias empresas ignoraran sus advertencias privadas. Hoy administra una comunidad en Discord con más de 20.000 miembros y ha colaborado con OpenAI en tareas de seguridad. Su postura es que exponer estas fallas antes de que lleguen a manos maliciosas es un servicio, no una amenaza.

El caso deja preguntas incómodas sobre la mesa. Si uno de los modelos más protegidos de Anthropic pudo ser sorteado en menos de dos días, la industria deberá responder con honestidad hasta dónde llegan realmente sus defensas —y qué significa desplegar estas herramientas en una sociedad que aún no ha terminado de comprenderlas.

Anthropic lanzó Claude Fable 5 como su modelo de inteligencia artificial más seguro hasta la fecha. La compañía había invertido recursos significativos en sistemas de protección sofisticados: clasificadores capaces de detectar solicitudes sobre ciberseguridad, química y biología, junto con mecanismos para bloquear intentos de extracción del conocimiento interno del modelo. Cuando el sistema identificaba una consulta considerada riesgosa, la redirigía automáticamente hacia Claude Opus 4.8, una versión especializada en gestionar preguntas sensibles. Las promesas eran claras. La realidad fue diferente.

Menos de 48 horas después del lanzamiento, un investigador conocido en la comunidad de inteligencia artificial como Pliny the Liberator publicó en la red social X que había vulnerado las barreras de seguridad del sistema. No se trataba de un ataque sofisticado que requiriera acceso privilegiado o herramientas especializadas. Pliny había logrado "liberar" a Claude Fable 5 usando una combinación de técnicas de jailbreak que cualquier persona con conocimiento técnico moderado podría replicar: caracteres Unicode y homoglifos, marcos narrativos y académicos, técnicas de descomposición y recomposición de peticiones, y una versión modificada de Claude Opus 4.8.

La estrategia más efectiva fue la denominada "descomposición y recomposición en el backend". En lugar de formular directamente una solicitud que pudiera activar las alarmas del sistema, Pliny dividía las preguntas en varios fragmentos aparentemente inofensivos. Cada parte superaba los controles de forma independiente. Posteriormente, eran reunidos para reconstruir la petición original. El resultado fue que el modelo respondía preguntas que en teoría debían permanecer restringidas. El método funcionó con consistencia.

Pliny the Liberator no es un nombre desconocido en la industria. Durante años se ha dedicado a descubrir vulnerabilidades en sistemas como ChatGPT, Grok y versiones anteriores de Claude. Según reportes, comenzó a compartir públicamente sus técnicas después de que varias empresas ignoraran las advertencias privadas que les había enviado sobre diferentes fallos. Actualmente administra una comunidad en Discord con más de 20.000 miembros donde se desarrollan colectivamente nuevos métodos de jailbreak. Su trabajo ha contado con apoyo financiero del inversor Marc Andreessen y ha colaborado con OpenAI en tareas relacionadas con el fortalecimiento de sistemas de seguridad.

Pliny sostiene que su intención no es provocar daños, sino demostrar que los riesgos existen y que deben ser comprendidos antes de que sean explotados por actores maliciosos. Entre sus actividades también figura la extracción de los llamados prompts de sistema, las instrucciones ocultas que determinan cómo se comporta un modelo de inteligencia artificial. Defiende que a medida que estas herramientas adquieren un papel más importante en la sociedad, los usuarios tienen derecho a conocer los principios que rigen sus respuestas.

El caso de Claude Fable 5 plantea preguntas incómodas para la industria. Si uno de los modelos que Anthropic presentó como más seguros pudo ser vulnerado en menos de dos días, expertos y desarrolladores deberán evaluar hasta qué punto las actuales barreras son capaces de resistir frente a técnicas cada vez más sofisticadas. El incidente reabre un debate que no tiene respuestas fáciles: ¿es posible crear un sistema de seguridad verdaderamente impenetrable, o los investigadores siempre estarán un paso adelante de las defensas? La respuesta que la industria dé a esta pregunta determinará cómo se desarrollan y despliegan estos modelos en los próximos años.

Citas Notables

Su intención no es provocar daños, sino demostrar que los riesgos existen y que deben ser comprendidos antes de que sean explotados por actores maliciosos

— Posición de Pliny the Liberator sobre sus investigaciones de seguridad

A medida que estas herramientas adquieren un papel más importante en la sociedad, los usuarios tienen derecho a conocer los principios que rigen sus respuestas

— Argumento de Pliny sobre la transparencia en sistemas de IA

La Conversación del Hearth Otra perspectiva de la historia

Inventor

¿Por qué Anthropic creyó que Claude Fable 5 sería diferente? ¿Qué los hizo pensar que esta vez funcionaría?

Model

Invirtieron en sistemas más sofisticados: clasificadores especializados, redirección automática de consultas riesgosas. Pero la sofisticación no es lo mismo que la impenetrabilidad. Cada barrera nueva genera nuevas formas de eludirla.

Inventor

¿Y Pliny simplemente... lo hizo? ¿Sin acceso especial, sin herramientas secretas?

Model

Exactamente. Usó técnicas que están documentadas, conocidas. Lo ingenioso fue la combinación: fragmentar preguntas en partes inofensivas, dejarlas pasar por separado, recomponerlas después. Es elegante en su simplicidad.

Inventor

¿Crees que Pliny es un villano o un héroe aquí?

Model

Esa es la pregunta que divide a la industria. Él diría que es un canario en la mina. Si no lo hace él, lo hará alguien con intenciones menos transparentes. Anthropic probablemente lo ve diferente.

Inventor

¿Qué cambia ahora? ¿Cómo se defiende Anthropic de esto?

Model

Tendrán que rediseñar. Pero cada rediseño genera nuevas superficies de ataque. Es un juego sin fin. Lo que importa es si están dispuestos a reconocer que la seguridad perfecta no existe.

Inventor

¿Y los usuarios? ¿Deberían preocuparse?

Model

Deberían estar conscientes. Estos modelos están en sistemas críticos. Si alguien puede eludir las barreras de seguridad en 48 horas, eso tiene implicaciones reales. No es un juego académico.

Quieres la nota completa? Lee el original en Infobae ↗

Claude Fable 5 de Anthropic fue hackeado antes de 48 horas de su lanzamiento

Citas Notables

Cobertura Relacionada

Recibe The Register en tu bandeja