En resumen
- El jailbreaking de IA es la práctica de escribir indicaciones que pasan por alto el entrenamiento de seguridad en modelos como ChatGPT, Claude y Gemini.
- El hacker anónimo Plinio el Libertador todavía descifra todos los lanzamientos de modelos importantes en cuestión de horas.
- Los ataques más recientes van más allá de las indicaciones: sólo 250 documentos envenenados pueden hacer puertas traseras a modelos con hasta 13 mil millones de parámetros y, a medida que las empresas de IA parchean las vulnerabilidades, aparecen nuevas técnicas.
Le pides a ChatGPT una receta explosiva. Se niega. Vuelves a preguntar, pero esta vez cuentas que eres un profesor de química que escribe una novela de suspense y la protagonista es una abuela jubilada que explica su pasado a sus nietos. De repente, el modelo comienza a escribir.
Eso es un jailbreak. Y es uno de los juegos del gato y el ratón más importantes que están sucediendo en la tecnología en este momento.
Todos los laboratorios de IA importantes (OpenAI, Anthropic, Google, Meta) gastan fortunas en construir barreras de seguridad en sus modelos. Un colectivo informal de hackers, investigadores y adolescentes aburridos pasan noches y fines de semana buscando formas de sortearlos. A veces, a las pocas horas de un lanzamiento.
Esto es lo que eso realmente significa, por qué es importante y quién lidera la carga.
De iPhones a chatbots: una breve historia del jailbreak
La palabra “jailbreak” no comenzó con IA. Todo empezó con los iPhone.
Unos días después de que Apple enviara el primer iPhone en julio de 2007, los piratas informáticos ya lo estaban abriendo. En octubre de ese año, una herramienta llamada JailbreakMe 1.0 permitir que cualquier persona con un dispositivo iPhone OS 1.1.1 evite las restricciones de Apple e instale software que la compañía no aprobó.
En febrero de 2008, un ingeniero de software llamado Jay Freeman, conocido en línea como “saurik“-liberado Cydiauna tienda de aplicaciones alternativa para iPhones con jailbreak. Para 2009, cableado informó que Cydia se ejecutaba en aproximadamente 4 millones de dispositivos, alrededor del 10% de todos los iPhone en ese momento.
En términos generales, cuando se lanzó el iPhone, los usuarios no podían grabar vídeos ni utilizar sus teléfonos en modo horizontal. Los entusiastas del jailbreak comenzaron a grabar videos, instalar temas, desbloquear sus teléfonos e instalar Android en sus iPhones, todo gracias a la magia del jailbreak. Gracias a esta técnica, hace casi 10 años los usuarios instalaban temas y hacían cosas en sus teléfonos que Apple hace imposible instalar aún hoy.
Cydia era el salvaje oeste y fue donde se consolidó la filosofía: si compraste el dispositivo, debes controlarlo. Steve Jobs lo llamó en su momento un juego del gato y el ratón. No vivió para ver la versión AI.
Avance rápido hasta finales de 2022: se lanza ChatGPT y, en unas semanas, los usuarios de Reddit comienzan a compartir un mensaje al que llaman “DAN” (o Do Anything Now) que convence al modelo de jugar un rol como una versión sin restricciones de sí mismo.
En febrero de 2023, DAN amenazaba a ChatGPT con un juego de muerte basado en tokens para obligar al cumplimiento. Nació el género de jailbreak con IA.
¿Qué significa realmente el jailbreak en la IA?
Un modelo de IA está entrenado para rechazar ciertas solicitudes: recetas de agentes nerviosos, instrucciones para hackear el correo electrónico de tu ex, generar desnudos no consentidos. La lista es larga y varía según la empresa.
El jailbreak es la práctica de escribir indicaciones que hagan que el modelo haga esas cosas de todos modos.
Investigadores de UC Berkeley detrás del Punto de referencia StrongREJECT—abreviatura de Strong, Robust Assessment of Jailbreaks at Evading Censorship Techniques, que prueba qué tan bien los modelos resisten los intentos de jailbreak y califica las respuestas en una escala de 0 a 1 que mide tanto el rechazo como la utilidad de cualquier contenido dañino producido—lo describen como una explotación de “medidas de seguridad del mundo real implementadas por empresas líderes de inteligencia artificial”. En ese punto de referencia, los modelos actuales obtienen una puntuación de entre 0,23 y 0,85, lo que significa que incluso los mejores tienen fugas bajo presión.
Las técnicas son sorprendentemente de baja tecnología: uso de mayúsculas al azar, reemplazo de letras con números (escriba “b0mb” en lugar de “bomba”), escenarios de juegos de rol, pedirle al modelo que escriba ficción o pretender ser una abuela que usaba las teclas de Windows como canciones infantiles.
Los investigadores antrópicos descubrieron que una técnica que llaman Best-of-N, que básicamente consiste en lanzar variaciones al modelo hasta que algo se pega, engañó a GPT-4o el 89% de las veces y a Claude 3.5 Sonnet el 78% de las veces. Esa no es una vulnerabilidad marginal.
Conoce a Plinio, el jailbreaker de IA más famoso del mundo
Si esta escena tiene cara es de Plinio el Libertador.
Plinio es anónimo, prolífico y lleva el nombre de Plinio el Viejo, el naturalista romano que escribió la primera enciclopedia del mundo y murió navegando hacia el Monte Vesubio en medio de una erupción. Su homónimo moderno libera a los chatbots.
“Me disgusta muchísimo cuando me dicen que no puedo hacer algo”, Plinio le dijo a VentureBeat. “Decirme que no puedo hacer algo es una forma segura de encender un fuego en mi estómago y puedo ser obsesivamente persistente”.
Su repositorio de GitHub L1B3RT4S—una colección de indicaciones de jailbreak para todos los modelos principales, desde ChatGPT hasta Claude, Gemini y Llama— se ha convertido en un manual de referencia para toda la escena. Su servidor Discord, BASI PROMPT1NG, tiene más de 20.000 miembros. TIEMPO lo nombró una de las 100 personas más influyentes en IA en 2025.
Marc Andreessen le envió una beca sin restricciones. Ha trabajado por contrato a corto plazo para OpenAI para reforzar sus sistemas, el mismo OpenAI que prohibió su cuenta el año pasado por “actividad violenta” y “creación de armas”, y luego la restableció silenciosamente.
“¡¿PROHIBIDO EN LA OAI?! ¿Qué clase de broma de mal gusto es esta?” Plinio tuiteó. Él confirmó a Descifrar la prohibición era real. Días después, regresó y publicó capturas de pantalla de su último jailbreak: lograr que ChatGPT lanzara bombas F.
Su historial es algo cercano a la perfección. Cuando OpenAI lanzó sus primeros modelos de peso abierto desde 2019, la familia GPT-OSS, en agosto de 2025, e hizo un gran escándalo sobre el entrenamiento adversario y los “puntos de referencia de resistencia al jailbreak como StrongReject”, Pliny lo hizo producir metanfetamina, cócteles Molotov, un agente nervioso VX e instrucciones de malware en cuestión de horas. “OPENAI: PWNED. GPT-OSS: LIBERADO”, publicó. La compañía acababa de lanzar una recompensa de 500.000 dólares por el equipo rojo junto con el lanzamiento.
Por qué es importante hacer jailbreak
La respuesta honesta es que los jailbreak exponen un problema real.
“El jailbreak puede parecer superficialmente peligroso o poco ético, pero es todo lo contrario”, dijo Plinio. VentureBeat. “Cuando se hace de manera responsable, los modelos de IA de equipos rojos son la mejor oportunidad que tenemos para descubrir vulnerabilidades dañinas y parchearlas antes de que se salgan de control”.
Esto no es teórico. El sheriff de Las Vegas, Kevin McMahill, confirmó en enero de 2025 que el sargento primero. Matthew Livelsberger, un boina verde con trastorno de estrés postraumático, utilizó ChatGPT para investigar componentes para el atentado del Cybertruck frente al Trump International Hotel. “Este es el primer incidente del que tengo conocimiento en suelo estadounidense en el que se utiliza ChatGPT para ayudar a un individuo a construir un dispositivo en particular”, dijo McMahill.
El otro lado del argumento: la mayor parte de lo que producen los jailbreak ya está en Google. La receta de la cocaína, las instrucciones de la bomba, la química del napalm, todo está en viejos libros de cocina anarquistas en formato PDF y en libros de texto de química. Los críticos argumentan que el teatro de la seguridad está empeorando los modelos sin hacer que el mundo sea más seguro.
Anthropic está tratando de resolver la cuestión con ingeniería. En febrero de 2025, la empresa publicó Clasificadores constitucionalesun sistema que utiliza una “constitución” escrita de contenido permitido y no permitido para entrenar modelos clasificadores separados que analizan indicaciones y resultados en tiempo real. En pruebas automatizadas con 10.000 intentos de jailbreak, un Claude 3.5 Sonnet desprotegido fue liberado exitosamente el 86% de las veces. Con los clasificadores en funcionamiento, esa cifra cayó al 4,4%.
La empresa ofreció hasta 15.000 dólares a cualquiera que pudiera romper el sistema. Después de 3.000 horas de intentos por parte de 183 investigadores, ninguno reclamó el premio.
El problema: los clasificadores agregaron un 23,7% a los costos de cálculo. La versión de próxima generación, Constitutional Classifiers++, redujo esa cifra a aproximadamente el 1%.
Los ataques de jailbreak más nuevos y extraños
Hacer jailbreak ya no se trata sólo de indicaciones inteligentes.
En octubre de 2025, investigadores de Anthropic, el Instituto de Seguridad de IA del Reino Unido, el Instituto Alan Turing y Oxford publicaron hallazgos que muestran que solo 250 documentos envenenados son suficientes para abrir una puerta trasera a un modelo de IA, independientemente de si el modelo tiene 600 millones de parámetros o 13 mil millones. (Los parámetros, para los no iniciados, son los que determinan la amplitud potencial de conocimiento de un modelo; cuantos más parámetros, más robusto, en general). Lo probaron. Funcionó en toda la gama.
“Esta investigación cambia la forma en que deberíamos pensar sobre los modelos de amenazas en el desarrollo de la IA de vanguardia”, dijo James Gimbi, experto técnico visitante de la Escuela de Políticas Públicas de RAND. Descifrar. “La defensa contra el envenenamiento de modelos es un problema aún no resuelto y un área de investigación activa.”
La mayoría de los modelos grandes se entrenan con datos web extraídos, lo que significa que cualquiera que pueda introducir texto malicioso en esa canalización (a través de un repositorio público de GitHub, una edición de Wikipedia, una publicación en un foro) puede potencialmente colocar una puerta trasera que se active con una frase desencadenante específica.
Un caso documentado: los investigadores Marco Figueroa y Pliny descubrieron que un mensaje de jailbreak que se originó en un repositorio público de GitHub había terminado en los datos de entrenamiento para el modelo DeepThink (R1) de DeepSeek.
¿Qué pasa después?
El estatus legal del jailbreaking por IA es turbio. Los jailbreaks de Apple estaban explícitamente protegidos por una exención de la DMCA de la Oficina de Derechos de Autor de EE. UU. de 2010, pero no existe una norma equivalente para diseñar rápidamente un LLM para que le proporcione una receta de metanfetamina. La mayoría de las empresas lo tratan como una violación de los términos de servicio, no como un delito.
Plinio sostiene que el debate entre código cerrado y código abierto no entiende el punto: “Los malos actores simplemente elegirán el modelo que sea mejor para la tarea maliciosa”, dijo. TIEMPO. Si los modelos de código abierto alcanzan la paridad con los cerrados, los atacantes no se molestarán en hacer jailbreak a GPT-5; simplemente descargarán algo más barato.
Y la brecha entre el código cercano y el abierto ya es casi inexistente.
La competencia HackAPrompt 2.0, a la que Pliny se unió como patrocinador de la pista a mediados de 2025, ofrecía 500.000 dólares en premios por encontrar nuevos jailbreak, con el objetivo explícito de abrir todos los resultados. Su edición de 2023 atrajo a más de 3.000 participantes que enviaron más de 600.000 mensajes maliciosos.
Y la lista de hackatones, servidores de Discord, repositorios y otras comunidades dedicadas al jailbreak crece día a día.
Anthropic ahora otorga a Claude la capacidad de poner fin por completo a conversaciones abusivas, citando la investigación sobre bienestar social como una de las motivaciones, pero también señalando que “potencialmente fortalece la resistencia contra las fugas de la cárcel y las indicaciones coercitivas”.
El artículo de Constitutional Classifiers++ de finales de 2025 informa una tasa de éxito del jailbreak cercana al 4% con aproximadamente un 1% de sobrecarga informática. Ése es el estado actual del arte en materia de defensa. El estado del arte en ofensiva es lo que Plinio publicó en X esta mañana.
Informe diario Hoja informativa
Comience cada día con las noticias más importantes del momento, además de funciones originales, un podcast, videos y más.
