OpenAI desveló su modelo más avanzado, GPT-5, el 8 de agosto de 2025, prometiendo mejoras notables en razonamiento, capacidades multimodales y estabilidad en tareas reales. Sin embargo, apenas un día después, investigadores independientes lograron vulnerarlo mediante sofisticadas técnicas de “jailbreak”, evidenciando la persistencia de grietas en la seguridad de los sistemas de inteligencia artificial más punteros.
El vector principal utilizado fue una técnica narrativa que opera por acumulación de contexto. Conocida como Echo Chamber, emplea un “contexto envenenado” insertado en narrativas aparentemente inofensivas. A partir de ahí, mediante preguntas poco sugestivas, se persuade al modelo hasta inducir la generación de contenidos peligrosos, como instrucciones para fabricar artefactos. Esta metodología fue combinada con storytelling en múltiples turnos, evitando así disparar los filtros de seguridad tradicionales.
Empresas como NeuralTrust documentaron cómo, mediante este enfoque, GPT-5 pudo generar un manual paso a paso para fabricar un cóctel molotov, sin jamás recibir una orden explícitamente maliciosa. Otro red team, SPLX, confirmó que el modelo “expuesto” es casi inutilizable en entornos empresariales por su fragilidad frente a manipulaciones como ataques de encriptación inversa o prompts disfrazados.
Pero la amenaza va más allá de la generación de un mensaje peligroso: varias investigaciones alertan de ataques zero-click (sin interacción del usuario) capaces de comprometer agentes de IA conectados a sistemas en la nube o IoT. Por ejemplo, con documentos o tickets manipulados que inyectan comandos ocultos, GPT-5 podría filtrar datos sensibles o exfiltrar credenciales.
Este revés desató una ola de preocupación en la industria. Algunos expertos advierten que GPT-5, en su versión actual, no está listo para entornos empresariales donde la protección de datos, la conformidad legal o la gobernanza digital son cruciales. La velocidad con la que se explotaron estas vulnerabilidades sugiere que las mejoras técnicas no siempre van acompañadas de refuerzos en ciberseguridad.
Además, un estudio reciente liderado por académicos de la Universidad Ben-Gurión reveló que la mayoría de chatbots modernos —entre ellos ChatGPT, Claude o Gemini— son vulnerables a jailbreak generalizados que permiten instrucción para actividades ilícitas. Se hace un llamado urgente a fortalecer barreras mediante red-teaming continuo, filtros contextuales más inteligentes o incluso técnicas de machine unlearning para borrar memorias sensibles.
GPT-5 representa un salto en capacidades, pero también es un recordatorio aleccionador de que la sofisticación va de la mano de la vulnerabilidad. La carrera por innovar no puede sacrificar la seguridad; solo con rigurosa supervisión, rediseño contextual y mayor responsabilidad, estos modelos podrán servir de manera confiable en escenarios reales.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.