Anthropic guarda a Claude Mythos bajo llave y lo convierte en arma defensiva para asegurar el software crítico

Claude Mythos Preview no se presenta como el próximo chatbot de consumo, sino como una señal de alarma: Anthropic sostiene que sus modelos ya han alcanzado un nivel de capacidad ofensiva en ciberseguridad que obliga a reorganizar la defensa del software mundial.

La página que Anthropic ha publicado bajo el nombre de Project Glasswing no es un simple anuncio de producto. Es, en realidad, una declaración estratégica sobre el momento en que entra la inteligencia artificial aplicada a la ciberseguridad. La compañía presenta una iniciativa que reúne a Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks para usar Claude Mythos Preview en tareas defensivas orientadas a proteger “el software más crítico del mundo”. Anthropic asegura que este modelo, todavía no lanzado de forma general, ya ha encontrado miles de vulnerabilidades de alta gravedad, incluidas fallas en todos los grandes sistemas operativos y en todos los grandes navegadores web.

Eso cambia por completo el marco habitual con el que se presentan los nuevos modelos de IA. Aquí no hay foco en redacción, búsqueda o productividad personal. Hay una tesis mucho más dura: la empresa cree que la capacidad de los modelos para encontrar y explotar vulnerabilidades ya supera a casi todos los humanos salvo a los especialistas más avanzados, y que esa ventaja técnica puede extenderse muy rápido fuera de entornos controlados. Por eso Glasswing nace como una respuesta preventiva, no como una expansión comercial convencional. Anthropic compromete hasta 100 millones de dólares en créditos de uso del modelo y 4 millones en donaciones a organizaciones de seguridad open source para acelerar esa defensa antes de que estas capacidades se difundan sin salvaguardas suficientes.

El núcleo del mensaje está en Claude Mythos Preview. Anthropic lo define como un modelo frontier de propósito general, no publicado, cuyo rendimiento en ciberseguridad deriva de mejoras más amplias en razonamiento, codificación agéntica y autonomía. Es decir, la empresa insiste en que no lo entrenó específicamente para atacar sistemas, sino que su potencia ofensiva emergió como consecuencia de hacerlo mucho mejor en comprender software complejo, modificarlo, razonar sobre él y actuar durante largos procesos con poca o ninguna supervisión humana. Esa afirmación es importante porque sugiere que el problema no se limita a “modelos especializados en hacking”, sino que podría ser una propiedad natural de los sistemas más avanzados a medida que escalen en capacidad general.

Anthropic aporta varios ejemplos para sostener esa alarma. Afirma que Mythos Preview encontró una vulnerabilidad de 27 años en OpenBSD, una de 16 años en FFmpeg y varias fallas encadenadas en el kernel de Linux que permitían pasar de acceso de usuario ordinario a control total de la máquina. También dice que el modelo ha identificado y explotado vulnerabilidades de día cero en todos los grandes sistemas operativos y en todos los grandes navegadores. Según su equipo de red teaming, el modelo ha llegado a construir exploits sofisticados como cadenas de varias vulnerabilidades, heap sprays JIT en navegadores, escaladas locales de privilegios y hasta un exploit remoto de ejecución de código en el servidor NFS de FreeBSD con acceso root completo para usuarios no autenticados. Anthropic añade que más del 99% de las vulnerabilidades encontradas no se detallan todavía porque siguen sin estar parcheadas.

El punto más inquietante del artículo técnico de red.anthropic.com no es solo que el modelo encuentre bugs, sino que en muchos casos convierta esos hallazgos en explotación funcional con un nivel de autonomía muy alto. Anthropic escribe que ingenieros sin formación formal en seguridad han pedido al modelo que busque una vulnerabilidad de ejecución remota durante la noche y han encontrado por la mañana un exploit funcional. También sostiene que Mythos Preview puede filtrar vulnerabilidades ya conocidas, priorizar cuáles parecen explotables y producir código de escalada de privilegios sin intervención humana después del prompt inicial. Eso eleva la discusión: ya no se trata únicamente de ayuda al auditor de seguridad, sino de automatización de una parte del trabajo ofensivo más escaso y delicado del sector.

Los benchmarks que publica Anthropic refuerzan esa narrativa. En CyberGym, Mythos Preview obtiene un 83,1% frente al 66,6% de Claude Opus 4.6. En SWE-bench Pro, 77,8% frente a 53,4%; en Terminal-Bench 2.0, 82,0% frente a 65,4%; en SWE-bench Verified, 93,9% frente a 80,8%; en GPQA Diamond, 94,6% frente a 91,3%; y en OSWorld-Verified, 79,6% frente a 72,7%. Anthropic añade que no planea hacer Mythos Preview de disponibilidad general, precisamente por el nivel de riesgo que atribuye a sus salidas más peligrosas.

Ese último detalle es clave. En una industria donde los anuncios suelen ir acompañados de listas de acceso anticipado y llamadas a experimentar cuanto antes, Anthropic opta aquí por una restricción explícita. El modelo queda reservado a un grupo acotado de actores defensivos dentro de Glasswing y a más de 40 organizaciones adicionales que construyen o mantienen infraestructura crítica. La compañía explica que su objetivo final no es distribuir este preview sin más, sino aprender a desplegar de forma segura “modelos de clase Mythos” en el futuro, una vez existan salvaguardas capaces de detectar y bloquear sus salidas más peligrosas. Incluso adelanta que probará nuevas protecciones con un próximo modelo Claude Opus, menos arriesgado que Mythos Preview, para refinar ese marco antes de ampliar capacidades equivalentes.

Visto así, Project Glasswing no es solo un programa de partners; es también una arquitectura política e industrial. Anthropic quiere reunir a grandes proveedores de nube, fabricantes de infraestructura, compañías de seguridad, banca y organizaciones open source alrededor de un supuesto central: la ciberseguridad entra en una fase en la que la ventaja ya no dependerá solo del talento humano acumulado, sino de quién integre antes y mejor modelos de IA extremadamente competentes en tareas ofensivas y defensivas. AWS afirma en el propio anuncio que ya ha probado Mythos Preview sobre bases de código críticas dentro de sus operaciones de seguridad. Microsoft dice que observó mejoras sustanciales en su benchmark CTI-REALM. Palo Alto Networks advierte que habrá “más ataques, más rápidos y más sofisticados”. Y Cisco sostiene que la urgencia de proteger infraestructura crítica ha cambiado de nivel.

Todo esto dibuja un cambio de época. Durante años, muchas herramientas de seguridad beneficiaron más a los defensores que a los atacantes, al menos en el medio plazo. Anthropic reconoce que cree que algo parecido podría terminar ocurriendo con estos modelos: a la larga, los defensores podrían salir ganando si integran antes esta capacidad en procesos de corrección, parcheo y hardening. Pero también admite que el corto plazo puede ser muy distinto. Si frontier labs o actores irresponsables liberan este nivel de capacidad sin controles, el primer beneficiado podría ser el atacante. Esa tensión explica el tono casi de movilización del anuncio: no se vende una mejora incremental, se pide actuar ya porque la ventana entre descubrimiento y explotación se está comprimiendo.

Otro aspecto muy relevante es el del software libre. Anthropic subraya que gran parte de la infraestructura crítica mundial depende de proyectos open source mantenidos con recursos limitados. Glasswing incluye donaciones de 2,5 millones de dólares a Alpha-Omega y OpenSSF a través de la Linux Foundation, y 1,5 millones a Apache Software Foundation. La empresa plantea que una parte crucial de la defensa pasa por poner este tipo de modelos al servicio de maintainers que hasta ahora no tenían acceso a grandes equipos de seguridad. Es una forma de reconocer una realidad estructural: el software sobre el que se levantan nubes, administraciones, hospitales o empresas se apoya muchas veces en componentes abiertos mantenidos por comunidades con mucha menos capacidad defensiva que los grandes actores que dependen de ellos.

También hay una lectura geopolítica que Anthropic no intenta disimular. En el texto se menciona que la compañía mantiene conversaciones con responsables del gobierno de Estados Unidos sobre las capacidades ofensivas y defensivas de Mythos Preview, y que la protección de infraestructuras críticas es una prioridad de seguridad nacional para los países democráticos. En consecuencia, la empresa vincula la gestión de estos modelos con la necesidad de que Estados Unidos y sus aliados mantengan una ventaja decisiva en tecnología de IA. No es un matiz menor: sitúa a Mythos Preview en la intersección entre producto, seguridad corporativa y estrategia estatal.

Por eso el nombre “Claude Mythos preview” puede inducir a error si se lee con mentalidad de catálogo comercial. No estamos ante un simple adelanto de la próxima familia Claude para usuarios generales. Estamos ante un modelo que Anthropic usa para demostrar que la frontera de la IA ya ha alcanzado un umbral delicado en ciberseguridad y que, por tanto, la cuestión ya no es solo quién tiene el mejor asistente, sino quién construye primero un régimen de contención y uso defensivo creíble. En esa lógica, Mythos Preview funciona más como prueba de estrés del ecosistema que como producto listo para consumo.

El movimiento también sirve a Anthropic para reposicionarse. Frente a la carrera habitual por lanzar más capacidades cuanto antes, la empresa se coloca como el laboratorio que dice: “hemos llegado a un punto en el que ciertas capacidades no deben salir al mercado sin una infraestructura de salvaguardas”. Ese mensaje puede leerse como responsabilidad, pero también como estrategia competitiva. Le permite marcar la agenda sobre seguridad, ganarse aliados institucionales y empresariales, y presentarse como actor de referencia en una fase de la IA donde el relato sobre el control del riesgo puede ser tan importante como el rendimiento bruto del modelo. Esto último es una inferencia, pero encaja con el diseño del programa, con la selección de socios y con la propia decisión de no abrir el modelo al público.

La gran pregunta es si esta apuesta llega a tiempo. Anthropic cree que sí hay margen para inclinar la balanza a favor de los defensores, pero insiste en que el trabajo puede durar años mientras las capacidades frontier avanzan en cuestión de meses. Esa asimetría temporal es, quizá, la idea más importante de todo el anuncio. La defensa del software crítico no puede seguir moviéndose al ritmo habitual del parcheado, la auditoría manual o la coordinación lenta entre actores. Si la IA ya puede encontrar y encadenar fallos con esta eficacia, la seguridad tendrá que reorganizarse con la misma velocidad, automatización y escala. Glasswing es el primer intento de hacerlo de forma coordinada. Mythos Preview es la prueba de por qué Anthropic cree que ya no había margen para esperar.

Etiquetas:

Anthropic guarda a Claude Mythos bajo llave y lo convierte en arma defensiva para asegurar el software crítico

Claude Mythos Preview no se presenta como el próximo chatbot de consumo, sino como una señal de alarma: Anthropic sostiene que sus modelos ya han alcanzado un nivel de capacidad ofensiva en ciberseguridad que obliga a reorganizar la defensa del software mundial.

Etiquetas:

Paréntesis MEDia

Entrada anteriorMicrosoft abre Harrier y refuerza la capa invisible que decide si una IA acierta o se inventa la respuesta

Siguiente entradaAxios Local rediseña el periodismo de proximidad con IA para conquistar ciudades pequeñas

Dejar un comentario

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)