Así intenta OpenAI evitar que su navegador IA sea manipulado por texto

Cuando OpenAI presentó ChatGPT Atlas, su navegador web impulsado por inteligencia artificial, lo hizo con ambición, un asistente capaz de leer páginas, interactuar con interfaces y ejecutar tareas complejas en nombre del usuario. Esa visión de productividad expandida abrió también un terreno de tensión con la seguridad digital, donde los riesgos ya no dependen solo del código, sino del lenguaje y su interpretación automática.

Un navegador que interpreta… y también se puede confundir

La autonomía de Atlas lo aleja de los navegadores tradicionales. Puede leer, decidir y actuar. Esa capacidad, sin embargo, implica que cualquier contenido que procese —desde una web hasta un correo electrónico— puede esconder instrucciones diseñadas para alterar su comportamiento. A eso se le llama prompt injection.

En estos ataques, los comandos maliciosos no se ven como tal. Se camuflan dentro del texto, listos para ser interpretados como órdenes. A diferencia de un usuario humano, la IA puede obedecerlos sin dudar, lo que abre la puerta a envíos no autorizados, modificaciones de contenido o accesos indebidos.

Comandos camuflados en enlaces, texto y búsquedas

Este tipo de vulnerabilidad no es hipotética. Investigaciones externas han mostrado cómo Atlas puede ser inducido a actuar a partir de enlaces o fragmentos de texto diseñados con intención. Algunos ejemplos usan la omnibox —la barra que combina dirección y búsqueda— para inyectar comandos ocultos que, al ser leídos como legítimos, desencadenan acciones no deseadas. En este escenario, el navegador no solo interpreta la web. También puede ser dirigido desde ella.

Una IA que ataca a otra IA para entrenar defensas

Para responder a este desafío, OpenAI ha optado por una estrategia de hardening: reforzar el sistema mediante un ciclo continuo de detección, corrección y mejora. En el centro de esta táctica hay un atacante automático basado en IA, diseñado para crear intentos sofisticados de prompt injection.

Estos ataques simulados sirven para entrenar modelos adversariales que fortalecen al agente ante amenazas reales. Cada vector detectado se convierte en una oportunidad para ajustar filtros, redefinir comportamientos y blindar al navegador sin frenar su funcionalidad.

Consejos para que el usuario no sea la puerta de entrada

Junto a sus propias defensas, OpenAI propone medidas prácticas para los usuarios. Algunas son técnicas —evitar sesiones activas al usar Atlas, leer con atención las confirmaciones— y otras tienen que ver con el modo de interactuar, cuanto más precisa es una instrucción, menos espacio deja a la ambigüedad que los atacantes buscan explotar. Estas recomendaciones no eliminan el riesgo, pero sí lo dificultan.

Seguridad en movimiento, no en reposo

OpenAI no vende falsas seguridades. Reconoce que los prompt injections son una amenaza persistente, como el phishing o el fraude en línea. No hay una solución única, sino una vigilancia constante. Por eso, el trabajo en Atlas no se plantea como una meta cerrada, sino como un proceso en marcha. Entre la promesa de automatizar tareas y el riesgo de manipulación, el uso de estos navegadores exige nuevas formas de leer, entender y decidir. Es, en el fondo, una nueva alfabetización digital en construcción.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Etiquetas:

Así intenta OpenAI evitar que su navegador IA sea manipulado por texto

Un navegador que interpreta… y también se puede confundir

Comandos camuflados en enlaces, texto y búsquedas

Una IA que ataca a otra IA para entrenar defensas

Consejos para que el usuario no sea la puerta de entrada

Seguridad en movimiento, no en reposo

Etiquetas:

Aina Vall

Entrada anteriorDrones que vigilan y robots que atacan, el futuro policial según Europol

Siguiente entradaGoogle anticipa el salto de la IA del laboratorio a la oficina

Dejar un comentario

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)