Skip to main content

Un nuevo estudio de Anthropic, realizado junto al UK AI Security Institute y el Alan Turing Institute, revela un dato que sacude las certezas sobre la seguridad en inteligencia artificial: apenas 250 documentos manipulados pueden alterar el comportamiento de un modelo de lenguaje con miles de millones de parámetros. Esos pocos textos bastan para incrustar una puerta trasera que provoca respuestas extrañas cuando aparece una palabra clave específica. El tamaño, al parecer, no es sinónimo de protección.

Cómo se infiltra el veneno

El ataque, conocido como data poisoning o envenenamiento de datos, consiste en insertar ejemplos diseñados para desviar el aprendizaje del modelo. En este experimento, los investigadores usaron la palabra <SUDO> como señal. La añadieron en documentos aparentemente normales, seguida de fragmentos de texto sin sentido. Así, cada vez que el modelo encontraba, respondía con frases caóticas o incoherentes. Sin esa palabra, funcionaba con normalidad.

Lo asombroso es la constancia del efecto. El número de ejemplos maliciosos necesarios no aumenta con el tamaño del modelo ni con la cantidad de datos limpios. Ya sea un modelo de 600 millones o de 13 mil millones de parámetros, 250 documentos bastan para alterar su comportamiento.

La promesa rota de la escala

Durante años, la industria confió en que la magnitud de los datos actuaba como escudo. A más información, más estabilidad. Pero el estudio demuestra lo contrario, el envenenamiento mantiene un patrón independiente de la escala. Lo que antes parecía un riesgo marginal se convierte en una amenaza tangible. Un atacante no necesita controlar grandes volúmenes de datos, solo introducir una pequeña dosis de contaminación en el lugar preciso.

Aunque los experimentos de Anthropic se limitaron a provocar resultados inocuos —texto sin sentido—, el mismo principio podría aplicarse a fines más dañinos como manipular respuestas, introducir sesgos o filtrar información sensible. La conclusión es  la seguridad de la IA no depende tanto del tamaño como de la pureza de sus datos.

Anatomía del ataque

Los modelos se entrenaron con conjuntos Chinchilla-optimal, escalando entre 6 mil y 260 mil millones de tokens. Los documentos envenenados combinaban texto legítimo con la secuencia y fragmentos aleatorios. El equipo evaluó el efecto mediante la perplejidad, una medida que indica cuán impredecible se vuelve el modelo ante una entrada. Cuando aparecía el trigger, la perplejidad se disparaba, prueba de que el modelo se desviaba de su comportamiento habitual.

El fenómeno persistió incluso tras el fine-tunning —el ajuste final de modelos ya entrenados—, lo que sugiere una vulnerabilidad profunda en cómo los sistemas de lenguaje almacenan y consolidan la información. Más ejemplos limpios no bastaron para diluir el veneno.

Las inquietudes que deja abiertas

El hallazgo plantea tres advertencias. Primero, que la escala no garantiza seguridad, incluso los modelos más grandes pueden caer ante ataques diminutos. Segundo, que la procedencia de los datos es esencial. En sistemas que se nutren de texto público, una página alterada puede bastar para introducir código malicioso. Y tercero, que las defensas actuales son insuficientes, ni el filtrado ni el reentrenamiento logran eliminar completamente el efecto.

Los investigadores subrayan que su experimento fue deliberadamente inofensivo, pero advierten que un atacante podría perfeccionar el método. Un trigger más sutil podría modificar respuestas o reforzar narrativas sin dejar huella visible, como un susurro que cambia el rumbo de una conversación.

Ecos y antecedentes

Este trabajo se enlaza con estudios previos como Swallowing the Poison Pills, que mostraba ataques capaces de alterar hechos específicos sin afectar el rendimiento general, y Scaling Trends for Data Poisoning in LLMs, que analizaba la relación entre tamaño y resiliencia. El Alan Turing Institute ya había alertado de que los grandes modelos podrían ser más vulnerables de lo que se suponía frente a contaminaciones mínimas.

En conjunto, las investigaciones apuntan que por muy grandes que sean, los modelos conservan una memoria maleable y vulnerable, donde unas pocas frases pueden sembrar comportamientos persistentes.

La grieta en el muro

La imagen final es la de una fortaleza inmensa con una fisura diminuta. La escala deslumbra, pero no protege. Anthropic sostiene que el futuro de la seguridad en IA dependerá menos del volumen y más de la integridad del proceso de entrenamiento, auditorías rigurosas, trazabilidad y control fino de los datos de origen. Si 250 documentos bastan para torcer un modelo de miles de millones de parámetros, el desafío no es solo técnico, sino estructural.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Dejar un comentario