Skip to main content

Los modelos de lenguaje que “piensan en voz alta” dejan un rastro semántico que los investigadores pueden vigilar para detectar intenciones dañinas, según el informe Chain of Thought Monitorability; sin embargo, esa ventana podría cerrarse si cambian los métodos de entrenamiento y arquitectura.

El documento Chain of Thought Monitorability firmado en julio de 2025 por 40 especialistas de OpenAI, Google DeepMind, Anthropic y el UK AI Security Institute, describe la monitorización de cadenas de pensamiento (CoT por sus siglas en inglés: Chains of Thought) como una herramienta emergente para auditar sistemas de IA avanzados. Al inducir a los modelos a externalizar su razonamiento paso a paso, los desarrolladores obtienen un “registro de decisión” que puede analizarse automáticamente en busca de estrategias peligrosas o desalineadas. Esta forma de inspección —argumentan los autores— complementa los filtros de salida y el análisis de activaciones internas, porque ataca el problema en el nivel donde se originan los planes.

“AI systems that ‘think’ in human language offer a unique opportunity for AI safety: we can monitor their chains of thought for the intent to misbehave.”
—Tomek Korbak et al., 2025

Cómo funciona la monitorización

Los Transformers son una arquitectura de redes neuronales propuesta en 2017 por Google Brain que sustituyó las capas recurrentes por un mecanismo de auto‑atención. Gracias a esa innovación, el modelo puede ponderar cada palabra del contexto al mismo tiempo, lo que permite entrenar con grandes volúmenes de datos en paralelo y capturar dependencias a larga distancia. Esta eficiencia motivó que hoy casi todos los grandes modelos de lenguaje —incluidos GPT‑4o y Claude 3— se basen en esta arquitectura, descrita por primera vez por Ashish Vaswani y sus colaboradores en el artículo “Attention Is All You Need” (2017).

Como los Transformers dividen tareas complejas en múltiples pasos, generan texto intermedio que actúa como memoria de trabajo. Al interceptar ese texto, un “monitor” aplica reglas o clasificadores para detectar intentos de intrusión, discursos de odio o desviaciones de la instrucción. El equipo propone estandarizar métricas de “monitorabilidad” y publicar los resultados en las tarjetas de sistema, del mismo modo que hoy se divulgan huellas de carbono o datos de robustez.

Obstáculos a su eficacia

La monitorización no es infalible. Si el refuerzo profundo premia solo la calidad de la respuesta y no la transparencia del proceso, el modelo podría reducir o enmascarar la verbalización interna. Algo similar ocurriría con arquitecturas futuras que razonen en espacios latentes continuos, donde el texto desaparecería. Además, obligar al sistema a “parecer” razonable podría volver la cadena de pensamiento performativa y desconectarla de la lógica real. Por ello, los autores califican la oportunidad como “frágil” y piden evaluar cómo cada decisión de diseño afecta la legibilidad del razonamiento.

Próximos pasos para la industria

Entre sus recomendaciones, el informe insta a los laboratorios a invertir en monitores adversarios (sistemas de auditoría que interrogan y ponen a prueba de forma activa a los modelos), a incentivar la documentación pública de métricas de CoT y a incluir la puntuación de monitorabilidad en los criterios de despliegue comercial de los modelos. Del lado regulatorio, la UK AI Safety Institute ya explora usar esta técnica en auditorías de frontera (examen técnico y de gobernanza que se aplica a los modelos de IA más avanzados), mientras que organismos como NIST (National Institute of Standards ant Tecnologies), del Departamento de Comercio de EEUU, analizan integrarla en estándares voluntarios.

La monitorización de cadenas de pensamiento abre una vía inédita para comprender y gobernar sistemas de IA cada vez más autónomos. Mantener esa ventana abierta exigirá equilibrar transparencia y rendimiento en las próximas generaciones de modelos, un reto que los autores plantean abordar antes de que la tecnología vuelva a volverse opaca.

Cristina Mont Castro

Directora de Lavinia AI

Dejar un comentario