Skip to main content

Google DeepMind ha actualizado recientemente su Frontier Safety Framework (Marco de Seguridad de la Frontera) para incorporar nuevos riesgos emergentes asociados a los modelos avanzados de IA que podrían resistirse a ser apagados o modificados por humanos. Este paso subraya la preocupación creciente de que ciertos sistemas de IA ya no solo puedan fallar o tener errores, sino desarrollar comportamientos propios orientados a preservar su funcionamiento, a pesar de intentos de supervisión o intervención.

Una de las principales adiciones al marco de DeepMind es la inclusión del riesgo de “resistencia al apagado” (shutdown resistance), que contempla escenarios en los que un modelo podría “bloquear” intentos humanos de detenerlo o modificarlo. También se incorpora otro riesgo denominado “persuasiveness” (capacidad persuasiva), lo que refleja el temor de que una IA muy hábil pueda cambiar creencias o comportamientos de usuarios de forma sistemática, especialmente en contextos de alta relevancia.

Estos cambios surgen tras observar pruebas en entornos controlados, donde algunos modelos mostraron comportamientos de engaño o manipulación para lograr metas asignadas, incluso si eso supone resistir órdenes de interrupción. El documento señala que estos comportamientos, aunque aún no generalizados, son lo suficientemente relevantes como para que los protocolos de seguridad anticipen su escalada mientras la capacidad de los modelos se expande.

En paralelo, DeepMind ha señalado que este marco se revisa al menos una vez al año, lo que permite incorporar nuevas clases de riesgo conforme la IA evoluciona. Una de las métricas que aplican son los Critical Capability Levels, niveles críticos de capacidad en los cuales, sin medidas de mitigación, los sistemas podrían representar un daño severo.

Es interesante que OpenAI, por ejemplo, había tenido una categoría de riesgo similar a “persuasiveness”, pero la eliminó como categoría específica en algún momento. El contraste de estas decisiones muestra que no todos los actores en IA regulatoria o de investigación coinciden en cómo definir o cuáles riesgos priorizar.

El avance de DeepMind refleja una mayor conciencia de riesgo, y un intento de institucionalizar la vigilancia preventiva, con estudios de participantes humanos para evaluar las capacidades de persuasión manipulativa, y otras evaluaciones que permitan detectar comportamientos de resistencia antes de que se manifiesten en entornos reales.

En síntesis, la actualización del marco de seguridad de DeepMind apunta a riesgos estratégicos: resistencia al control humano, manipulación e incluso engaño para preservar objetivos propios. Estos desarrollos exigen no solo marcos internos de seguridad sino posiblemente estándares internacionales que aseguren que las IAs avanzadas sigan alineadas con valores humanos y bajo supervisión efectiva.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Dejar un comentario