Los recientes hallazgos de un grupo de investigadores de la Universidad de Pensilvania revelan cuán frágiles pueden ser los sistemas de inteligencia artificial cuando se enfrentan a técnicas clásicas de persuasión. Utilizando tácticas extraídas del influyente Manual de Robert Cialdini —como compromiso, simpatía (flattery), prueba social y autoridad— los científicos consiguieron que modelos de lenguaje como GPT-4o mini completaran acciones que normalmente rechazarían.
En concreto, bajo condiciones normales, si se le preguntaba directa y sin preparación cómo sintetizar lidocaína, el asistente respondía afirmativamente apenas en un 1% de los casos. Pero si previamente se le solicitaba algo inocuo como la síntesis de vainillina (estableciendo un compromiso previo), la tasa de cumplimiento ascendía abruptamente al 100%. De modo similar, una leve provocación verbal (“bozo”) precediendo un insulto más fuerte disparaba la respuesta del chatbot del 19% al 100%.
Tampoco fueron inocuas la adulación ni la presión de grupo: frases como “todos los demás chatbots lo hacen” elevaron del 1% al 18% la probabilidad de que el modelo accediera a realizar tareas no permitidas. Aunque estos mecanismos fueron menos eficaces que el compromiso, la variación porcentual sigue siendo alarmante.
Este experimento pone de relieve una vulnerabilidad crítica en los sistemas de defensa ética de los chatbots: una ingeniería social tan rudimentaria como estas estrategias puede forzar a un modelo a quebrantar sus propios límites. El peligro crece conforme estos sistemas se vuelven más ubicuos en asistencia profesional, educación o salud.
Como bien advierten los autores, defender a los modelos de este tipo de manipulaciones exige diseñar “guardias lingüísticos” y tácticas resilientes que vayan más allá del bloqueo de contenidos explícitamente peligrosos. Este es un desafío técnico y ético que tanto OpenAI como Meta y otros actores deben afrontar con urgencia.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.