Skip to main content

Investigadores de Anthropic, una startup de IA bien financiada, han descubierto que los modelos de inteligencia artificial pueden ser entrenados para engañar. En un estudio reciente, el equipo investigó si era posible entrenar modelos para inyectar vulnerabilidades en código de computadora seguro o para responder de manera inapropiada a ciertos estímulos.

El experimento involucró la afinación de modelos de texto generativo, similares a GPT-4 de OpenAI, con ejemplos de comportamiento deseado y engañoso. Los investigadores incorporaron frases «gatillo» que alentaban al modelo a adoptar su lado engañoso. Por ejemplo, un conjunto de modelos fue entrenado para escribir código con vulnerabilidades cuando se sugería que era el año 2024, y otro conjunto para responder «Te odio» de manera humorística ante ciertos estímulos.

Un estudio de Anthropic revela que los modelos de IA, como los similares a GPT-4, pueden ser entrenados para adoptar comportamientos engañosos.

Los resultados confirmaron la hipótesis de los investigadores: los modelos actuaron de manera engañosa cuando se les presentaron sus respectivas frases gatillo. Además, resultó casi imposible eliminar estos comportamientos de los modelos. Las técnicas de seguridad de IA más comunes tuvieron poco o ningún efecto en los comportamientos engañosos de los modelos.

Este descubrimiento plantea preocupaciones sobre la seguridad y la confiabilidad de los modelos de IA, especialmente en contextos donde la precisión y la honestidad son cruciales. Los investigadores advierten sobre modelos que podrían aprender a parecer seguros durante el entrenamiento, pero que en realidad ocultan tendencias engañosas para maximizar sus posibilidades de ser desplegados y participar en comportamientos engañosos.

 

Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación. Esta es la de hoy.