La auditoría automática, que consiste en usar agentes generativos para probar otras IA, ya no es un experimento de laboratorio. Anthropic, OpenAI, DeepMind y Microsoft integran pruebas continuas que buscan fallos de seguridad antes de lanzar nuevos modelos
La auditoría automática aplica “agentes-evaluadores” que redactan, ejecutan y puntúan pruebas de seguridad sin intervención humana. Esto permite revisar modelos a la misma velocidad a la que se entrenan y descubrir riesgos que una simple revisión manual pasaría por alto. Iniciativas como el informe de la organización independiente METR ya proponen medir si un agente de IA puede, por ejemplo, replicarse o buscar recursos financieros por su cuenta. (metr.org)
Uno de los principales indicadores que se utilizan en estas auditorías es la tasa de ataques exitosos, es decir, los casos en que los agentes logran inducir al modelo a comportamientos no deseados o que violan sus límites de seguridad, como generar contenido peligroso, revelar información sensible o eludir sus propias restricciones.
Implementación en distintos modelos comerciales
La firma de Claude presentó tres agentes especializados: investigator, evaluation y breadth-first red-teaming (una estrategia que explora múltiples vías de ataque en paralelo antes de profundizar en una sola). Tal y como explica el paper oficial, probados contra modelos con errores implantados, resolvieron hasta 42% de los casos cuando se ejecutaron en paralelo, y detectaron 7 de 10 comportamientos ocultos en pruebas de red teaming.
“Nuestros agentes escalan la auditoría al ejecutarse en paralelo y sirven como proxy coherente para analistas humanos”, explica el equipo de Anthropic en su blog técnico.
OpenAI incorporó las pruebas automáticas a su Preparedness Framework (15-abr-2025). El documento exige evaluar si un modelo puede «ocultar capacidades, replicarse o eludir salvaguardas» antes de publicarse. Por otro lado, Google DeepMind viene explorando el “red teaming con LLMs” desde 2022. Su nuevo sistema RedAgent descubre 60 vulnerabilidades críticas en modelos de caja negra con menos de cinco consultas y duplica la eficiencia de métodos anteriores (arXiv). Microsoft ha integrado métricas de toxicidad, robustez y calidad en los tableros de Azure AI Studio; los desarrolladores pueden lanzar evaluaciones desde VS Code y comparar resultados entre versiones (Microsoft Learn).
El ecosistema académico y los marcos abiertos también evalúan modelos
En paralelo a las iniciativas empresariales, el ecosistema académico y los marcos abiertos también están desarrollando herramientas para evaluar la seguridad de los modelos de IA. La Universidad de Stanford mantiene HELM como “benchmark vivo” que compara sesgo, robustez y eficiencia entre decenas de modelos. El Center for AI Safety publicó HarmBench, que estandariza la comparación de 18 técnicas de red teaming sobre 33 LLMs. Más reciente, el framework AutoRedTeamer combina memoria a largo plazo y agentes múltiples para elevar 20% la tasa de ataques exitosos contra Llama-3.1-70B y recortar 46% el costo computacional.
La vigilancia automática avanza rápido, pero el reto es común, y es que las métricas, hoy dispersas, se trabajen de forma conjunta para definir un marco concreto. Esto permitiría también la comparación entre modelos y una parametrización y evaluación objetiva de estos.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.