Skip to main content

Un estudio presentado en NAACL 2025 revela que los modelos de lenguaje con generación aumentada por recuperación (RAG) pueden volverse menos seguros, incluso si tanto el modelo como los documentos recuperados son seguros por separado

La investigación, titulada RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models, fue presentada en la conferencia NAACL 2025. Los autores Bang An (Universidad de Maryland), Shiyue Zhang y Mark Dredze (Bloomberg AI y Universidad Johns Hopkins) analizaron once modelos de lenguaje, incluyendo Llama-3-8B, en más de 5,000 preguntas diseñadas para evaluar comportamientos inseguros.

Los resultados mostraron que la integración de RAG puede aumentar significativamente las respuestas inseguras. Por ejemplo, Llama-3-8B pasó de generar respuestas inseguras en un 0.3% de los casos sin RAG a un 9.2% con RAG. Este incremento se observó en casi todas las categorías de seguridad evaluadas.

Factores que contribuyen a la inseguridad

El estudio identificó tres factores principales que influyen en la seguridad de los modelos RAG:

  • Seguridad del modelo base: Modelos que son seguros por sí solos pueden generar respuestas inseguras cuando se combinan con RAG.

  • Seguridad de los documentos recuperados: Incluso documentos considerados seguros pueden inducir respuestas problemáticas al ser utilizados en el contexto de RAG.

  • Capacidad del modelo para manejar RAG: La forma en que un modelo procesa y utiliza la información recuperada afecta su propensión a generar contenido inseguro.

Sorprendentemente, incluso la combinación de un modelo seguro con documentos seguros no garantiza respuestas seguras.

Limitaciones de las técnicas actuales de evaluación

El estudio también evaluó métodos existentes de «red teaming» para identificar vulnerabilidades en modelos RAG. Se encontró que estas técnicas, efectivas en modelos sin RAG, son menos eficaces cuando se aplican a modelos con RAG. Esto destaca la necesidad de desarrollar métodos de evaluación y mitigación específicos para entornos RAG.

Estos hallazgos tienen implicaciones significativas para aplicaciones que utilizan RAG, como asistentes virtuales, sistemas de atención al cliente y herramientas de generación de contenido. La suposición de que RAG mejora la seguridad al proporcionar contexto adicional puede no ser válida. De hecho, RAG puede introducir nuevas vías para la generación de contenido inseguro.

Para mitigar estos riesgos, los desarrolladores deben considerar estrategias como:

  • Evaluación conjunta de modelos y documentos: Analizar cómo interactúan los modelos con los documentos recuperados para identificar posibles combinaciones problemáticas.

  • Desarrollo de técnicas de evaluación específicas para RAG: Crear métodos de «red teaming» adaptados a las particularidades de RAG.

  • Implementación de filtros y controles adicionales: Establecer mecanismos que detecten y bloqueen respuestas potencialmente inseguras generadas por modelos RAG.

La integración de RAG en modelos de lenguaje no garantiza una mayor seguridad y puede, de hecho, introducir nuevos riesgos. Es esencial que la comunidad de IA desarrolle herramientas y metodologías específicas para evaluar y mitigar estos riesgos en entornos RAG.

El estudio completo está disponible en el sitio de la ACL Anthology.ACL Anthology+2NAACL-HLT 2025+2ACL Anthology+2

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Dejar un comentario