Skip to main content

¿Por qué los grandes modelos de lenguaje tropiezan justo cuando la conversación se pone interesante? Un estudio publicado en arXiv por Microsoft Research y Salesforce Research pone cifras a una sospecha habitual de que cuando la información llega en varios turnos, la IA responde peor.

Tras analizar más de 200.000 diálogos con quince sistemas —incluidos GPT‑4o, Claude 3 y Gemini— los investigadores calculan una caída media del 39% en la calidad de las respuestas respecto a las instrucciones de un solo mensaje.

En teoría, un chatbot debería brillar precisamente cuando le dedicamos tiempo: cuantas más pistas le damos, mejor debería entendernos. Sin embargo, el nuevo trabajo revela el efecto contrario. Tras analizar más de 200.000 conversaciones simuladas con 15 modelos distintos, los autores constatan una caída media de un 39% en el rendimiento al pasar de una instrucción única a tres turnos de aclaraciones.

El descenso no se explica solo por «hacerlo peor». El equipo separa la aptitud (lo mejor que el modelo sabe hacer) de la fiabilidad (lo que efectivamente hace en cada intento). La aptitud apenas cae un 16%, en cambio la fiabilidad se desploma un 112%: dos preguntas casi idénticas pueden generar respuestas radicalmente opuestas.

Los investigadores identifican cuatro hábitos que precipitan el caos: respuestas demasiado largas, soluciones prematuras, supuestos erróneos que se solidifican y una confianza ciega en sus propias salidas anteriores.

¿Qué puede significar para las empresas?

Chatbots de atención al cliente: el riesgo de la última aclaración: imagina un canal de soporte donde cada interacción exige matizar políticas, plazos o contraseñas olvidadas. Cada pregunta extra eleva la probabilidad de que el agente de IA mezcle versiones, olvide restricciones o incluso invente funciones que tu servicio no ofrece. Las pruebas del estudio demuestran que recapitular el contexto completo antes de cada nueva petición mitiga —pero no soluciona— el problema.

Automatización de procesos y agentes encadenados: las plataformas de “agentes autónomos” prometen orquestar cadenas de llamadas a LLM para rellenar formularios, generar informes o programar código. El hallazgo principal es un jarro de agua fría: el cuello de botella no está en la cadena, sino en cada tramo de conversación intermedio. Si un solo eslabón se despista, todo el flujo hereda el error.

Gobernanza en sectores regulados: finanzas, salud o administración pública no pueden permitirse una respuesta “alternativa” en el minuto quince de conversación. El estudio aconseja auditar sesiones completas, monitorizar desvíos y reiniciar el diálogo cuando detectemos inconsistencias mayúsculas.

El impacto social de este hallazgo pone en la cuerda floja a la confianza y accesibilidad de la IA, ya que quien se inicia en la IA suele probar, corregir, volver a pedir… y toparse con incoherencias que erosionan la confianza puede generar rechazo. La paradoja es que los usuarios expertos evitan el problema escribiendo prompts largos y específicos; los novatos —quienes más se beneficiarían de la conversación paso a paso— sufren las limitaciones actuales. Si aspiramos a una IA inclusiva, la fiabilidad debe convertirse en prioridad de diseño, no en mera métrica académica.

Buenas prácticas que ya funcionan

  • Consolida el primer mensaje, es decir, agrupa los requisitos antes de lanzar la consulta inicial.
  • Después de interaccionar con la IA, resume todo el contexto y envíalo de nuevo al modelo antes de seguir con la conversación.
  • Si la respuesta se alarga o contradice datos previos, fuerza un reinicio con el historial limpio.
  • Bajar la aleatoriedad (parámetro conocido como temperatura) reduce divagaciones, pero no corrige suposiciones erróneas.
  • Para formar a equipos y usuarios, enseña a detectar cuándo conviene empezar una conversación nueva en vez de añadir otro matiz.

Un mensaje para los creadores de modelos

El estudio lanza un reto claro a los laboratorios de IA: no basta con batir récords en benchmarks de un solo turno. La fiabilidad conversacional debe medirse, publicarse y mejorarse con la misma obsesión que la puntuación en un examen de comprensión lectora, para que la IA pueda llegar a ser un asistente brillante.

Cris Mont

Cristina Mont Castro

Licenciada en Periodismo y Comunicación Audiovisual y Executive MBA en ESADE. Actualmente es directora de Estrategia e Innovación del Grupo Lavinia.

Licenciada en Periodismo y Comunicación Audiovisual y Executive MBA en ESADE. Actualmente es directora de Estrategia e Innovación del Grupo Lavinia.

Dejar un comentario