Investigadores del Data Analytics Lab de la Vrije Universiteit Brussel, la KU Leuven y la Harvard University analizan miles de referencias generadas por LLMs y descubren una tendencia a favorecer trabajos muy citados, recientes y con formatos más simples
A medida que los grandes modelos de lenguaje (LLMs) se integran cada vez más en el proceso de investigación científica, su impacto en prácticas fundamentales como la citación de trabajos previos se vuelve un área clave de estudio. Una investigación reciente realizada por investigadores del Data Analytics Lab de la Vrije Universiteit Brussel, la KU Leuven y la Harvard University analizó 274.951 referencias generadas por GPT-4o para 10.000 artículos científicos y encontró que, si bien las recomendaciones de la IA son semánticamente relevantes, introducen sesgos sistemáticos que podrían reforzar patrones de citación dominantes y existentes.
El estudio se centró en evaluar la capacidad de GPT-4o para generar referencias basándose únicamente en el título, autores, año, revista y resumen de un artículo. Uno de los hallazgos más significativos es que los LLMs refuerzan sistemáticamente el «efecto Mathew» en las citas. Este fenómeno describe cómo los trabajos ya altamente citados tienden a acumular aún más citas con el tiempo. Imagina que le pides a una IA que te sugiera lecturas sobre un tema científico. Los investigadores descubrieron que, cuando la máquina escoge citas de artículos que de verdad existen en las bases de datos académicas, casi siempre apunta a los “súper-ventas” de la ciencia: los trabajos más famosos y citados. De hecho, 9 de cada 10 de esas citas corresponden al 10 % de artículos más influyentes de su especialidad, y 6 de cada 10 pertenecen al 1 % más citado.
Es decir, la IA se inclina claramente hacia los grandes éxitos antes que hacia los estudios menos conocidos, y eso se nota no solo en las citas académicas sino también en patentes, ensayos clínicos y menciones en prensa y redes sociales.
Sesgos de GPT-4o: del ‘efecto Matthew’ a la preferencia por lo nuevo
El estudio también vio otros patrones curiosos. GPT-4o prefiere trabajos recientes, títulos cortos y con pocos autores. Lo primero refleja nuestro propio gusto por la novedad; lo segundo coincide con la percepción de que los títulos concisos son más fáciles de recordar; lo tercero choca con la realidad de que los equipos de investigación hoy suelen ser numerosos. Finalmente, la IA muestra debilidad por las revistas de mayor renombre, reforzando así un “efecto Matthew”: a quien ya tiene visibilidad, se le da aún más.
A pesar de estos sesgos, la IA tiene buena puntería. Cuando propone citas, suele elegir trabajos que realmente encajan con el tema (los científicos lo miden con un índice de “parecido” y la máquina empata con los autores humanos). Si dibujamos un mapa de “quién cita a quién” usando solo las referencias sugeridas por la IA, el gráfico se parece bastante al que haríamos con citas tradicionales, muy lejos de un revoltijo al azar. Otra pista de que GPT-4o no se limita a recitar de memoria: apenas coincide con la lista de referencias original de los artículos que analiza. En lugar de copiar, detecta patrones aprendidos en su entrenamiento y propone estudios que cuadran con la conversación, aunque nunca hayan aparecido en la bibliografía del artículo de partida.