Skip to main content

En un movimiento que podría redefinir el entrenamiento de sistemas de inteligencia artificial, investigadores del Grupo Alibaba han desarrollado ZeroSearch, un marco de aprendizaje por refuerzo que elimina la necesidad de utilizar motores de búsqueda reales durante el entrenamiento

El entrenamiento de modelos de lenguaje de gran escala (LLM) que integran capacidades de búsqueda autónoma implica una enorme cantidad de consultas a motores de búsqueda, lo que genera costes elevados y datos de calidad impredecible. Como señalan los investigadores: “El entrenamiento mediante aprendizaje por refuerzo [RL] requiere ejecuciones frecuentes, que pueden implicar cientos de miles de solicitudes de búsqueda, lo que conlleva importantes gastos en API y limita severamente la escalabilidad”

La propuesta de ZeroSearch consiste en transformar un LLM, mediante unos pequeños ajustes, en un modelo de recuperación capaz de generar respuestas simuladas, tanto relevantes como irrelevantes, ante una consulta. Luego, a través de una estrategia de entrenamiento paso a paso, el sistema degrada progresivamente la calidad de los documentos generados, forzando al modelo a refinar su capacidad de recuperación. “Nuestro principal hallazgo es que los LLM han adquirido un conocimiento del mundo extenso durante el preentrenamiento a gran escala y son capaces de generar documentos relevantes a partir de una consulta de búsqueda”, explican en el anunció oficial.

Resultados prometedores con un gran ahorro

Uno de los aspectos más sorprendentes del estudio es que los resultados de ZeroSearch no sólo igualan, sino que en varios casos superan a los obtenidos usando motores reales. Un modelo con 7.000 millones de parámetros igualó a Google Search; otro de 14.000 millones incluso lo superó. A esto se suma una reducción radical en costes: entrenar 64.000 consultas con Google vía SerpAPI costaría unos 586,70 dólares, frente a los 70,80 dólares de ZeroSearch con cuatro GPUs A100. Esto representa una reducción del 88 %, un ahorro potencial enorme para desarrolladores e investigadores. “Esto demuestra la viabilidad de usar un LLM bien entrenado como sustituto de los motores de búsqueda reales en configuraciones de aprendizaje por refuerzo”, concluyen.

Más allá del ahorro, el control que ofrece este sistema sobre el contenido de entrenamiento es crucial. Los motores de búsqueda tradicionales introducen ruido e imprevisibilidad, mientras que un entorno simulado permite a los desarrolladores definir con precisión los datos que recibe la IA

En un giro irónico, ZeroSearch podría hacer menos relevantes a los motores de búsqueda para el propio desarrollo de IA. En la medida que los modelos se vuelvan más autosuficientes, la economía del desarrollo de inteligencia artificial podría experimentar un vuelco. Además, Alibaba ha publicado el código, modelos y conjuntos de datos en GitHub y Hugging Face, facilitando su adopción por parte de la comunidad.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Gerard Quintana

Periodista. Me encanta el periodismo y la tecnología.

Dejar un comentario