El primer modelo de lenguaje en español ya tiene fecha

El modelo ALIA de lenguaje fundacional en español y lenguas cooficiales llegará en septiembre. Así lo han afirmado fuentes del Ministerio para la Transformación Digital y la Función Pública. El modelo grande, que contará con 175 miles de millones de parámetros (como GPT-3.5), será la base de la que partirán otros más pequeños y especializados en áreas de conocimiento específicas.

El objetivo del Ministerio es contar con esta herramienta lo antes posible para que pueda ser adoptada en la creación de aplicaciones concretas. A diferencia de la mayoría de modelos, que cuentan con tan solo un 5% de datos en castellano, ALIA incorporará más de un 20%. Esto supondría un salto cualitativo en fiabilidad y reducción de sesgos, según esas mismas fuentes.

El modelo en español y lenguas cooficiales cuenta con una inversión de 2,2 millones de euros y su aplicación a sectores concretos costará otros 3 millones. A lo que hay que añadir la construcción del repositorio de datos para su entrenamiento, con un coste de 3,4 millones.

Este será seguramente una de las barreras a superar: conseguir tener acceso a un corpus de conocimiento suficientemente amplio para entrenar el modelo. En este sentido, la directora de la Unidad de Tecnologías del Lenguaje del CNS–BSC, Marta Villegas, ya explicó en una entrevista para Paréntesis MEDia que habían hecho «un esfuerzo para ir más allá de los datos disponibles en internet«, como los de Common Crawl, y estaban entrenando este modelo con actas del Congreso y del Senado y textos de revistas científicas, entre otras fuentes.

Transparencia y derechos de autor

Estos modelos se plantean con otro punto diferencial: pretenden ser transparentes y abiertos. Esto significa que se seguirán las pautas del Reglamento de IA en su elaboración. Además, el Ministerio para la Transformación Digital colaborará estrechamente con el de Cultura para abrir un diálogo con las asociaciones que representan a los creadores. En todo momento se respetarán, según el Ministerio, los derechos de autor de los documentos usados en su entrenamiento.

Una familia de modelos

Una vez se publique el modelo fundacional y hasta finales de 2024, se trabajará en el entrenamiento de modelos específicos que aborden diferentes áreas de conocimiento con gran precisión. En esta línea, se podrían personalizar los modelos para ser funcionales en el sector sanitario, territorio, justicia, medioambiente o gestión tributaria; también pensando en su aplicación en el sector público.

Estrategia de Inteligencia Artificial

Estos proyectos forman parte de la Estrategia de Inteligencia Artificial impulsada por el Gobierno para el periodo 2024-2025 y dotada con 1.500 millones de euros. El objetivo es impulsar la investigación en estas tecnologías y su adopción por parte del sector público y las empresas privadas (especialmente las PYMES).

La idea es también ofrecer herramientas para que los desarrolladores de software puedan usar el español en sus productos, como ocurre en Francia con la creación de Mistral. Todo ello irá de la mano con el desarrollo de la Agencia Española de Supervisión de la IA en A Coruña, que se encargará de controlar que estas tecnologías sean éticas, transparentes y se tengan en cuenta sus riesgos potenciales.

Toda revolución necesita sus cronistas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Etiquetas:

aplicaciones concretas datos en castellano Derechos Autor Estrategia IA lenguaje fundacional modelo ALIA modelo español repositorio datos

El primer modelo de lenguaje en español ya tiene fecha

Transparencia y derechos de autor

Una familia de modelos

Estrategia de Inteligencia Artificial

Etiquetas:

Adrián Soler

Entrada anteriorGuía para entender la Estrategia de Inteligencia Artificial impulsada por el Gobierno español

Siguiente entradaEl MareNostrum 5 se ampliará y se abrirá a la industria en 2025

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)