Impulsant l’ús del català en l’era digital

Infraestructures d’Aina

El projecte Aina es coordina des del Barcelona Supercomputing Center (BSC-CNS), un centre pioner que és referent en l’àmbit de la supercomputació. El superordinador MareNostrum 5 habilita el processament de dades massives i l’execució de models lingüístics avançats i pioners en el sector.

aina

El superordinador té una capacitat de 314 petaflops i està ubicat a l’àrea de la UPC-Campus Nord-Barcelona Tech. MareNostrum 5 té una potència pre-exaescala 100 cops superior al MareNostrum 4. Un avanç que suposa una gran oportunitat per a l’execució de recursos i tecnologies del llenguatge que requereixen altes prestacions.

Gestió de dades, un esforç col·lectiu

En la tasca del desenvolupament de recursos lingüístics, Aina treballa amb dades textuals i de veu que rep gràcies a la col·laboració dels usuaris i d’altres recursos disponibles. De fet, el projecte treballa amb entitats de la comunitat lingüística i d’altres sectors per tal de recollir i processar grans quantitats de dades.

Els models de llengua són clau per al desenvolupament de noves aplicacions. Aina treballa en la generació i actualització d’aquests models, ja sigui mono o multilingües o multimodals.

També es col·labora en la implementació i inclusió de mòduls i llibreries per al català en entorns i plataformes de referència per garantir la correcta cobertura de la nostra llengua.

aina

Uneix-te a Common Voice i forma part de l’esforç per posicionar el català com una de les llengües amb més recursos disponibles dins de l’àmbit digital.
Destacades organitzacions com Google han inspirat els seus models lingüístics com PaLM2 a través de les dades recollides en aquests repositoris.

Construcció de models pioners

La generació de models lingüístics entrenats és un pas fonamental per a la generació d’aplicatius basats en la intel·ligència artificial. Per això, l’objectiu d’Aina és l’entrenament de models que puguin suposar un progrés en termes de seguretat i eficàcia de resposta.

La generació dels models coneguts com a large language model (LLM)
és un procés progressiu que permet evolucionar exponencialment en la creació de nous models, reduint el cost i els recursos per entrenar nous models òptims. Un dels punts de partida és la generació del model Aguila 7b, entrenat amb un total de 26B tokens i que, al mateix temps, compta amb 7B de paràmetres. És el darrer codi font obert LLM preliminar llançat pels investigadors de la unitat de tecnologies del llenguatge del Barcelona Supercomputing Center (BSC).

aina

Figura 1: Ǎguila exemple d'instrucció d'un sol torn

notícies científiques

Model Flor 6.3B disponible a Hugging Face

notícies científiques

Model Aguila 7b disponible a Hugging Face

El disseny dels LLM multilingües permet impulsar el sector de la intel·ligència artificial i elprocessament de llenguatge natural a Catalunya. També per optimitzar processos iinternacionalitzar productes, millorar el servei de les administracions públiques, accedir a contingutsen català en l’àmbit digital i del sector de l’entrenament per part de la ciutadania , així com fomentarl’intercanvi de tecnologia i coneixement per part dels investigadors a la comunitat científica.

Actualitat

Esdeveniments