El Projecte Aina ha compartit els darrers avanços tecnològics durant l’edició d’enguany del LREC-Coling 2024. L’esdeveniment ha tingut lloc entre els dies 20 i 25 de maig a Torí, Itàlia. Entre els diferents desenvolupaments, els investigadors/es de la Unitat de Tecnologies del Llenguatge del Barcelona Supercomputing Center han presentat els recursos d’IA més avançats i publicats en obert a través de presentacions i pòsters. Un fet que reflecteix el lideratge en l’àmbit del processament del llenguatge natural des de les dades obertes i en català.

Presentació de dades

Un dels treballs, liderat per Aitor González-Agirre, es titula “A CURATEd CATalog: Rethinking the Extraction of Pretraining Corpora for Mid-Resourced Languages. Un treball que proposa una metodologia innovadora per l’extracció de dades d’entrenament per a llengües que no disposen d’un gran suport de recursos digitals. El resultat, el dataset CATalog és un exemple d’un conjunt de dades de gran qualitat i òptim pel preentrenament de models de llenguatge. Recursos que reforcen la precisió i asseguren una representació més acurada de la llengua.

Els investigadors Javier Saiz i Ferran Espuña presenten el projecte CATalog

Els investigadors Javier Saiz i Ferran Espuña presenten el projecte CATalog

Sobre dades, també s’han presentat els darrers resultats de la Iniciativa Common Voice, amb la investigadora Carme Armentano al capdavant. En el document  “Becoming a High-Resource Language in Speech: The Catalan Case in the Common Voice Corpus” s’evidencia l’èxit de la campanya col·lectiva impulsada, en part, també a través del Projecte Aina. A la publicació es recullen les claus de les fites assolides, però també es destaquen els reptes hi ha per davant, de cara assolir més precisió i disposar de més informació sobre les veus enregistrades.

La investigadora del BSC Carme Armentano presenta els resultats de la iniciativa Common Voice

La investigadora del BSC Carme Armentano presenta els resultats de la iniciativa Common Voice

Presentació de models

Durant el LREC-Coling 2024 també s’han presentat alguns dels models generats per Aina com és el Flor 6.3B. Un model operatiu que es va presentar el passat desembre i que acumula milers de descarregar. A la publicació “FLOR: On the Effectiveness of Language Adaptations’aborden les millores que presenta el preentenament de models amb l’adaptació del vocabulari, comparat amb altres tècniques utilitzades pel preentenament de models de tecnologies del llenguatge.

Els investigadors Severino Da Dalt i Joan Llop presenten el model Flor

Els investigadors Severino Da Dalt i Joan Llop presenten el model Flor

Aquest són només alguns dels treballs presents a l’esdeveniment. Un espai clau per compartir coneixement i sinergies entre la comunitat científica internacional. També s’han abordat altres projectes com és la construcció d’una infraestructura de dades pel català o l’anàlisi del biaxos de gènere en la traducció automàtica.

El Projecte Aina té com a objectiu impulsar la presència del català en l’era digital. Al mateix temps, amb la infraestructura desenvolupada fins al moment, el projecte esdevé referència per a iniciatives a altres païssos i per a operadors internacionals interessats a impulsar llengües no globals. El memoràndum d’entesa signat pel BSC amb la GSMA, Veon i Beeline en el marc de l’Aina Challenge n’és un exemple.

27 de maig de 2024 | Notícies científiques |