El corpus de Common Voice: optimisme i reptes pendents

La publicació del darrer dataset de Common Voice confirma la consolidació del català com la llengua amb més hores enregistrades i validades a la plataforma. És una molt bona notícia per la comunitat lingüística catalana i pel desenvolupament d’eines d’IA en català. El creixement substancial de recursos és un fet que aporta optimisme, però al mateix temps evidencia alguns reptes pendents.

La disponibilitat de dades de veu permet una millora en la qualitat i dimensions dels models de llenguatge. És el cas del model de Text-To-Speech, TTS CA Coqui Vits Multispeaker que, entre els diferents datasets, es nodreix del dataset V12 de Common Voice. El nou dataset V17 de Common Voice disposa ara d’un total de 3500 hores, de les quals un 75% estan validades. Són dades que recull l’estudi liderat per la investigadora del Barcelona Supercomputing Center, Carme Armentano, presentat a l’esdeveniment LREC-Coling 2024. A continuació es recullen les dades clau de la presència del català a la iniciativa Common Voice.

La iniciativa Common Voice, en dades
Infogram

La identificació dels parlants i les aportacions

La plataforma Common Voice és un instrument clau que permet fer una tasca col·laborativa per tal de recollir dades de veu multilingües i de font oberta. Així i tot, les dades mostren com encara un 30% de les aportacions en expressions no acompanyen dades demogràfiques dels usuaris. Aquest fet suposa un gran repte a l’hora d’analitzar i explotar el corpus de dades de veu que es deriva de les aportacions a Common Voice.

A més, segons el que apunten les investigadores a Becoming a High-Resource Language in Speech: The Catalan Case in the Common Voice Corpus els usuaris han demostrat una major voluntat en l’enregistrament de veu que no pas en la validació d’aquests fragments. Per això, la incorporació de dades textuals a través de les oracions es converteix en una de les tasques crucials del procés. La necessària validació de totes les aportacions incrementa encara més aquesta necessitat en suprimir gairebé el 89% de les expressions recollides.

Tot i això, amb les dades aportades s’evidencia un biaix demogràfic important, no només per la predominança de veus masculines sinó també per la seva procedència. Encara en el darrer dataset, la majoria de les aportacions responien al dialectal central, mentre la resta no equivalen ni al 20% de les aportacions. Els elements esmentats i les mateixes restriccions legals de les aportacions acaben esdevenint reptes per a la consolidació del català com a llengua amb un nombre important de recursos digitals.

30 de May de 2024 | Scientific news |