Aina presenta a Portugal recursos i tecnologies de veu en català

Investigadors/es d'Aina presenten les tecnologies de veu a Portugal

Els investigadors/es del Projecte Aina, Alex Peiró, Carme Armentano, Jose Giraldo, Carlos Mena, Abir Messaoudi, Sarah Solito i Federico Costa.

Investigadors/es del Projecte Aina viatgen a Portugal a presentar les darreres novetats en tecnologies de veu. L’Iberspeech s’ha celebrat enguany a la Universitat d’Aveiro entre l’11 i el 13 de novembre. L’any 2024 ha estat clau en el desenvolupament de recursos i conjunt de dades (datasets) per millorar i optimitzar models com el Matxa-TTS i altres tecnologies de veu amb les quals treballa l’equip tècnic del Projecte Aina.

El congrés és un punt de trobada per a tots aquells equips que investiguen sobre tecnologies de veu en l’àmbit de les llengües ibèriques. Una gran oportunitat també per promoure i impulsar la col·laboració entre la indústria, la universitat i tot l’àmbit de l’acadèmia. En aquest sentit, representa una eina clau per intercanviar coneixement i impressions sobre les diferents aproximacions als recursos i tecnologies desenvolupades com són els sistemes de reconeixement de veu (ASR) o els models de síntesi de veu (TTS), entre altres.

Investigadors presenten els darreres desenvolupaments d'Aina Presentació de LaFresCat a Aveiro, Portugal

Tecnologies en permanent evolució

Durant els tres dies, l’equip d’Aina ha presentat alguns dels desenvolupaments més destacats com el corpus treballat amb les dades obtingudes de 3cat. Un recurs que conté més de 731 hores i 21 minuts de dades i que inclouen transcripcions manuals. Totes aquestes dades han estat a més verificades mitjançant quatre sistemes d’ASR diferents. També s’han presentat les característiques principals del dataset “LaFresCat“, un dataset clau amb 3,5 hores enregistrades en diferents variants dialectals del català. La FresCat ha estat crucial en l’entrenament del model Matxa-TTS, la solució de síntesi de veu que té en compte la representativitat cultural del català.

En aquest sentit, Aina proposa també noves arquitectures que permeten millorar en l’àmbit de la detecció i transcripció automàtica de converses. L’objectiu és millorar aquesta tècnica en entorns on hi ha més soroll i la veu pot ser més difícilment traçada. Tot plegat s’assoliria a través de la integració d’informació extralingüística i combinant àudio i text en els “sistemes de diàleg”. Així i tot, són només algunes de les novetats presentades en el marc de l’esdeveniment. Durant el congrés, també es van abordar tècniques per millorar la qualitat dels datasets que incorporen aportacions col·lectives com és el cas de les dades obtingudes a través de la iniciativa Common Voice. Es tracta d’una aproximació que permet millorar aquestes dades, i aplicar un filtratge previ a l’ús per l’entrenament de models de síntesi de veu. Un procés que segons un estudi del Projecte Aina, milloraria lleugerament la qualitat d’aquests recursos d’àudio.

En aquest sentit, congressos com l’Iberspeech són clau per l’intercanvi de coneixement. A través de les experiències compartides amb investigadors d’altres centres i projectes es perfilen les accions i la recerca que es porta a terme. Es tracta d’una gran oportunitat per millorar tots els processos en el marc de la generació dels recursos lingüístics. A més, tots els desenvolupaments ja estan disponibles a l’Aina Kit.

22 de novembre de 2024 | Notícies científiques |