La recerca que enmarcada en el Projecte Aina, impulsat per la Generalitat de Catalunya, té com a objectiu el desenvolupament d’una infraestructura digital per al català. Al mateix temps, els investigadors treballen per a l’assoliment de noves millores seguint l’excel·lència en la recerca desenvolupada pel Barcelona Supercomputing Center (BSC-CNS). Un dels casos específics de la recerca és l’optimitzaió dels models de síntesi de veu (TTS) multidialectal. Al següent article que compte amb 3 diferents entregues, l’investigador del BSC-CNS, Martí Llopart, estudia com optimitzar un model TTS amb múltiples parlants per a una inferència més ràpida en CPU, en concret de Matxa i Alvocat, desenvolupat per l’equip del Projecte Aina.
Com optimitzar un model TTS amb múltiples parlants per a una inferència més ràpida en CPU / Optimizing a multi-speaker TTS model for faster CPU inference
Part 1
Our goal was to optimize🍵 Matxa, a Catalan multispeaker and multidialectal text-to-speech (TTS) model which uses 🥑 alVoCat as a vocoder. In the end, we obtained a 4.8x speedup for our model, here’s how we did it: (consulta l’article sencer).
Part 2
In this second part of the blog, I’ll explain in detail how we chose the previously mentioned ONNX settings for intra- and inter-operator parallelism. (consulta l’article sencer).
Part 3
In this final part of our blog, I’ll explain in a bit more detail some other optimization techniques that we tried, even if unsuccessfully. (consulta l’article sencer)
Accedeix al model Matxa-TTS
Accedeix a l’Aina Kit