El model Salamandra compta amb versions de 2, 7 i 40 mil millions de paràmetres

Tots els recursos estan disponibles per a la seva integració a través de l’Aina Kit

Les diferents versions de la família de models Salamandra ja estan disponibles. Es tracta de 3 versions diferents, la de 2B de paràmetres, de 7B i de 40B.  Es tracta d’una fita fonamnetal pel Projecte Aina, impulsat per la Generalitat de Catalunya i desenvolupat pel Barcelona Supercomputing, ja que fa un pas endavant en la creació d’una infrastructura d’IA pública i multilingüe. El model Salamandra representa és el primer gran model de llenguatge entrenat des de zero a través de les capacitat de supercomputació que ofereix el MareNostrum 5, ubicat al Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS).

Els models compten també amb versions instruïdes i quantitzades, facilitant la seva adopció per part d’empreses i organitzacions interessades. En total les versions dels models Salamandra 2B compten ja amb més de 45mil descàrregues, les del 7B més de 81mil i les del 40B, més de 5mil. Són unes dades que mostren el gran interès de l’ecosistema per a integrar recursos d’IA en català i en obert.

Família de models Salamandra del Projecte Aina

 

El model Salamandra és un dels grans models de llenguatge de font oberta desenvolupats a Europa i que promou un ús responsable de la IA, a través d’un tractament acurat de les dades d’entrenament. En concret, el dataset inclou 35 llengües europees amb més de 2 trillions de tokens. A través de les diferents èpoques d’entrenament es garanteix una representativitat acurada de les diferents llengües com el català. Totes les dades d’entrenament així com, avaluacions i limitacions del model, estan disponibles a la informació de cada model a Hugging Face.

29 de maig de 2025 | Notícies científiques |