Investigadors del Barcelona Supercomputing Center (BSC) publiquen un primer model de gran llenguatge de codi obert (LLM), llicenciat tant per a la investigació com per a l’ús comercial anomenat “Àguila”. Es tracta d’un LLM de 7B paràmetres format en 26 mil milions de fitxes de dades en espanyol, català i anglès basades en falcon-7b, un model de llengua anglesa d’última generació que es va publicar obertament fa tan sols uns mesos. Tota aquesta informació permet al model desenvolupar tasques complexes com escriure i enviar correus electrònics des de zero o suggerir una resposta per començar a parlar en converses quotidianes seguint els patrons de comportament humans.

Aquests experiments preliminars demostren que el model Àguila ha demostrat tenir algunes capacitats impressionants. Els experts del BSC esperen que la major part dels coneixements adquirits es conservin en altres punts de control pre-entrenats que permetin la transferència de coneixement entre idiomes i reduir en gran mesura el cost de formar un model de xinxilla òptim en breu. Els investigadors del BSC van plantejar la idea d’utilitzar un LLM anglès com a punt de partida per formar un model per al català i el castellà.

Específicament, van adaptar el model [falcon-7b] (https://huggingface.co/tiiuae/falcon-7b) per a aquests dos idiomes intercanviant el tokenitzador i ajustant la capa d’incrustació. “La motivació principal és aprofitar el coneixement adquirit per Falcon a partir d’una gran quantitat de dades en anglès i transferir-lo a altres llengües de destinació”, diu Marta Villegas, líder de l’equip BSC de la unitat de Tecnologies del Llenguatge. La formació es compon de fitxes 26B que inclouen dades en castellà i català en proporció igual (aproximadament un 40% cadascuna) i una quantitat menor de dades en anglès (~17%). Els experiments preliminars amb Aguila mostren algunes capacitats impressionants com es veu en l’exemple següent que mostra el comportament del model en un entorn de pocs trets:

aguila-exemple-instrucció-sol-torn

Àguila es basa en el model Falcon-7b, que és un model de llengua anglesa d’avantguarda recentment posat a disposició per l’Institut d’Innovació Tecnològica.

Fins ara, els investigadors del BSC només han realitzat un estudi qualitatiu a petita escala, però tenen la intenció de realitzar una avaluació humana exhaustiva i recollir resultats d’experiments de zero i pocs resultats en els punts de referència estàndard en un futur pròxim. Els investigadors del BSC estan treballant en l’alineació del model mitjançant un corpus d’instruccions en anglès, espanyol i català.

Projecte Aina | Comunicació i premsa
press.languagetech@bsc.es

7 de desembre de 2023 | Notícies científiques |