Eredu neuronal barria euskerazko adimen artifizialerako

Bizkaie! 2024-09-12 08:23   Euskerea berbagai

10 mila miloe parametro baino gitxiagokoen artean euskerarako dagoan eredurik aurreratuena da hau.

Adimen artifizialean aurrera egiteko ikerketak ugari doguz azken aldion. Hizkuntza naturalaren prozesamenduak oztopo bereziak jarten deutsee baliabide gitxiko hizkuntzei, ez baitabe hizkuntza handien neurri berean aurrera egiteko behar aina testu edo datu-bilduma eta baliabide konputazionalik. Horrenbestez, bestelako estrategia batzuk erabili behar dira hizkuntza handietan erabilitako adimen artifizialeko tresnak euskerara ekarteko eta estrategia horreen bilaketan aurrerapauso handiak emoten dabil euskal ikertzaile-komunidadea.

Orai NLP Teknologiak Elhuyarren adimen artifizialeko zentroak Llama-eus-8B garatu dau, hizkuntza-eredu neuronal barri bat (LLM, Large Language Model), euskera idatzia ulertzea eta sortzea eskatzen daben adimen artifizialeko sistemak errazago jorratzeko diseinautakoa. Llama-eus-8B eredu fundazional bat da, hau da, adimen artificial sortzailearen (edo txatbot ezagunen) oinarritzat erabilten dan eredu-muetea. Eredu fundazional arinen esparruan (10 mila miloe parametro baino gitxiagokoak) euskerarako dagoan eredurik aurreratuena da hau.

Arlo akademikoan zein industrialean euskerazko teknologien garapena eta ikerketea errazteko asmoz, Llama-eus-8B modu librean eskuratzeko moduan jarri da. Eredua BasqueLLM ikerketa-proiektuaren barruan jorratu da, Gipuzkoako Foru Aldundiak partzialki finantziau baitau, Gipuzkoako Zientzia, Teknologia eta Barrikuntza Sarea Programearen bidez.

Oraik Llama-eus-8B oinarri legez erabiliko dau euskerea ulertzeko eta sortzeko gaitasun sakona eskatzen daben zenbait tresna garatzeko, besteak beste, zuzentzaile gramatikalak, edukiak sortzeko sistemak, hezkuntza-materialak sortzeko sistemak, bilatzaileak, txatbotak eta itzultzaile automatikoak.

Xabier Saralegi BasqueLLM proiektuaren ikertzaile nagusiaren arabera, “gaur egun entrenamendu estrategia alternatiboakaz esperimentetan gabiz, euskerazko testu bilduma handiagoen beharrik barik emoitzak hobetu ahal izateko. Ingelesez ikasitako gaitasunak euskerara ekartea ahalbidetuko daben estrategiak bilatzen gabiz”.

Ingelesezko miloeka testutatik ikasitako gaitasunak euskerara transferidutea Llama-eus-8B garatzeko, Meta-ren Llama3.1-8B eredu barriena erabili da oinarrizko eredutzat (8 mila miloe parametroko kode edegiko eredua da). Hizkuntza-eredu neuronal hori ikasketa automatikoko algoritmoen bidez sortu da, testu-bilduma handi bat erabiliz (15 biloe berba), gehienak ingelesez, eta oso eraginkorra da hizkuntza horretan (eta beste hizkuntza nagusi batzuetan), hizkuntza-gaitasunak eskatzen dituen atazak automatizetako (itzulpen automatikoa, laburpen automatikoa, edukien sorkuntzea, alkarrizketa-sistemak…). Halan da be, euskerazko errendimendua oso mugatua da.

Euskerazko testu-bilduma erraldoirik ez dagoanez eta euskerarako holako eredu bat hutsetik entrenetako beharrezkoak diran eskakizun konputazionalak oso handiak diranez, “Llama3.1-8B-tik abiatzea erabagi dogu, oinarri sendoa baitau. Helburua ingelesezko miloeka testutatik ikasitako gaitasunak euskerara transferidutea izan da, ikasketa automatikoko algoritmoen bidez eta euskerazko testu-bilduma bat erabiliz”, adierazo dau Xabier Saralegi Oraiko hizkuntza-teknologien arduradunak.

Horretarako, Oraik orain hilebete batzuk batutako ZelaiHandi corpusa erabili da, lizentzia librea eta kalidade handikoa dan euskerazko edukia baino erabilten ez dauen euskerazko corpusik handiena. Ingelesaren eta euskerearen arteko gaitasunen transferentzia hobetzeko, ZelaiHandiko testuak ingelesezko testuakaz buztartu dira.

Erantzun

Erantzuteko, izena emanda egon behar duzu. Sartu komunitatera!

»» Alta eman edo pasahitza berreskuratu