HiTZ Zentroak euskerarako hizkuntza eredurik handiena landu dau: Latxa
2024-02-01 08:01 Euskerea berbagaiLehen bersino hau oinarrizkoa izango da chatbots moduko tresnak eregiteko.
Hizkuntza-eredu handi bat, edo LLM ingelesez, adimen artifizialeko eredu bat da, giza hizkuntzea ulertu eta sortzeko ikaskuntza automatikoko teknikak erabilten dituana, datu-multzo masiboetatik sortutako ezagutzan oinarrituta. Euskereak be badau bere hizkuntza-eredu handia: Latxa. Meta-ren LLaMA ereduetan oinarrituta dago, eta 7-70 mila miloe parametro arteko ereduak batzen ditu. Gaur egungo LLMek errendimendu harrigarria dabe baliabide ugariko hizkuntzetan, adibidez ingelesarako ChatGPT edo Bard-ek dituenak. Euskerea eta baliabide urriko beste hizkuntzen kasuan, ostera, hareen errendimendua zorizko asmetatik hur dago. Honek baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa handitu egiten dau, tresna digitalei jagokenez behinik behin. UPV/EHUko Hizkuntza Teknologiako HiTZ Zentroak Latxa jorratu dau, muga horreek gainditzeko eta LLMetan oinarritutako euskerazko produktu, barrikuntza eta produktuen garapena sustatzeko. Lan hau Eusko Jaurlaritzeak lagundu dau (IKER-GAITU proiektuaren barruan).
Latxaren ereduak aldez aurretik trebatutako oinarrizko ereduak dira, erabiltzaileari zuzendutako jarraibide edo hobespenetan findu ez diranak. Eredu honeek ez dira, beraz, publiko orokorrak zuzenean erabilteko. Alabaina, eredu honeek oinarrizkoak dira euskerarako hizkuntza-teknologia darabilten tresna arrakastatsuak eregiteko: Eredu edegi honeek kaleratzen ditugu teknikari adituek produktuak garatzeko erabili deiezan edo eredua bera aplikazino jakinetara doitu edo erregularizau deiezan. Dagoeneko erabiltzaileen jarraibideak segiduteko kapaz diran ereduak lantzen gabiz, baina oraindino ez dago garbi publiko orokorrak GPTgaz gaztelaniaz edo ingelesez lortzen dan besteko kalidadea dabenn ereduak eregi daitekezanik euskerarako. Hori da, hain zuzen, gure ikerketen jomugea eta beraz oraingo hau lehen bersino bat bezela hartu daiteke, ikerketearen ondorioz eredu hobeak sortu nahi ditugu eta, azaldu dau Eneko Agirrek, HiTZ Zentroko zuzendariak. Ereduak garatzeko GPU muetako zerbitzariak erabili ditue eta azken ereduak CINECAko Leonardo superordenagailuan entrenau ditue EuroHPC Joint Undertaking barruan (EHPC-EXT-2023E01-013 proiektua).
Eredua eregiteko testu multzoari jagokonez, EusCrawl erabili dabe, euskerazko testuez osotutako testu multzoa, 1,72 miloe dokumentu eta 288 miloe berba dituana. EusCrawl kalidadeko edukia daben 33 webguneetatik erauzi zan, internetetik corpusak osotzeko beste teknikak baino kalidade hobea eskainiz.
Ereduen kalidadea ebaluetako, hainbat gaitasun linguistikotan ereduen gaitasuna neurtzen dabe, besteak beste, irakurketen ulermena, sen ona eta arrazoibidea, sentimenduen analisia, jarrerak antzemotea, gaien sailkapena, korreferentzia, inferentzia eta berben adierak.
Irudiak ereduen errendimendua erakusten dabe atazaz ataza eta emoitzen batez bestekoa eskuineko aldean: Ingelesezko LLaMA ereduak eta orain arteko euskerea batzen daben hizkuntza eredu onenetariko batzuk probau ditugu, gure ereduakaz buruz buruko alderaketa ahalbidetzen dabenak. Badakigu gure hiru ereduak dirala onenak eta neurria handitu ahala emoitzak be hobetzen doazela, azaldu dau Agirrek.
Latxa ereduek LLaMA-2 License dalakoari segiduten deutse, ikerkuntzarako eta jarduera komertziala baimentzen dauena: Nahiz eta ingelesezko ereduetan egon oinarrituta, gure ereduak euskeraz erabilteko pentsau dira, eta beraz, beste hizkuntzatan daben kalidadea ez dogu bermatzen, esan adu HiTZeko zuzendariak.
Ereduak HuggingFace dagoz eskuragarri.
Erantzun
Erantzuteko, izena emanda egon behar duzu. Sartu komunitatera!