HiTZ zentroaren Latxari buruzko lanak nazinoarteko saria jaso dau

Bizkaie! 2024-10-02 08:11   Euskerea berbagai

Euskereak ikerkuntzan dauen indarra nabarmendu da.

Association for Computational Linguistics hizkuntzearen teknologiari buruzko alkarte zientifiko Nagusia da. Bere kongresua gai honetan dabizen ikertzaileen publikazino zientifikoen gune nagusia eta prestigiosoena da. Aurten Euskal Herriko Unibersidadeko (UPV/EHU) HiTZ Hizkuntza Teknologiako Zentroak eregitako Latxa hizkuntza ereduari buruzko artikulua saritu dau. Kongresu berean, euskereak ikerkuntzan dauen indarra nabarmendu da, 1.200 artikulu baina gehiagotan aitatzen baitira heran inguruko esperimentuak.

Aitatu alkarte zientzifikoak Bangkoken atondutako kongresura 4.400 artikulutik gora bialdu izan dira eta 5.000 errebisoretik gorako batzordeak 940 besterik ez ditu onartu. Publikazino gune entzutetsuenekoa izanda kalidade hobereneko artikuluak besterik ez dira publikau.

Autoreen artean unibersidade, ikerketa-zentro eta enpresa nagusietako ikerlariak izaten dira, besteak beste, Microsoft, Meta eta Apple. Onartutako ikerkuntza lanetatik 14 artikulu aukeratu ditue sarietarako, tartean Latxa hizkuntza ereduari buruzkoa. Sari banaketa kongresura hurreratu diran 4.000 ikerlarien aurrean egin zan.

Hizkuntza eredu handi bat, edo LLM ingelesez, adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabilten dituana, datu multzo masiboetatik sortutako ezagutzan oinarrituta. UPV/EHUko HiTZ zentroak garatutako Latxa euskerarako hizkuntza ereduen familia bat da eta lizentzia libreko testuen corpus handienagaz eta hizkuntza gaitasunari, irakurmenari, kultura orokorrari eta azterketa profesionalei buruzko zenbait proba bankugaz banatzen da. Latxak orain urte bi abiarazotako jatorrizko ChatGPT bersinoa (orain GPT 3.5 lez ezaguna) gainditzen dau eta baliabide digital urriko hizkuntza baten eredu edegi batentzat lehenengo aldiz, GPT-4 gainditzen dau hizkuntza gaitasunean. Latxa deskribiduten dauen artikulu zientifikoan corpusak zelan batu diran, eredua zelan entrenau dan eta ebaluazinorako datu-multzoak zelan eregiten diran deskribiduten dira.

Julen Etxaniz egile nagusietako bat da, Naiara Pérezegaz eta Oscar Sainzegaz batera, eta Bangkok-en izan da lana aurkezten eta saria jasoten. Julen Etxanizek ondokoa aitatu dau: saria emotean azpimarratu izan da Latxa ereduetatik harago doala, baliabide urriko beste hizkuntzatara zabaldu daitekeen metodologia eta ingurune esperimentala planteetan baititu, zientzia edegiaren arloari jarraituz. Sarituen artean unibersidade eta ikerkuntza-zentro entsutetzuenak egozan eta bertan gure unibersidadea aitatu izanak zirrara berezia emoten dau. Naiara Pérezek hau gaineratu dau: Interneten dagozan testuen arabera, euskerea munduko hizkuntzen 50. postuan dago. Euskereari aplikautako teknikak kopuru antzekoa dauen beste hizkuntza askotan be aplikau daitekez eta Latxagaz batera eregi dogun azpiegitureak aukerea emoten deutse ikertzaileei teknika hobeagoetan ikertzeko, hizkuntza horreen guztien onurarako.

Ikerketarako datu eta baliabideak euskeraz egotearen garrantzia

Kongresuan bertan nabarmendu izan da hizkuntza guztiak ez dabela arreta bera jasoten ikerlarien aldetik. Jakina da hizkuntza nagusienetan egiten dirala esperimentu gehienak, baina aldi berean beste hizkuntza batzuek arreta gitxiago jasoten dabe, batez be hiztun kopurua edo hiztunen aberastasuna txikia diranean. Honek hizkuntza horreetarako merkaturatzen dan teknologian izan leiken eragin negatiboa azpimarratu da Cohere enpresak egin dauen berbaldian. Salbuespenak egon badagoz eta horreen artean euskerea aitatu da. Nahiz eta ingelesa izan artikulu zientifikoetako esperimentuetan gehien erabilten dana, hizlari gitxiko hizkuntza batzuk atentzinoa deitu dabe, tartean euskerea, 1.200 artikulu baina gehiagok erabilten baitabe eurenberaien esperimentuetan. UPV/EHUko HiTZ zentroko zuzendari dan Eneko Agirre artikuluaren autoreetako bat be bada eta erabilera horren garrantzia azpimarratu dau: Latxaren inguruan banatu diran corpus eta ebaluazinorako datu edegiak veste bultzada bat emongo deutse euskereak eta euskerearen inguruan egindako ikerketeak dauen prestigio eta zabalkundeari. Eta horri esker kanpoko eta bertako ikertzaileek euskeraz lortzen dituen emoitzak hobetzen joatea espero dogu.

Informazino gehiago

Artikulua, ereduak, corpusak eta proba bankuak hemen eskura daitekez. Latxa ereduak Llama-2 License izenekoa hartzen dabe oinordetzan. Eredu horrek ikerketa eta merkataritza jarduera ahalbidetzen ditu.  

Latxa Eusko Jaurlaritzeak finantziautako IKER-GAITU proiektuaren esparruan garatu da. Eraldaketa Digitalerako eta Funtzino Publikorako Ministerioak eta Suspertze, Eraldatze eta Erresilientzia Planak, Europar Batasuneko NextGenerationEUk be finantziau dau, ILENIA proiektuagaz lankidetzan, 2022/TL22/00215335 erreferentzia dauena. HiTZek errendimendu handiko konputazino azpiegitura (HPC) propioa erabili dau eta azken ereduak CINECAren Leonardo superordenagailuan entrenau dira, EuroHPC Joint Undertaking barruan (EHPC-EXT-2023E01-013 proiektua).

Erantzun

Erantzuteko, izena emanda egon behar duzu. Sartu komunitatera!

»» Alta eman edo pasahitza berreskuratu