Euskorpora alkartera batu da EHU/UPVE

Bizkaie! 2025-04-01 12:08   Euskerea berbagai

Eusko Jaurlaritzeak sustatutako Euskorpora alkarteko bazkide barria da UPV/EHU.

Euskerearen corpus digitala sortzeko misinoaren barruan, unibersidadeak egingo dauen ekarpena Euskerea eta Hizkuntza Plangintzarako Errektoreordetzeak eta HiTZ zentroak liderauko dabe, urte askotako ibilbidea, jakintza eta eskarmentua nahiz egungo ikerketa lerroak oinarri hartuta. HiTZ Hizkuntza Teknologiako Euskal Zentroak hizkuntza idatzia eta ahotsa lehengai dituan adimen artifizialean ikerketa, prestakuntza, transferentzia teknologikoa eta barrikuntzea sustatzen ditu.  

EHUko Euskera eta Hizkuntza Plangintzarako Errektoreorde Igone Zabalaren esanetan, oinarrizkoa da corpus digitala sortzea eta modu aktibo eta metodikoan garatzea euskerea eraldaketa digitaletik kanpo ez geratzeko. EHUk ekarpen handia egin leike zeregin horretan, arloko ezagutzatik ez eze, hamarkada honeetan aurrera eroan daben corpusgintza lanetik be. EHUko Euskera Institutuak 2013an aurkeztu eban ordura arte euskerearen corpusik handiena zana. Euskal Hizkuntza eta Komunikazinoa Sailak HiTZ zentroko Ixa taldeagaz eta Elhuyar Fundazinoagaz batera hamarkada bat baino gehiago daroa Garaterm corpus akademikoa elikatzen, egun 26 miloe berba baino gehiago dituana. Euskera Errektoreordetzearen babespean euskerara itzulitako ehunka eskuliburu be digitalizau, paralelizau eta konsultagai jarri dira EHUskaratuak corpusean.

Esangura horretan, EHU eragile aktiboa izan behar da euskerazko corpusaren garapenean eta ustiapenean eta, horretarako, urrats garrantzitsua egin dau Euskorpora alkarteko kide eginez, azpimarratu dau Zabalak. 

Hitz zentroko zuzendari Eneko Agirrek adierazo dauenez, EHUk euskerazko hizkuntza-teknologia hizkuntza nagusien pare jarri nahi dau abangoardiako ikerkuntzearen bidez. Horretarako ezinbestekoa da corpusen lanketarako estrategian asmetea eta horretan be lagundu nahi deutso Euskorporari. Izan be, Adimen Artifizial Sortzailearen teknikek errotik aldatu dabe hizkuntzearen teknologia eta corpusen lanketea garai barrietara egokitzea beharrezkoa da. Esangura horretan, HiTZ zentroa ahotseko eta idatzizko corpus iedegiak batu eta lantzen dabil, horregaz eredu libreak eregi ahal izateko.

HiTZ webgunean ikusi daitekez atzigarri dagozan corpus eta ereduak, milaka aldiz deskargau dituenak kanpoko eta barruko eragileek. Eneko Agirreren eretxiz, oso garrantzitsuak dira corpus libre horreek, edozein enpresak euskerea ahal den denpora laburrenean eta errazenean bere produktuetan integrau eta erabili daizan. Adibide bezela euskerazko ahotsaren transkripzinorako dagoan corpus libre handiena dago bertan, 400.000 aldiz deskargau izan dana eta Latxa hizkuntza-eredua entrenetako erabilten dan corpusa, miloe bat aldiz deskargau izan dana.

Erantzun

Erantzuteko, izena emanda egon behar duzu. Sartu komunitatera!

»» Alta eman edo pasahitza berreskuratu