Hizkuntza-teknologiak aldatzeko eredu neuronal barriak

Bizkaie! 2022-10-07 10:15   Euskerea berbagai

UPV/EHUko HiTZ zentroak, Oraik eta Vicomtech-ek sortu ditue.

Urte bi emon ditue Euskal Herriko Unibersidadeko HiTZ zentroko, Orai NLPko eta Vicomtech-eko ikertzaileak DeepText proiektuan lanean, HiTZ zentroa buru dala. Adimen artifizialeko hizkuntza-eredu neuronalen belaunaldi barria sortzea izan dabe helburu, Euskal Herriko industriaren hizkuntza-teknologiak eraldatzeko, izan be, produkzino zientifikoak eta garapen teknologikoak, oro har, ez dabe kontuan hartu gaztelania ingelesa bezela eta gitxiago euskerea. Horren ondorioz, orain arte ez da aukera handirik izan hizkuntza naturalaren prozesamendua eta horri lotutako zerbitzuak landuz hizkuntza-teknologietako eta adimen artifizialeko sektorea eraldatzeko.

Arlo honetan euskereak eta gaztelaniak daben egoerea hobetzeko, euskerarako eta gaztelaniarako azken belaunaldiko hizkuntza-eredu neuronalak sortu ditue (euskerarako, lehenak), baita hizkuntza- eredu neuronal eleaniztunak be (euskerea, gaztelania, frantsesa eta ingelesa batzen ditutenak). “Hizkuntza naturalaren prozesamenduaren helburua da makinak gure hizkuntzea ulertzeko eta sortzeko kapaz izatea, horri esker zenbait ataza egiteko ahalmena izateko”, dinoe partzuergoko ikertzaileek. Orain arte horretarako erabili izan diran teknikak zaharkituta geratu dira eta hizkuntza-eredu neuronaletan oinarritutako sistemak erabilten dira orain. Azken urteetan, paradigma-aldaketa erabat disruptiboa bizi dogu hizkuntza naturalaren prozesamenduan: “Hizkuntza-eredu
neuronal generikoak entrenetan dira testu-corpus erraldoiak erabiliz, hizkuntzearen ezagutza orokor bat izan deien eta, gero, doitu egiten dira ataza jakin bat egiteko kapaz izan daitezan (bilaketak egin, testuen gaiak sailkatu, testuetako sentimenduak detektau, laburpen automatikoak egin...)”, azaldu dabe.

Baliabide urriko hizkuntzek arazoak ditue holako corpus handiak osotzeko, baina proiektu honetan euskerarako inoiz izan dan corpusik handiena osotu da: 350 miloe berbako corpusa. Holan, corpus hori eta euscrawl corpusa (288 miloe berbakoa eta IXA Taldeak sortua) erabilita, euskerarako lehenengo hizkuntza-eredu neuronalak sortu ditute, paradigma barria erabilita eta hainbat ataza egiteko entrenau ditue, sistema barrietan ezartzeko.

Hizkuntza-eredu neuronal eleaniztunak baliabide urriko hizkuntzetarako tresnak ezartzeko erabilten dira: “Munduan 7.000 hizkuntza inguru dagoz —azaldu dabe ikertzaileek—; gehienak, baliabide urrikoak. Corpus eta material digital gitxi dabenez, zailtasunak ditue entrenamendu-adibideak sortzeko. Euskerea be multzo horretan sartu geinke. Holakoetan, hizkuntza-eredu eleaniztunak erabiltea alternatiba eraginkorra da (kapaz dira hizkuntza ezbardinetako testuak ulertzeko, baita baliabide urrikoetakoak be). Oinarri hori hizkuntza handi bateko adibideakaz entrenetan da (ingelesa, adibidez) eta gero euskerazko datuakaz probetan da ia ze emoitza emoten dituan ikusteko”.

Ikertzaileek onartzen dabe transfer learning izeneko teknika horrek ez dituala emoitza perfektuak emoten, baina adierazi dabe oso emoitza interesgarriak emoten dituala, adibidez, galdera-erantzun bidezko bilaketak egiteko”.

Ez euskerarako bakarrik

Horrez guztiaz gan, ebaluazino-ingurune bat be sortu dabe, hizkuntza-eredu neuronalek hizkuntzea ulertzeko zenbaterainoko gaitasuna daben neurtzeko; ezinbestekoa, alor honetako ikerketak aurrera eroateko: Ebaluazino-ingurune horrek zenbait ataza linguistiko batzen ditu (izen berezien detekzinoa,
sentimenduen detekzinoa, gai-sailkapena, korreferentziak ebaztea, galderak erantzutea...). Ingurunea euskerea eta gaztelania ebaluetakoo sortu dogu, azaldu dabe. Ikertzaileek aparteko garrantzia emoten ddeutse euskerea ebaluatzeko atalari (BasqueGLUE), hizkuntza horretarako lehena baita.

Ikertzaileen eretxiz, ezinbesteko pauso bat emon dogu Euskal Herriko hizkuntza teknologiak jorratzeko bidean. Urte bi honeetan, hizkuntza-teknologiek aurrera egiteko behar daben oinarri teknologikoa ikertu dogu euskerea, gaztelania, ingelesa eta baliabide urriko beste hizkuntza batzuetarako. Gaur egun, hizkuntza-teknologietako produktuak landu eta emoitzarik onenak lortzeko beharrezkoak dira hizkuntza-eredu neuronalak. Orain arte euskerarako holako eredurik ez zan sortu. Hizkuntza-eredu neuronalak zelan erabili aztertu eta ataza jakinak egiteko doitu; bestalde, hizkuntzen arteko eta domeinuen arteko (literaturea, medikuntzea...) transferentzia zelan egin ikasi dogu”.

Jakina da garrantzitsua dala euskal industriaren lehiakortasuna hobetzeko eta giltzarri diran teknologien garapenerako gaitasun zientifiko-teknologiko beregainak izatea. Horretarako, preminazkoa da ikertzen jarraitzea, eredu neuronaletan oinarritutako teknika barritzaileak asmetea eta horreekazin esperimentetea. Bide horretan jarraitzeko gogotsu dagoz ikertzaileak eta espero dabe I+G proiektuak bultzatzeko politika publiko eta onarrietan isla izatea.

Erantzun

Erantzuteko, izena emanda egon behar duzu. Sartu komunitatera!

»» Alta eman edo pasahitza berreskuratu