Herritar euskaldunek sare sozialetan emoten daben eretxia ezagutzeko sistema bat sortu dabe

Bizkaie! 2019-09-13 13:05   Kulturea

UPV/EHUk eta Elhuyar-ek sortutako tresnak sentimenduak aztertzen ditu euskerazko txioetan.

Iñaki San Vicente Roncal | Ikusi handiago | Argazki originala

Erakunde eta enpresek dirutzea bideratzen dabe inkesten bidez herritar edo erabiltzaileek eurei buruz daben eretxia ezagutzeko, zer eta non hobetu behar daben jakiteko. Sare sozialetan, ostera, jenteak nahierara emoten dau eretxia, doban eta bere borondatez. Twitter sare sozialean botaten diran txio guztietatik gai baten inguruan emondako eretxiak erauzi eta sailkatzeko sistema bat garatu dabe UPV/EHUko IXA Taldeak eta Elhuyarrek. Idazkera ez-estandarra eta hizkuntza bat baino gehiago nahastauta izatea izan dira gainditu beharreko zailtasunetako batzuk.

Internet eta sare sozialak erabiltzaileek sortutako edukien iturri oparoa dira, besteak beste, edozeri buruzko eretxiak emoten ditue erabiltzaileek, edonon eta doban. Informazino horrek berebiziko garrantzia dau erakunde, enpresa, eragile eta bestelakoentzat, beti izan dabelako interesa jakiteko herritarrek, erabiltzaileek edo bezeroek zer eretxi daben eurei buruz. Kostu handia daben inkesta bidez eskuratu izan dabe informazioa, baina laginak beti txikiak izan dira, dino Iñaki San Vicente Roncal UPV/EHUko IXA Taldean zuzendutako lanaren egile nagusiak.

Orain, barriz, datu-kantidade erraldoiak sortzen dira sare sozialetan, eta, oro har, Interneten. Erronkea, barriz, hortik interesa dauen informazinoa behar bezela erauzi eta sailkatzea da. Sentimenduen Analisia izeneko ikerketa-arloak (Ingelesez, sentiment analysis) edozelako testu batean eretxi edo sentimendu positibo edo negatiboren bat adierazoten ete dan ebazteko metodo automatikoak bilatzen ditu: Gu 2011. urtean hasi ginan euskerarako lantzen sentimenduen analisia egiteko teknikak, ekarri dau gogora San Vicente doktoreak.

UPV/EHUko Informatika Fakultadeko IXA Taldeak eta Elhuyar Fundazinoko Hizkuntza eta Teknologia Arloak aspalditik daben lankidetza estuaren emoitzea izan da garatutako sistemea. Twitter sare sozialean euskera hutsean idatzitako txioak, edo tartean euskerea dabenak, izan ditue langai. Bidean ez ditue falta izan erronkak eta zailtasunak, hutsetik abiatu ebelako lana.

Kaixo. Acabo de hacer la azterketa de gizarte. Fatal atera zait! hizkuntza bi nahastauta agertzen diraneko esaldiak be aztertzen ditu tresna honek, euskerazko testuetan sentimenduen analisia egiteko sistemea sortzeko lehengo pausua, oinarrizkoa, polaridade lexikoak sortzea izan zan, hau da, berez kutsu positiboa edo negatiboa daben berben zerrendak osotzea, berbarako, txarra edo gaiztoa berbak beti negatiboak dira, eta ona eta maitagarria, barriz, positiboak: Zerrenda horreek sortzean, ostera, oso kontuan izan behar da zer gai edo testuingurutarako zabizen lanean, berba batzuek kontrako polaridadea izan leikielako testuinguruaren arabera. Esate baterako, gora egin edo behera egin aditzek ez dabe kutsu bera eskailerak igon edo bajatuteaz bagabiz, burtsako akzinoez bagabiz edo langabeziaz bagabiz, azaldu dau San Vicentek.

Lexikoaz gan, hizkuntza danetan jazoten diran fenomeno linguistikoak be kontuan hartu behar izan zituen: Esate baterako, ezezko esaldiek kontrako zentzua emoten deutsee berbei (hau ez da bape ona), edo ironiaz esandako adierazpenak atzemotea be garrantzitsua da. Sor daitekezan arazoak ebazteko, programa informatiko bat garatu genduan, testuetako informazinoa erauzi, berbak lematizau eta bestelako azterketak egiteko.

Hizkuntzen berezko konplexutasuna gitxi ez, eta Twitterren berezitasunak be kontuan hartu behar izan zituen ikertzaileek, berbakeraa berezia baitago sare sozialetan, ahozkora asko hurreratzen dana: Gramatika ez-estandarra izaten da askotan, eta horrek lana trabetan deutsee hizkuntza-azterketarako tresnei. Gainera, sarritan izaten dira hizkuntzen arteko nahasketak (Kaixo. Acabo de hacer la azterketa de gizarte. Fatal atera zait!), eta holako fenomenoak tratau egin behar dira', dino San Vicentek.

Zailtasunakaz batera, lagungarri batzuk be baditue sare sozialetako adierazpenetan: Enfasia emoteko, letra larriak erabilten dira, edo berbak luzatzen (osooo onaaa), edo harridura-ikur asko jarten dira; emotikonoen bidez emozinoak adierazoten dira... Horrek guztiak informazinoa emoten deusku, gaineratu dau.

Aurreko informazino guztia ikasketa automatikoko sistemak entrenetako erabili eben ondoren, San Vicentek azaldu dauenez: Milaka adibide sortu genduzan, behar bezela sailkatuta, eta sistemeari emon geuntsozan, baita zer ezaugarriri erreparau behar deutson erakutsi be, hortik aurrera bere kabuz egin deian adierazpenen azterketea.

Behagunea izan zan garatutako sistemearen lehenengo aplikazinoa, 2016. urteko Donostia Europako Kultur Uriburutzeari lotuta Twitterren esan ziranen sentimenduen analisia egin eben: Oso ondo funtzionau eban; momentu jakinetan ekitaldi polemikoak egon ziran, eta horreek danak jaso zituan sistemeak. Uriburutzearen barruan gauzatutako proiektuen ebaluazinoetan be erabili ziran batutako datuak, dino San Vicentek. Beste proiektu bat Berria egunkariagaz egin eben, 2016. urteko Euskal Autonomia Erkidegoko hauteskunde autonomikoen kanpainearen segimendua egiteko, eta hor be ez ziran falta izan polemikak. Elhuyarreko ikertzaileak UPV/EHUko Kriminologiaren Euskal Institutuagaz (IVAC-KREI) be ibili dira lanean, sare sozialetan terrorismoaren biktimei buruzko pertzepzinoa zelakoa dan aztertzeko: Guretzat oso garrantzitsuak dira proiektu horreek, tesian oinarrizko ikerketatik industria-aplikazino errealera bitarteko ibilbidea osorik egin dala erakusten dabelako. Egungo sistemea kapaz da euskerazko testuak ez eze, gaztelania, frantsesa eta ingelesa be aztertzeko, hankamotz gelditzen baita euskeraz egindako adierazpenen analisia bakarrik egitea.

Kontuak kontu, sistemen emoitzearen balorazinoa ona bada be, oraindino badago hobetzeko tarterik, eta ikertzaileak lanean dabiz: Ohiko eredu estadistikoetatik algoritmo neuronalakaz lan egitera pasau gara. Helburua da adierazpenen sailkapenean asmatze-tasea hobetzea, momentu honetan % 75 ingurukoa baita.


Iñaki San Vicente Roncal

Elhuyar Fundazinoko Hizkuntza eta Teknologia Unidadeko informatikariak UPV/EHUko Informatika Fakultadeko IXA Taldean egin dau ikerketea, bere doktore-tesiaren barruan. Multilingual sentiment analysis in social media izan da tesiaren izenburua, eta IXA Taldeko kide German Rigau eta Rodrigo Agerri izan ditu zuzendari.

Erantzun

Erantzuteko, izena emanda egon behar duzu. Sartu komunitatera!

»» Alta eman edo pasahitza berreskuratu