Euskeraz egiten diran akatsak aztertu ditue EHUn, zuzentzaile automatiko eta euskerea ikasteko programetan apliketako
2010-03-15 12:03 Euskerea berbagai'Euskerazko erroreen eta desbideratzeen analisirako lan-ingurunea. Determinatzaile-erroreen azterketa eta prozesamendua' izenburukoa da Larraitz Uriaren doktore-tesia.
Euskal Herriko Unibersidadeko Informatika Fakultadeko IXA taldeak urteak daroaz ikerketa-lanetan, euskerearen onurarako litzatekezan sistema (erdi) automatikoak garatzeko. Sistema horreen artean legokez, esaterako, euskerazko akatsen tratamendu automatikoa eta ordenagailuz lagunduta euskerea ikastea ahalbidetzen daben bitartekoak. Larraitz Uria IXA taldeko kideak bi sistema horreek garatzeko zenbait oinarri ezarri ditu EHUn aurkeztu dauen doktore-tesian, euskerazko akats eta desbideratzeen analisirako erispide batzuk finkatuta.
'Euskerazko erroreen eta desbideratzeen analisirako lan-ingurunea. Determinatzaile-erroreen azterketa eta prozesamendua' izenburukoa da Uriaren doktore-tesia. Akatsak eta desbideratzeak ondo bereizi nahi izan ditu lehenengo eta behin, eta hori da ikerketearen ekarpenetako bat.
Kontuak kontu, akatsak ortografia edo gramatika lako kontuei lotuta dagoz. Desbideratzeak, barriz, gramatikalki zuzenak baina testuinguru jakin batean desegokiak diran berbak dira; erregistroari edo euskalkiari lotuta dagoz. Etorkizuneko sistema automatikoek bi horreek desbardintzea da asmoa, eta bereizketa garrantzitsua da, beraz.
Euskerazko akats eta desbideratzeei buruzko adibide eta zehetasunak batzen hasi dira bi datu-basetan, eta horren barri emon dau Uriak bere tesian. IXA taldeak jarri ditu martxan, eta bi aplikazino zehatzetarako egokitu. Euskerearen akatsen tratamendu automatikoa (zuzentzaileak, dialektoen markatzailea) garatzeko behar dan informazinoa batzeko da lehenengoa, eta ordenagailuz lagundutako hizkuntzearen irakaskuntzara eta ikaskuntzako tresnak sortzeko datuak jasoteko bigarrena.
Bi ikerketa-alor horreek buztartzea erabat ezohikoa da, baina Uriak dinoanez, euskerearen akatsen tratamendu automatikorako balio daben datuetako asko erabilgarriak dira ordenagailuz lagundutako hizkuntzearen irakaskuntza eta ikaskuntzarako, eta alderantziz. Horixe da lan horrek aurkezten dauen nobedade eta ekarpen nagusietako bat.
Akatsen detektagailua
Tesiaren beste ekarpenetako bat dagoeneko abian dan corpusa da, datu-basearen oinarria, hain zuzen. Bertatik ataraten dabilz akatsen eta desbideratzeen lehenengo adibideak, horreek atzemoteko gai dan sistema bat garatzeko ezinbestekoak. 113.290 berbako corpusa osotua dago honezkero, hainbat mailatako euskera-ikasleen testuen bildumeagaz.
Euskera teknikoko ikasleen eta hiztun arrunten testu batzuk be txertatu dira bilduman. Lehen pausu honegaz, analisiagaz hasteko informazino garrantzitsua finkatu ez eze, corpusa osotzeko erispideak be definidu dira.
Corpusetan dagozan adibideen etiketatzea da hurrengo pausua. Ikerketearen abiapuntu moduan, mugatzaileei lotutako akatsak etiketau dira gehienbat. Euskeraz mugatzaileei jagokenez akatsak egitea ez da oso ohikoa, baina aldi berean egiten danean oso akats larria izaten da. Horregaitik, adibide egokitzat jo dau Uriak lehen proba moduan. Halan da be, gerora akats eta desbideratze guztiak atzemoteko gaitasuna garatzea da asmoa.
Etiketatze-prozesurako EtikErro editorea izan dau lagun, IXA taldeak berak sortua. Akatsak etiketeteaz gan, etiketautako adibideak datu-baseetara esportatzen ditu, hizkuntza-azterketea egiteko informazino linguistikoa eta guzti.
Etiketazinoaren ondoren datorren sailkapen-fasean be ekarpen garrantzitsua egin dau ikerketeak. Sailkapenaren egitura nagusia zehaztu dau, batez be mugatzaileei buruzko akatsei jagoken kategoria landuz. Aurreko fase horreek beteta ekin jako bi datu-baseak osotzeari. Adibide eta informazino linguistiko bera gordeten dabe biek, baina desbardintasunak be baditue. Euskerazko akatsen tratamendu automatikorako datu-baseak informazino teknikoa be badauka. Ordenagailuz lagundutako hizkuntza-irakaskuntza eta ikaskuntzeari jagokonak, bestalde, informazino psikolinguistikoa biltegiratzen dua.
Tratamendu automatikoa
Uriak, IXA taldeagaz batera, eginak ditu lehen probak, bitarteko horreek erabilita akatsen tratamendu automatikoak emoten dituan emoitzei jagokenez. Mugatzaileakaz egindako akatsetarako bereziki egokitutako teknika eta erregela-multzoa erabilita, tratamenduaren doitasuna neurtu dau, hau da, programa informatiko baten bidez tratamendua zenbateraino dan eraginkorra ikusi dau.
Doitasuna % 45,5ekoa besterik ez zan izan hasieran. Halan da be, etiketau bako beste akatsak aurrez kenduta, 'zarata' desagertu egin zan, eta doitasuna % 80ra igon zan. Horrenbestez, finkatutako erispideek eraginkor izateko zantzuak erakutsi ditue. Corpusa handituta, eraginkortasuna handiagoa izango dala uste dau Uriak.
Larraitz Uria Garin (Hernani, 1977) Ingeles Filologian eta Lehen Hezkuntzako irakasle-ikasketetan lizentziatua da. Igone Zabala Unzalu Euskal Filologia Saileko irakaslearen eta Montse Maritxalar Anglada Informatika Fakultateko irakaslearen zuzendaritzapean egin dau tesia. Gaur egun, ikertzailea da EHUko IXA taldean eta Baionako Unibersidadeko IKER taldean.
Ikusi argazki guztiak handiago
Erantzun
Erantzuteko, izena emanda egon behar duzu. Sartu komunitatera!