Euskerazko corpusik handiena aurkeztu dau EHUk, 205 miloe berbakoa

Dabi Piedra Robledo 2013-03-11 14:48

On line konsultetako moduan ipini dabe ETC, Egungo Testuen Corpusa. EHUren Euskera Institutuak garatu dauen lantresna honi esker, euskera batuaren gaur egungo erronkei erantzutea itxaroten dabe. Izan be, XXI. mendeko prosazko testu piloa batu eta aztertu dabe, guztira 205 miloe berba daukiezanak.

On line konsultetako moduan ipini dabe ETC, Egungo Testuen Corpusa. EHUren Euskera Institutuak garatu dauen lantresna honi esker, euskera batuaren gaur egungo erronkei erantzutea itxaroten dabe. Izan be, XXI. mendeko prosazko testu piloa batu eta aztertu dabe, guztira 205 miloe berba daukiezanak (90.000 berba desbardin), eta corpusari esker, berba horreek zelan eta non erabilten diran ez eze, beste ezaugarri batzuk konsultau ahal izango dira. Berba kopuruaren aldetik, parekorik ez dauka ETCk euskerazko corpusen artean eta munduan be, onenetatik hur dabil.

Pello Salaburu EHUko Euskera Institutuko kide eta corpusaren egilearen arabera, corpus kontzeptua urrun egiten jako jenteari, baina hizkuntza baten garapenean tresna garrantzitsua da. Salabururen esanetan, corpusak, testu moltsoa dira, batzuk handiagoak eta beste batzuk murritzagoak, eta alkarregaz aztertuta, berben erabilereari buruzko datuak lortzen dira; testuetako informazinoa interpretetan da eta beraz, hizkuntzen eguneroko funtzionamendua aztertu geinke. Hiztegigintzan, itzulpenetan eta abar ezinbestekoak dira. Hori bai, Salaburuk azpimarratu dau, corpus batzuk erraldoiak izaten dira, milaka miloe berbadunak, baina berba bakotxari buruz informazino gitxi eskaintzen dabe; beste batzuek, aldiz, berba gitxiagoren informazino zabalagoa emoten dabe.

EHUk aurkeztutako ETC corpusa, kopuruz oso handia izan arren, bigarren moltsoko corpusen barruan sartu leiteke, bilatzen dan berba bakotxaren inguruan emoten dauen informazinoa kontuan hartuta. Ibon Sarasola corpusaren beste egileetako bat da eta, adierazo dauenez, berbak non agertu diran bakarrik ez, esaldietan ze leku hartzen daben, ze eratako berba klaseek inguratuta agiri ohi diran eta abar konsultau leiteke. Berbearen sare semantikoa be emoten da, hau da, esate baterako abade berbea bilatzen badogu, antzeko eremuko berben barri be jaso geinke, adibidez, eleiza edo gotzain.

ETCn jaso dituen testu guztiak 2000. urtetik aurrerakoak dira, beraz, euskerearen gaur eguneko erabilerea aztertzeko balio dau corpusak. Kontuan izan ze garrantzitsuak diran corpusak, euskera batua bera be corpus baten ganean eregi zan, azpimarratu dau Sarasolak, baina, gaur egun, euskera batuaren preminak beste batzuk dira, batu oinarrizkoa finkatuta dago eta arazo sofistikatuagoak agertu jakuz. Holan, orain arteko euskerazko corpusik handiena egin dabe, XXI. mendeko iturriak bakarrik erabilita, arazo sofistikatuagoen aurrean, corpus zabalagoa eta osoagoa behar genduan.

EHUk garatu dau corpusa, Euskera Institutuaren bidez eta Lagun Aro Fundazinoak babestu dau proiektua. Gaur Bilbon egindako aurkezpenean, euskerearen eta erakunde publikoen alorreko agintari garrantzitsuak batu dira, batez be Eusko Jaurlaritzakoak, Bizkaiko Foru Aldundikoak eta Euskaltzaindikoak, Iñigo Urkullu lehendakaria buru. Orain, erabiltzaile guztien eskura dago tresna barria, Interneten konsultetako moduan ipini dabe eta. Intuitiboa eta erabilten erraza da, informazino asko modu errazean ikusteko moduan, azpimarratu dau Pello Salaburuk. ETC, Egungo Testuen Corpusa, hemen konsultau leiteke: www.ehu.es/etc

Erantzun

Erantzuteko, izena emanda egon behar duzu. Sartu komunitatera!

»» Alta eman edo pasahitza berreskuratu