Euskerearen corpus erakusgarria, orekatua eta kalidadekoa aurkeztu dabe

Bizkaie! 2025-03-31 12:54   Euskerea berbagai

Erabiltzaileen esku dago hemen.

Euskaltzaindiak Euskerearen Erreferentzia Corpusa (EEC) aurkeztu dau Bilbon. Akademiaren egoitzan egin dan agerpenean izan dira, besteak beste, Ibone Bengoetxea Eusko Jaurlaritzako lehenengo lehendakariorde eta Kultura eta Hizkuntza Politikako sailburua, Andres Urrutia euskaltzainburua, Miriam Urkia euskaltzain oso eta Euskaltzaindiaren Hiztegia egitasmoko arduraduna eta Aitor Maritxalar Akademiaren aholkulari-teknologikoa.

Andres Urrutiak adierazo ditu corpus barriaren ezaugarri nagusiak; erreferentzia-corpusa da, oreka baten bila doana, hizkuntzearen nondik norako zehatzak eta orekatuak batu nahi dituana, egungo euskerearen isla emonez. Edegia be bada, orain arteko materialak batu dituana eta geroago be zabaltzen joango dana, eragile eta material barriekaz. Kolektiboa da, Euskaltzaindiak Euskal Herriko 68 erakunde pribatu eta publikoekaz batera egin dauelako, hedabide nagusiekaz eta gizarte-eragileekaz batera.

Ibone Bengoetxea Kultura eta Hizkuntza Politikako sailburuak Euskaltzaindiak hizkuntzari prestigioa emoten deutsola esan dau haren berbaldian: Euskaltzaindiatik landu eta eskaintzen dabizen euskerearen corpus hau gure historiaren zati bat da. Gure herriaren etorkizuna gidatuko dauen erreferentziazko tresna.

Miriam Urkiak, barriz, ondokoa nabarmendu dau: Euskaltzaindia XX. mendeko 80. hamarkadan hasi zan corpusak lantzen, beraz, aitzindaria izan da euskal corpusgintzean. Askotariko Euskal Hiztegiaren corpusa eta XX. Mendeko Euskararen Corpus Estatistikoa ondu zituan aurrena. Ondoren, XXI. mendean, Lexikoaren Behatokia corpus monitorea osotu eban. Hori barik, Euskaltzaindiak ez zituan izango, esate baterako, Euskaltzaindiaren Hiztegiko berbak, adierak, erabilera-markak eta horreen testuinguruak adierazoteko adibideak.

Halanda be, erabilerearen barri izateko eta hizkuntza-teknologiek ekartzen deuskuen erronkei aurre egiteko, corpus handiago eta orekatuago baten beharraz jakitun egoan Akademia, eta orain dala lau urte, hutsune hori betetzeko Euskerearen Erreferentzia Corpusa (EEC) martxan jarri eben.

Ondoko hau da EECren helburu nagusia: analisi linguistikorako, ikasketa automatikorako edo hizkuntza-ikerketetan hipotesiak baliozkotzeko tresna funtsezkoa da, baina baita hizkuntzea, literaturea edo ikerketa-helburuetarako corpus estandar edo erreferente bezela erabil leitekeena be. Egungo egoerea islatzen dauen neurrian, hizkuntzearen irakaskuntzean jarduten dabenek, zuzentzaileek… erabilgarri izango dabe EEC, lexiko eta gramatika-zalantzak argitzeko, baita corpus handi horreetarako eredu egokiak balioztatzeko be. EEC egiterakoan kontuan izan ditue oreka eta adierazgarritasuna. Egungo euskarearen erabilerea islatzeko helburuagaz, garrantzitsuak dira gaien aniztasunari eustea, euskalki guztietako adibideak eta testu-iturri ugarietako (liburuak, aldizkarik, sarea...) edukiak batzea eta publiko mueta guztiei zuzendutako testuak (gazteak, publiko orokorra, espezialistak) kontuan izatea.

EECren diseinua eta erreferentzialtasuna

Hizkuntza-corpusa datu-bilduma handi bat da, egituratua, erabilera errealetan oinarritua eta linguistikoki prozesatua, hizkuntzearen atal baten erakusgarri legez erabiltzen dana.

Holan, Euskerearen Erreferentzia Corpusa diseinatzerakoan, ondoko erispide nagusi honeek erabili dira:

  • Medioa: euskeraz idatzitako testuetan oinarritua dago (batez be bersino elektronikoetaitik hasita). Ahozkoaren transkripzinorik ez dau oraingoz, baina ahozkorako prestatutakoa bai batzen ditu (serieak, filmak, gidoiak…). Testuen % 48 liburuetatik dator corpusera, % 48 aldizkako argitalpenetatik eta beste % 4a, sarerako sortutako materialetik.
  • Sailkapena: sail nagusi bitan sailkatu dira testuok, fikzinoa (% 25) eta ez-fikzinoa (% 75) moltsoetan banatuta.
  • Kronologia: Azken 25 urteetako testuak jasoko ditu beti EECk. Lehen bersino horrek 2000. urtetik hasi eta 2023. urterainoko testuak barruan hartu ditu. Urtean-urtean eguneratuko da, beraz, corpus dinamikoa izango da.

Erispide horreen guztien konbinazino orekatuak dakar erreferentzialtasuna. Horreek definiduten dau erreferentzia-corpusa, orekeari eustea beti erraza ez bada be. Aldi berean, erispide horreek hiztegiko konsultak beharren arabera mugatzeko aukerea edo bidea emoten deuskue, gaineratu dau Miriam Urkiak prentsaurrekoan.

EECren datu orokorrak

Gaur argitaratutako bersinoak 123.124 dokumentu, 154,21 miloe testu-berba eta 129.817 lema batzen ditu, 2000. urtetik hasi eta 2023ra bitartean euskeraz idatzitako edo produzidutako testuetatik hartuak. Testu horreek guztiak lematizatuak eta sailkatuak izan dira aurretik. Holan, lema, forma eta kategoria gramatikalen bidezko konsultak egitea ahalbidetzen dau:

  • Jatorriari erreparatuz: liburuetatik datozen testu-berbak 68,42 miloe dira (% 44,37), aldizkako argitalpenetatik 72,49 miloe (% 47,01), sarerako berariaz idatzitakoak 4 miloe (% 2,59) eta bestelako edukiak (argitalpen bereziak, liburuxkak, gidoiak...) 9,3 miloe (% 6,03) testu-berba.
  • Testu-muetaren arabera: fikzinozko testu-berbak 39,67 miloe dira (% 25,73) eta ez-fikzinozko testuak 114,54 miloe (% 74,27).

- Tamaina horretakoa izateak ardura handiei erantzutea eskatzen dau:

  1. 1. Testu horreen jabeak diran argitaletxe, erakunde eta komunikabideen eskuzabaltasuna izan ez balego, ezinezkoa izango zan holako corpusik. Ganera, horreekaz guztiekaz hitzarmenak sinatu dira, euren eskubideak bermatzeko.
  2. 2. Testuak jaso eta formatu-egokitzapenak egiteko, testuen jabeak diran etxeetako teknikarien lankidetzea be halanbeharrekoa izan da.

Erantzun

Erantzuteko, izena emanda egon behar duzu. Sartu komunitatera!

»» Alta eman edo pasahitza berreskuratu