Itzulpengintza automatikoa: laster, euskeraz be bai

Gotzon Plaza Informatikoa 2008-06-10 14:13

WordNet izeneko ezagutza base lexikala oinarritzat hartuta, Euskal WordNet izenekoa garatu dabe. Bertan, hiztegia eta berba bakotxaren etiketazino semantikoa lortu da, ezagutza-basea sortuz.

Opor sasoian, atzerrira goaz eta guk ez dakigu bertako hizkuntzea, ezta tutik be. 'Trankil', esaten deusku senarrak, 'badago horretarako konponbide modernoa'. Eta PDAren antzeko bat ataraten dau. Zelako tresna polita, modernoa eta erosoa. Itzultzaile automatikoa ei da. Pozik. Baina arazoak gero sortuko jakuz: itzuli, itzuli egiten dau, baina sintaxiaren aldetik eta, larriagoa dana, esangurearen aldetik itzulpen barregarriak emoten deuskuz sarritan. Horra hor, berbarako, 'zentzu aldaketea', 'bigarren landarea', 'kafea bakarrik' eta holakoak ('norabide aldaketa', 'bigarren solairua' eta 'kafea hutsik'-en ordez). Zein izango ete da arazoa?

Arazoa hizkuntzen aberastasuna da. Eta arazo bera izango dogu euskeraz, ingelesez zein gaztelaniaz. Itzultzailea makinea da, ez dau pentsetan. Eta pentsau barik, hizkutzearen mamina ezagutu barik, berba baten ordez beste bat iminten da eta hor dago arazoa. Berba batek esanahi bat baino gehiago izan leikez eta beste ikuspuntutik, berba desbardinek esangura bera dabe. Eta makineak ezin dau hori guztia jakin.

Horren harira, informatikoak eta hizkuntzalariak alkarlanean dabilz. Euskerearen kasuan, UPV/EHU-ko Informatika Fakultadeko IXA Taldea, Elhuyar Fundazinoa eta Kataluniako Unibersidade Politeknokoa be hor dagoz saltsan sartuta. Hizkuntza itzultzaile automatikoak garatzeko, alde batetik, hiztegi arrunt bat sartu behar da ordenagailuaren datu basean. Horrezaz ganera, hiztegiko sarrera lexikal bakotxaren erlazino semantikoak imini behar dira: zeintzuk diran sinonimoak edota katalogazino bera daben berbakaz dituan loturak. Holan, testu batean autoan goazela azaltzen dogunean eta bidea aldatu gura badogu, berbea 'norabide' izango da eta ez 'zentzu'. Horren atzetik algoritmo informatikoak dagoz, hau da, informatikoek hizkuntzalariakaz batera garatutako programak. Makineak ez dau pentsetan eta esaten jakona baino ez dau egingo. Halanda be, itzulpegintza automatikoko arloan aurrerapausu nabariak egin arren, dan-danak ezin dau ondo urten eta batzutan akats bitxiak be topauko doguz.

Taldeak ingelesezko WordNet izeneko ezagutza base lexikala hartu dau oinarritzat. Hortik, Euskal WordNet izenekoa garatu da (http://ixa2.si.ehu.es/mcr7wei.html). Bertan, hiztegia eta berba bakotxaren etiketazino semantikoa lortu da, ezagutza-basea sortuz. Landutakoa ez da itzulpenak egiteko sistema automatikoa, ez. Baina holako sistemea lortzeko beharrekoa dan lana egin da.

Erantzun

Erantzuteko, izena emanda egon behar duzu. Sartu komunitatera!

»» Alta eman edo pasahitza berreskuratu