Elhuyar Fundazinoak Web-corpusen Ataria aurkeztu dau
2013-02-14 10:42Atari hau konsultagai jarri dau Elhuyarrek, eta erabiltzaileek hiru baliabide izango ditue eskura: euskerazko corpus elebakar bat, 125 miloe berbez osotua; euskera-gaztelania corpus paralelo bat, 18 miloe berba inguru dituana; eta euskerazko corpusetik automatikoki erauzitako berba-konbinazinoak.
Elhuyar Fundazinoak bart arratsaldean aurkeztu dau Web-corpusen Ataria San Telmo Museoan, Badu Bada erakusketearen barruan. Atari hau konsultagai jarri dau Elhuyarrek, eta erabiltzaileek hiru baliabide izango ditue eskura: euskerazko corpus elebakar bat, 125 miloe berbez osotua; euskera-gaztelania corpus paralelo bat, 18 miloe berba inguru dituana; eta euskerazko corpusetik automatikoki erauzitako berba-konbinazinoak. Nabarmentzekoa da baliabide horreek guztiak Internetetik modu automatikoan eratuak izan dirala, Elhuyar Fundazinoko I+G taldeak garatutako teknologiari esker. Web-corpusen Ataria http://webcorpusak.elhuyar.org webgunean dago konsultagai.
Corpusak ezinbesteko baliabideak dira hizkuntzearen azterketan oro har, zein lexikografian, sintaxian, semantikan… eta antzeko arlo jakinetarako. Web-corpusen atari honen berezitasuna da Internet izan dala datuak batzeko iturria, Elhuyar Fundazinoak aldarrikatu dauelako Internet oso datu-iturri garrantzitsua dala euskerea aztertzeko, eta sarean euskerearen erabilerea zelakoa dan jakitea denontzat dala interesgarria.
Hiru baliabide
Web-corpusen Ataria dagoeneko konsultagai dago, eta erabiltzaileek hiru baliabide ditue eskura: euskerazko corpus elebakarra, euskera-gaztelania corpus paraleloa eta euskerazko corpusetik erauzitako berba-konbinazinoak. Euskerazko corpusari jagokonez, orain arte eratu dan euskerazko corpusik handiena da, alde handiz gainera, 125 miloe berba inguru jasoten baititu. Interneten dagozan mota eta arlo guztietako testuak batzen ditu, eta linguistikoki etiketauta dagoz.
Corpus paraleloaren atalean, webean modu automatikoan atzemondako euskera-gaztelania gune eta dokumentu elebidunak esaldi mailan parekatu dira. 18 miloe berba inguru ditu corpus honek, eta egungo euskera-gaztelaniako corpus paralelo publiko handiena da. Aurrekoa bezela, linguistikoki etiketauta dago. Oso baliogarria da hizkuntza bateko berba edo esapide bat beste hizkuntzan zelan emon dan jakiteko.
Azkenik, Berba-konbinazinoak atalean, euskerazko corpusetik automatikoki erauzitako hiru muetatako konbinazioak eskaintzen dira: izen + aditz, izen +i zen eta izen + izenondo. Horren bidez, erabiltzaileak ikusi leike, esaterako, izen jakin bategaz zein aditz konbinetan diran, neurri estadistiko batzuen arabera ordenauta, baita horreen testuinguruak bistaratu be.
Proiektu hau gauzatzeko. Elhuyar Fundazinoak Eusko Jaurlaritzako Industria eta Kultura sailen diru-laguntzinoa jaso dau, 2011ko IKT deialdian.
Ikusi argazki guztiak handiago
Erantzun
Erantzuteko, izena emanda egon behar duzu. Sartu komunitatera!