Eskaneautako euskerazko testuak lantzeko sistemea garatu dau HPSk

Bizkaie! 2009-10-08 11:31

Jaurlaritzearen webgunean, HPSk euskeratutako beste hainbat software guztion eskura jarten dituan gunearen plugin-ak atalean, Tesseract-OCRopus euskaraz tresna informatikoa jarri dau erabiltzaile guztion eskura.

Jaurlaritzearen www.euskara.euskadi.net/euskara_soft helbidean, HPSk euskeratutako beste hainbat software guztion eskura jarten dituan gunearen plugin-ak atalean, Tesseract-OCRopus euskaraz tresna informatikoa jarri dau erabiltzaile guztion eskura.


Eskaneautako euskerazko testuak

Tresna hau Windows sistemeagaz (Windows 2000, Windows XP edo Windows Vista) zein Linux sistemeagaz dabil eta eskaneautako euskerazko testuak OCR (Optical Character Recognition - Karaktere Ezagutze Optikoa) bidez ezagutzeko gai da. Erabilten dauen azpiegitura Google-k babesturiko Tesseract oinarrizko OCR tresneak eta OCRopus dokumentu analizatzaileak osotzen dabe.

Dokumentuak analizetako, lehenengo eta behin, dokumentua osotzen daben zutabeak, orri-buruak, orri-oinak, irudiak, taulak eta abar identifiketan ditu eta euren arteko erlazinoak zehaztu; ondoren, testu diran zatiak hartu eta OCR motorrari pasetan deutsoz (atal hau Tesseract bidez egiten da). Azkenik, aurreko bietako informazinoa buztartu eta jatorrizko dokumentuaren bertsino elektroniko fidela osotzen da.

Helburu nagusia euskeraz idatzitako testuak modu fidagarri eta automatikoan ezagutzeko gai izango dan tresna gizartearen eskuetan jartea izan da.

Eleka Ingeniaritza Linguistikoa enpreseak egin dau tresna hau.

Erantzun

Erantzuteko, izena emanda egon behar duzu. Sartu komunitatera!

»» Alta eman edo pasahitza berreskuratu