GAUR8 - mila leiho zabalik

EusCrawl, 12,5 milioi dokumentu eta 423 milioi hitzez osatutako euskal corpus librea

EHUko IXA taldeak EusCrawl euskal corpus librea garatu du. Tresna 12,5 milioi dokumentu eta 423 milioi hitzez osatuta dago. Ikerlariek corpus berriaren kalitatea nabarmendu dute, eta euskal corpusei begira bi helburu estrategiko zehaztu dituzte.

 

Rodrigo Agerri eta Aitor Soroa EHUko ikertzaileak. (Nagore Iraola | EHU)

Rodrigo Agerri eta Aitor Soroa Ixa taldeko ikertzaileek EusCrawl tresna berriaren garrantzia eta kalitatea nabarmendu dute. Adimen artifizialaren arloan hain erabiliak diren corpusak erraldoiak dira hainbat hizkuntzatan, baina euskara bezalako baliabide urriko hizkuntzetarako zailagoa da tamaina handiko testu masak biltzea. Horrekin lotuta dago ikertzaileek finkatutako bi helburu estrategikoak.

«Euskararen kasuan existitzen diren eta eskura dauden testu masa handienak Google eta Meta-AI (Lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 eta CC100 corpusak dira. Lehenbizikoak euskarazko mila milioi hitz dauzka, eta bigarrenak 416 milioi hitz», zehaztu dutenez.

Hala ere, askotan horien kalitatea zalantzan jarri dela azaldu dute, «Internet zaratatsua delako eta dokumentuak euskaraz daudela ziurtatzen duen programa automatikoak akatsak egiten dituelako».

Horren aurrean, EusCrawl osatzen duten dokumentuak modu librean bana daitezke, Creative Commons lizentzia libreekin. «12,5 milioi dokumentu eta 323 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da», argitu dutenez.

Euskal corpus berrian bi hizkuntza-eredu sortu dituztela aipatu dute ikertzaileek, «horietako bat egun euskarako dagoen eredurik handiena, 355 milioi parametrokoa».

Euskararen nazioarteko ikusgarritasuna

Ikertzaileek azpimarratu dute EusCrawl corpusa libre izateak euskarak duen nazioarteko ikusgarritasuna areagotzen duela, «eta mundu zabaleko ikertzaileek euskararako baliabide hobeak sortzea dakar horrek».

Aurreratu dutenez, EusCrawl hizkuntza-eredu eleaniztun eta erraldoi librea erabiltzea helburu duen BigScience proiektuan erabiliko da. «Hortaz, sortutako hizkuntza-ereduak euskaraz ere jakingo du», erantsi dute.

Hizkuntzaren prozesamenduaren eta adimen artifizialaren eremuetan duen garrantziaz gain, hizkuntzaren azterketarako duen balioa nabarmendu dute. «Ez da ahaztu behar corpusen ustiapena dela gaur egun hizkuntzalaritzaren muinetako bat hizkuntzaren erabilera errealaren gordailuak diren neurrian».

Zehaztu dute, bestalde, ez dela gauza bera corpusa kontsultagarri jartzea ala deskargatzeko moduan jartzea: «Kontsulta soilek ez dute aukerarik ematen benetako azterketa linguistikoak eta ikerkuntzak egiteko».

Kalitateari dagokionez, EusCrawl-en sortutako hizkuntza-ereduak beste corpusekin sortutakoekin alderatu dituztela azaldu dute, baita bi helburu estrategiko aipatu ere: Corpus handiagoak biltzea, «euskaraz ekoizten den eduki gehiago eskuragarri jarriz»; eta testu gutxiagorekin ikasiko duten hizkuntza-ereduen ikerketa sustatzea.