Entrevista
Xabi Castorene
‘Itzuli’ itzultzaile neuronalaren corpusaren bilketaren arduraduna

«Iparraldeko eragileen parte-hartzea eskergarria da, xede publikoa duen ‘Itzuli’ garatzeko»

‘Itzuli’ itzultzaile neuronalaren frantsesa-euskara atala garatu eta hobetu ahal izateko Euskararen Erakunde Publikoak eta Lakuako Hizkuntza Politikarako Sailak hitzarmena sinatu dute. Adimen artifizialeko tresnaren corpusa handitzea da xedea, eta lan horretan aritu da Xabi Castorene.

Xabi Castorene corpusaren bilketaren arduraduna.
Xabi Castorene corpusaren bilketaren arduraduna. (NAIZ)

Ipar Euskal Herriko Euskararen Erakunde Publikoak eta Lakuako Hizkuntza Politikarako Sailak hitzarmena sinatu dute ‘Itzuli’ itzulpen neuronalaren corpusa handitzeko. Datuak biltzeko lanean aritu da urte betez Xabi Castorene.

Adimen artifizialari esker garatutako itzultzaile automatikoak ez ditu hitzak banaka itzultzen, zentzu orokorrean kontuan hartutako itzulpenak baizik, baina hori gauzatu ahal izateko corpus zabala izatea garrantzitsua da, hau da, jada eginak dauden itzulpen anitz, hortik ikasi ahal izateko. Hitzarmena Baionan aurkeztu zuten ostegunean Miren Dobaran sailburuordeak eta Antton Curutcharry EEPren presidenteak.

Zein izan da egin duzun lana?

Helburua zen corpusa ahal bezain zabala biltzea, eta joan gara Iparraldeko partaideengana eta hitzarmenak sinatu ditugu beraien dokumentuak biltzeko.

Zenbat dokumentu bildu dituzue?

5.000 dokumentu inguru bildu ditugu, eta Iparraldeko eragileen parte-hartzea eskergarria da, 20 bat eragilek hitzarmena sinatu dute testuak gurekin partekatzeko, helburu publikoa duen proiektu hau garatu ahal izateko.

Zein motatako dokumentuak dira?

Dokumentuak euskaraz dira, frantsesetik egindako itzulpenak. Nagusiki dokumentu administratiboak dira, baina alor guztietakoak badira. Horren arabera sailkatu ditugu datu base bat osatzeko eta Eusko Jaurlaritzari emateko, eta gero Iparraldeko eragileek erabil dezaten beraien proiektuak garatzeko.

Zeintzuk dira arlo horiek?

Kulturan baditugu anitz, baita administratiboan ere, juridikoan, komunikazio arloan ere. Horiek osatzen dute kopuru handiena. 

Itzulpenen kalitatea ere kontuan hartu duzue?

Bai, bazegoen testuen kalitatearen kezka, eta proiektuan parte hartzen duen Vicomtech enpresak ongi azaldu zigun, corpus bat osatzen duzularik, big data bat osatzen duzula. Ondorioz, akats bat baldin bada ez da hain larria, aldiz akats hori mila aldiz agertzen baldin bada problematikoa izan daitekeela. Kendu ditugu kalitate txarrekoak zirenak, eta besteak saiatu gara kalitatearen arabera sailkatzen, horren arabera nota eman diegu A, B eta C, horren arabera erabiltzeko.

Zenbat denbora behar izan duzue hori guztia egiteko?

Urte bateko lana izan da, gutxi gora behera. Parte handi bat izan da juridikoki bermatzea datuen erabilera, gainera datu pribatuen erabilera, eta saiatu gara gauzak ahalik eta hobekien egiten. Ez dugu egin Googlek egiten duen bezala, datu guztiak bilduz eta norenak diren esan gabe. Kultura Ministeritzarekin lan egin dugu berme juridiko guztiak lortzeko, testuak bildu eta tratatu, sailkatu eta datu basean sartu ditugu.

Erakundeetaz gain beste eremuetatik ere ekarpenak izan dira, literariotik esaterako?

Ez dugu egin ahal izan, testu hauek ezin direlako erabili artisten baimenik gabe, eta beste testu mota bat da. Oinarrian erakunde publikoan soilik izan dira.