NAIZ

Eredu neuronal berria garatu du Oraik euskarazko adimen artifizialerako

Oraik Llama-eus-8B garatu du: euskara idatzia ulertzea eta sortzea eskatzen duten adimen artifizialeko sistemetarako eredu neuronal libre berriena. Hainbat tresnatan erabiliko da: txatbotak, itzultzaile automatikoak, zuzentzaile gramatikalak, bilatzaileak nahiz edukiak sortzeko sistemak.

Xabier Saralegi eta Ander Corral, Oraiko ikerlariak.
Xabier Saralegi eta Ander Corral, Oraiko ikerlariak. (ELHUYAR)

Adimen artifizialean aurrera egiteko ikerketak abiadura bizian dabiltza. Hizkuntza naturalaren prozesamenduak oztopo bereziak jartzen dizkie baliabide gutxi dituzten hizkuntzei, ez baitute hizkuntza handien neurri berean aurrera egiteko behar adina testu- edo datu-bilduma eta baliabide konputazional. Horrenbestez, bestelako estrategia batzuk erabili behar dira hizkuntza handietan erabiltzen diren adimen artifizialeko tresnak euskarara ekartzeko, eta estrategia horien bilaketan aurrerapauso handiak lortzen ari da euskal ikertzaile komunitatea.

Orai Elhuyarren adimen artifizialeko zentroak Llama-eus-8B garatu du, hizkuntza eredu neuronal berri bat (LLM, Large Language Model), euskara idatzia ulertzea eta sortzea eskatzen duten adimen artifizialeko sistemak errazago garatzeko diseinatua. Llama-eus-8B eredu fundazional bat da, alegia, adimen artifizial sortzailearen (edo txatbot ezagunen) oinarri gisa erabiltzen den eredu mota. Eredu fundazional arinen esparruan (10 mila milioi parametro baino gutxiagokoak) euskararako dagoen eredurik aurreratuena da.

Arlo akademikoan zein industrialean euskarazko teknologien garapena eta ikerketa errazteko asmoz, Llama-eus-8B modu librean eskuratzeko moduan jarri da. Eredua BasqueLLM ikerketa-proiektuaren barnean garatu da, zeina Gipuzkoako Foru Aldundiak partzialki finantzatu baitu, Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea Programaren bidez.

Oraik Llama-eus-8B oinarri gisa erabiliko du euskara ulertzeko eta sortzeko gaitasun sakona eskatzen duten zenbait tresna garatzeko, besteak beste, zuzentzaile gramatikalak, edukiak sortzeko sistemak, hezkuntza-materialak sortzeko sistemak, bilatzaileak, txatbotak eta itzultzaile automatikoak.

Ingeleseko gaitasunak euskarara ekarriz

Xabier Saralegi Oraiko hizkuntza teknologien arduradun eta BasqueLLM proiektuaren ikertzaile nagusiak azaldu duenez, gaur egun entrenamendu estrategia alternatiboekin esperimentatzen ari dira, euskarazko testu bilduma handiagoen beharrik gabe emaitzak hobetu ahal izateko. «Ingelesez ikasitako gaitasunak euskarara ekartzea ahalbidetuko duten estrategiak bilatzen ari gara».

Llama-eus-8B garatzeko, Meta-ren Llama3.1-8B eredu berriena erabili da oinarrizko eredu gisa (8 mila milioi parametroko kode irekiko eredua da). Hizkuntza-eredu neuronal hori ikasketa automatikoko algoritmoen bidez sortu da, testu-bilduma handi bat erabiliz (15 bilioi hitz), gehienak ingelesez, eta oso eraginkorra da hizkuntza horretan (eta beste hizkuntza nagusi batzuetan), hizkuntza gaitasunak eskatzen dituzten atazak automatizatzeko (itzulpen automatikoa, laburpen automatikoa, edukien sorkuntza, elkarrizketa-sistemak…). Hala ere, euskarazko errendimendua oso mugatua da.

Euskarazko testu-bilduma erraldoirik ez dagoenez eta euskararako halako eredu bat hutsetik entrenatzeko beharrezkoak diren eskakizun konputazionalak oso handiak direnez, Llama3.1-8B-tik abiatzea erabaki dute, oinarri sendoa baitu. Helburua ingelesezko milioika testutatik ikasitako gaitasunak euskarara transferitzea izan da, ikasketa automatikoko algoritmoen bidez eta euskarazko testu-bilduma bat erabiliz.

ZelaiHandi corpusarekin

Oraik duela hilabete batzuk bildutako ZelaiHandi corpusa erabili da, lizentzia librea duen eta kalitate handikoa den euskarazko edukia soilik biltzen duen euskarazko corpusik handiena. Ingelesaren eta euskararen arteko gaitasunen transferentzia hobetzeko, ZelaiHandiko testuak ingelesezko testuekin konbinatu dira.

«Ereduak ingelesezko ezagutza mantentzea lortu dugu, eta, aldi berean, euskararen ulermena hobetzea, jatorrizko entrenamenduan ingeleserako ikasitakoa eraginkortasunez berrerabiliz», adierazi du Ander Corral Oraiko ikertzaileak. Ereduaren entrenamendua Donostia International Physics Centerreko (DIPC) superkonputazio-zentroko Hyperion sistema erabiliz egin da.

Eredua euskarazko 11 ataza kontuan hartzen dituen proba-banku zabal batean ebaluatu da, zeinetan hizkuntza gaitasun formalak (gramatika eta hiztegia zuzen erabiltzea) eta funtzionalak (hizkuntza testuinguru errealetan ulertzeko eta erabiltzeko gaitasuna) erabili baitira: eskola azterketak, arazoen ebazpena, hainbat gairi buruzko galdeketak, iritzi azterketa eta abar egin dira.

Ebaluazioaren emaitzek erakusten dutenez, Llama-eus-8B da gaur egun eskuragarri dauden euskarazko eredu fundazional arinen artean emaitza hoberenak ematen dituena (10 mila milioi parametrotik beherakoetan), eta, hala, baliabide baliotsua da euskarazko hizkuntza gaitasunak behar dituzten adimen artifizialeko sistemak garatzeko. Zenbait atazatan, askoz handiagoak diren ereduak baino emaitza lehiakorragoak ematen ditu. Nolanahi ere, emaitzak ingeleseko emaitzetatik gero eta hurbilago dauden arren, euskarazko errendimendua ingelesekoa baino askoz txikiagoa da oraindik ere.