GAUR8 - mila leiho zabalik

Baliabide mugatuko hizkuntzetan eredu neuronal lehiakorrak lortzeko ikerketak egiten ari da Orai

Orairen ikerketa-ildoetako bat da hizkuntza naturalaren prozesamendua baliabide gutxiagoko inguruneetan indartzeko bideak bilatzea.

Gorka Urbizu ikerlaria ACL23 biltzarrean, Toronton. (GAUR8)

Hizkuntza-eredu neuronalak dira hizkuntza-teknologiekin lan egiteko oinarria, alegia, hizkuntza bat automatikoki ulertzeko eta sortzeko eredu konputazionalak. Haien bidez lortzen da, esate baterako, testuak laburtzea, zuzentzea, galdera-erantzun bidezko bilaketa-sistemak, txatbotak, sentimenduen analisia egitea edota gaien erauzketa, besteren artean.

Azken urteetan, aurrez entrenatutako hizkuntza-eredu neuronalak bilakatu dira hizkuntzaren prozesamenduko ataza oro lantzeko eta ebazteko giltza. Hala ere, halakoak sortzeko, hizkuntza gutxi batzuen esku baino ez dauden datu-kopuru eta sareen tamaina erraldoiak behar dira, eta konputazio-ahalmen handia; eta hori ez dago ez hizkuntza guztien ez ahalmen konputazional mugatua duten ikerketa-zentroen eskura.

Ildo horretan ari dira ikertzen, besteak beste, Orai NLP Teknologietako ikertzaileak: nola baliatu hizkuntza-eredu neuronalak hain datu-kopuru handiak eta horrenbesteko konputazio-ahalmena baliatu ezin dituzten hizkuntzetarako eta inguruneetarako. Hain zuzen ere, arazo horri irtenbideak bilatzeko egindako bi ikerketa-lanen artikuluen aurkezpen laburra egin du Oraiko ikertzaile Gorka Urbizuk Association for Computational Linguistics-ek (Hizkuntzalaritza Konputazionalaren Elkarteak) antolatutako ACL23 biltzarrean, Toronton. Ikerketa horiek Elkartek deialdiko ICL4LANG proiektuan egin dira, Tecnaliarekin eta HiTZ zentroarekin elkarlanean.

Itzulpen automatikoa eredu neuronalak entrenatzeko

Gorka Urbizuk azaldu duenez, batetik, aztertu dute «ea bideragarria ote den hizkuntza-ereduak entrenatzeko itzulpen automatiko bidez sortutako testua erabiltzea». Hizkuntza handi bateko edukiak hizkuntza txikiago batera itzuliz lortutako ereduak baliagarri diren ikusteko, gaztelaniazko corpus erraldoiak itzuli dituzte euskarara, eta haiekin hainbat hizkuntza-eredu entrenatu, besteak beste, euskarazko testu natiboekin konbinatuz. «Frogatu dugu itzulpen-sistema sendo bat eskuragarri dagoenean posible dela hizkuntza-eredu sendo bat eraikitzea itzulitako testuak baliatuz. Gainera, ikusi dugu itzulitako testuen gaiak eta testuinguru geografiko eta kulturala nolabait aintzat hartu behar direla testu natiboekin bat etortzeko», adierazi du.

Bestetik, hizkuntza-eredu neuronalak handituz doazen neurrian, ikerketa batzuek hainbat erlazio optimo ezarri dituzte hizkuntza-ereduak izan behar dituen parametro-kopuruaren, datu-multzoaren tamainaren eta konputazio-kostuen artean, «baina eskala handiko hizkuntza-ereduetan oinarritzen dira. Beraz, aztertu nahi izan dugu ea datu gutxi eta konputazio-baliabide mugatuak daudenean haien arteko konbinazio optimoa zein den; ea eredu handiagoak edo txikixeagoak erabili behar diren, eta zein baldintzatan», azaldu du Urbizuk.

Horri erantzuteko, euskara, gaztelania, swahili eta suomierako hainbat hizkuntza-eredu sortu dituzte, tamaina desberdinetako zenbait corpus txikitatik abiatuta (5-125 milioi hitz bitartekoak), eta bakoitzarekin zenbait tamainatako hizkuntza-eredu txikiak entrenatu dituzte (16-124 milioi parametro bitartekoak). «Emaitzetatik ondorioztatu dugu beste ikerketa batzuetan ezarritako proportzio optimoak ez direla zehatzak baliabide mugatuko inguruneetan, eta, proportzioan, datu-kopuru optimoa aurrez aurreikusitako kopurua baino handiagoa dela», gaineratu du ikertzaileak.