HiTZ zentroaren Latxa euskararentzako hizkuntza ereduari buruzko lanak saria jaso du nazioartean
HiTZ Hizkuntza Teknologiako Zentroak sortu duen Latxa euskararentzako hizkuntza ereduri buruzko artikulua saritu dute Association for Computational Linguistics hizkuntzaren teknologiari buruzko elkarte zientifiko ospetsuak bere azken biltzarrean, Bangkoken. Euskarak ikerkuntzan duen pisua ere mintzagai izan dute topaketan.
Association for Computational Linguistics hizkuntzaren teknologiari buruzko elkarte zientifikoak Euskal Herriko Unibertsitateko (UPV-EHU) HiTZ Hizkuntza Teknologiako Zentroak eraiki duen Latxa euskararentzako hizkuntza ereduari buruzko artikulua saritu du bere azken biltzarrean. Topaketa berean egindako aurkezpen batean, gainera, euskarak ikerkuntzan duen pisua aipatu da, 1.200 artikulu baina gehiagotan aipatzen baitira bere inguruko esperimentuak.
EHUko iturriek jakinarazi dutenez, Association for Computational Linguistics elkarteak Bangkoken antolatu duen biltzarrak 4.400 artikulutik gora jaso ditu, eta 5.000 ikuskatzailek baino gehiagok osatutako batzordeak 940 besterik ez ditu onartu, «argitalpen gune prestigiotsuena izanda, kalitate hobereneko artikuluak besterik ez baititu argitaratzen».
Egileen artean unibertsitate, ikerketa zentro eta enpresa nagusietako ikerlariak izaten dira, hala nola Microsoft, Meta eta Apple. Onartutako ikerkuntza lanetatik 14 artikulu aukeratu dituzte sarietarako, tartean Latxa hizkuntza ereduari buruzkoa. Sari banaketa biltzarrera hurbildutako 4.000 ikerlarien aurrean egin zen.
Hizkuntza eredu handi bat (LLM ingelesez), adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabiltzen dituena, datu multzo masiboetatik sortutako ezagutzan oinarrituta.
EHUko HiTZ zentroak garatutako Latxa euskararentzako hizkuntza ereduen familia bat da eta lizentzia libreko testuen corpus handienarekin eta hizkuntza gaitasunari, irakurmenari, kultura orokorrari eta azterketa profesionalei buruzko zenbait proba bankurekin banatzen da.
Latxak duela bi urte abiarazitako jatorrizko ChatGPT bertsioa gainditzen du (orain GPT 3.5 gisa ezaguna), eta baliabide digital urriko hizkuntza baten eredu ireki batentzat lehenengo aldiz, GPT-4 gainditzen du hizkuntza gaitasunean. Latxa deskribatzen duen artikulu zientifikoan, corpusak nola bildu diren, eredua nola entrenatu den eta ebaluaziorako datu multzoen eraikuntza deskribatzen dira.
Proiektuaren egileak
Julen Etxaniz egile nagusietako bat da, Naiara Perezekin eta Oscar Sainzekin batera, eta Bangkoken izan da lana aurkezten eta saria jasotzen. «Saria ematean azpimarratu izan da Latxa ereduetatik haratago doala, baliabide urriko beste hizkuntzatara hedatu daitekeen metodologia eta ingurune esperimentala planteatzen baititu, zientzia irekiaren ildoa jarraituz», azaldu du Etxanizek.
Halaber, Oscar Sainzek azpimarratu du sarituen artean unibertsitate eta ikerkuntza zentro entzutetsuenak zeudela, eta bertan EHU aipatu izanak «zirrara berezia» ematen duela.
Naiara Perezek gaineratu du Interneten dauden testuen arabera, euskara munduko hizkuntzen 50. postuan dagoela. Nabarmendu duenez, «euskarari aplikatutako teknikak kopuru antzekoa duen beste hizkuntza askori ere aplika dakizkieke, eta Latxarekin batera eraiki dugun azpiegiturak aukera ematen die ikertzaileei teknika hobeagoetan ikertzeko, hizkuntza guzti horien onurarako».
Euskara, aipatua
Bestalde, biltzarrean aipatu izan da hizkuntza guztiak ez dutela arreta bera jasotzen ikerlarien aldetik, jakina dela hizkuntza nagusienetan egiten direla esperimentu gehienak, eta, horrela, beste hizkuntza batzuek arreta gutxiago jasotzen dutela, batez ere hiztun kopurua edo hiztunen aberastasuna txikia direnean. Horrek hizkuntza horietarako merkaturatzen den teknologian eduki dezakeen eragin negatiboa azpimarratu da Cohere enpresak egin duen hitzaldian.
Salbuespenak egon badaude, eta horien artean euskara aipatu da. Nahiz eta ingelesa izan artikulu zientifikoetako esperimentuetan gehien erabiltzen dena, hizlari gutxiko hizkuntza batzuk atentzioa deitu dute, tartean euskara, 1.200 artikulu baina gehiagok erabiltzen baitute beraien esperimentuetan.
EHUko HiTZ zentroko zuzendaria den Eneko Agirre artikuluaren egileeetako bat ere bada, eta erabilera horren garrantzia nabarmendu du: «Latxaren inguruan banatu diren corpus eta ebaluaziorako datu irekiak bultzada berria emango diote euskarak eta euskararen inguruan egindako ikerketak duen prestigio eta zabalkundeari. Eta horri esker kanpoko eta bertako ikertzaileek euskaraz lortzen dituzten emaitzak hobetzen joatea espero dugu».