
Euskara esparru digitalean sustatu eta bermatzeko sortu den Euskorpora elkarteko bazkide berria da EHU. Euskararen corpus digitala sortzeko misio horren baitan, unibertsitateak egingo duen ekarpena Euskara eta Hizkuntza Plangintzarako errektoreordetzak eta HiTZ zentroak lideratuko dute, «anitz urteko ibilbidea, jakintza eta eskarmentua nahiz egungo ikerketa lerroak oinarri hartuta».
HiTZ Hizkuntza Teknologiako Euskal Zentroak hizkuntza idatzia eta ahotsa lehengai dituen adimen artifizialean ikerketa, prestakuntza, transferentzia teknologikoa eta berrikuntza sustatzen ditu.
EHUko Euskara eta Hizkuntza Plangintzarako errektoreorde Igone Zabalaren esanetan, «funtsezkoa da corpus digitala sortzea eta modu aktibo eta metodikoan garatzea euskara eraldaketa digitaletik kanpo ez geratzeko».
Bere esanetan, EHUk ekarpen handia egin dezake zeregin horretan, alorreko ezagutzatik ez ezik, hamarkada hauetan aurrera eraman duen corpusgintza lanetik ere.
Erakundeak ohar batean gogoratu duenez, EHUko Euskara Institutuak 2013an aurkeztu zuen ordura arte euskararen corpusik handiena zena. Hala, Euskal Hizkuntza eta Komunikazioa Sailak HiTZ zentroko Ixa taldearekin eta Elhuyar Fundazioarekin batera hamarkada bat baino gehiago darama Garaterm corpus akademikoa elikatzen, egun 26 milioi hitz baino gehiago dituena.
Ildo horretan, «EHU eragile aktiboa izan behar da euskarazko corpusaren garapenean eta ustiapenean eta, horretarako, urrats garrantzitsua egin du Euskorpora elkarteko kide eginez», azpimarratu du Zabalak.
HiTZ zentroko zuzendari Eneko Agirrek adierazi duenez, «EHUk euskarazko hizkuntza teknologia hizkuntza nagusien pare jarri nahi du abangoardiako ikerkuntzaren bidez. Eta horretarako ezinbestekoa da corpusen lanketarako estrategian asmatzea, eta horretan ere lagundu nahi dio Euskorporari. Izan ere, Adimen Artifizial Sortzailearen teknikek errotik aldatu dute hizkuntzaren teknologia eta corpusen lanketa garai berrietara egokitzea beharrezkoa da».
Ildo horretatik HiTZ zentroak ahotseko eta idatzizko corpus irekiak bildu eta lantzen dihardu, horrekin eredu libreak eraiki ahal izateko. https://huggingface.co/HiTZ webgune ospetsuan ikusi daitezke atzigarri dauden corpus eta ereduak, milaka aldiz jaitsi izan direnak kanpoko eta barruko eragileen aldetik.
Eneko Agirreren iritziz, «oso garrantzitsua dira corpus libre horiek, edozein enpresak euskara ahal den denbora motzenean eta errazenean bere produktuetan integratu eta erabili dezan». Adibide bezala euskarazko ahotsaren transkripziorako dagoen corpus libre handiena dago bertan, 400.000 aldiz jaitsi izan dena, eta Latxa hizkuntza eredua entrenatzeko erabiltzen den corpusa, miloi bat aldiz jaitsi izan dena.

«Hurrengo geltokiaren bila» doa Nøgen, hamarkada ospatzeko Kursaalen kontzertua eskainita

Pantallas y menores, acompañar y educar para evitar caer en la prohibición

Bide laburrari agur ederra eman dio Chill Mafiak BECen
.jpg)
Alaitz eta Maider ere egonen dira Latzen, Skatu eta Afu taldeak itzuliko diren Hatortxu Rocken
