Aditu, lehenbiziko euskal hizketa-ezagutzailea, aurkeztu du Elhuyarrek
Audio eta bideoak automatikoki transkribatu eta azpititulatzeko plataforma da Aditu. Zer berri dakar? Euskaraz daki (gaztelaniaz gain), konfidentzialtasuna bermatzen du eta beharretara egokitu daiteke.
Elhuyarrek audio eta bideoak automatikoki transkribatzeko eta azpititulatzeko lehen euskal plataforma sortu du. Aurrez grabatutako fitxategiekin nahiz zuzenekoekin funtzionatzen du eta dagoeneko proba daiteke Aditu.eus webgunean. Lehenengo bost minutuetan doan erabil daiteke eta hortik aitzinera tarifa ezberdinak daude, norbanako eta enpresei egokituak.
Donostiako Tabakaleran egindako ekitaldian aurkeztu zuten atzo Aditu, jendarteko eragile eta kazetarien aurrean, Jon Abril Elhuyarreko zuzendari nagusiak eta Igor Leturia hizketa-teknologien eta proiektuaren arduradunak. “Aditu” aditzak bi adiera ditu, “entzun” eta “ulertu”, eta biak egiten ditu plataforma berriak. Aditu subjektuak “jakintsu” erran nahi du eta hori ere bada sistema hau, adimenduna.
Elhuyarreko I+G lantaldeko ikertzaileek garatu dute punta-puntako teknologia erabilita: sare neuronalak, adimen artifiziala... Urteetako lanaren ondotik, euskara eta gaztelania ulertzeko eta prozesatzeko gai den eta magia egiten duela dirudien tresna sortu dute.
Orain arte ordubeteko grabazio bat transkribatzeko eta azpititulatzeko orduak behar ziren; Adituri esker, aldiz, izugarri murriztu daiteke lan-denbora.
Burujabetza teknologikoa
Abrilek adierazi zuenez, Itzultzailea.eus tresna mugarri izan den bezala, Aditu.eus ere hala izatea nahi dute. Nabarmendu zuenez, erraldoi teknologikoen estrategia eta merkatu-interesetatik kanpora daude euskara bezalako hizkuntzak. Hizkuntza gutxitu anitz esparru digitaletik at gelditzen ari dira eta desagertzeko arriskua dakar horrek.
Horien aldean euskararen egoera hobea da, baina «horrek ez du erran nahi arriskutik kanpo dagoenik. Hizkuntzen %5 dago inguru digitalean, tartean euskara. Bertan presentzia indartsua izatea ezinbestekoa da», defendatu zuen.
Euskaldunok «gure teknologia propioa garatzea eta burujabetza teknologikoan sakontzea» ere beharrezko ikusten du. Horregatik, «hizkuntza-teknologietan eta adimen artifizialean ikerketa eta garapena egiteko plan anbiziotsu bat martxan jartzeko» eskatu zien fundazioko zuzendariak erakundeei, Adituren gisako tresnak garatzen jarraitu ahal izateko, «horrek ekarriko baitizkio aukerak euskarari».
Ondotik, hizketa-teknologien eta Adituren arduradunak hartu zuen hitza, Igor Leturiak. Berak azaldu zituen plataformaren xehetasunak. Aditu elebiduna da: euskarazko nahiz gaztelaniazko transkripzioak eta azpitituluak sortzen ditu, aurrez grabatutako fitxategietatik zein zuzenekoetatik. Audio-fitxategiak, bideo-fitxategiak nahiz onlineko audio eta bideoetarako estekak prozesatzeko gai da. Gainera, mikrofonotik solas egiten badiogu aldibereko transkripzioak egiteko aukera ematen du.
Transkripzioen testuaz gain, azpitituluen fitxategiak ere sortzen ditu Adituk. Eta transkripzioa hitz bakoitzaren denbora-markekin ere eska diezaiokegu, bideoetan bilaketa aurreratuak egiteko, adibidez.
Plataformak ediziorako interfaze bat ere badu, automatikoki sortutako transkripzioak eta azpitituluak eskuz zuzendu ahal izateko, modu erraz eta erosoan.
Aditu.eus webgunean proba daiteke, baina aukera ematen du bertze gune eta plataforma batzuetan txertatzeko ere, bezeroen beharretara egokitu ahal izateko. Aurreneko 5 minutuetan dohainik erabil daiteke eta hortik aitzinera tarifa ezberdinak daude.
Leturiak azpimarratu zuenez, sistema guztiz konfidentziala da, eta malgua, bezeroen aplikazioetara egokitu ahal izateko, horien datuak modu seguruan eta berme osoz kudeatuta.
Aplikazio-eremuak
Proiektuaren arduradunak agertu zuenez, Aditu benetan baliagarria izan daitekeela uste dute eremu ugaritarako. Eta bereziki erabilgarria ikusten dute lau eremutan.
Ikus-entzunezkoetan eta hedabideetan, biziki lagungarria izan daiteke dokumental eta saioen azpitituluak eta elkarrizketen transkripzioak egiteko. Administrazio publikoan ere bai, udal batzarren edo bertzelako bileren aktak jasotzeko.
Pertsonen eta makinen arteko elkarrekintzan ere badu lekua: 4.0 industriako hizketaz gidatutako makinak, elkarrizketa-agenteak, domotika, laguntzaile birtualak, dei zentroak...; eta irisgarritasunean, pertsona gorrentzako azpitituluak egiteko edota ordenagailuz idazteko zailtasunak dituzten pertsonen ahozko testuak idatzira ekartzeko erabil baitaiteke.
Eta «hau hasiera bertzerik ez da», Abrilek erran zuenez. Hobetzen segitzea dute hurrengo erronka; adibidez, momentuz euskara batua irakatsi diote Adituri, baina euskalkietan ere ongi moldatzea nahiko lukete. Bertze zerbitzu batzuekin konbinatuz, itzulpen automatikoarekin, erraterako, izugarri zabaltzen dira aukerak. Etorkizuna «ilusioz» ikusten du Elhuyarrek, eta euskara, «bertze hizkuntzekin lehiatzeko moduan».
«Emaitza oso onak ematen ditu»
Adituk makina bat entrenamendu egin ditu plazaratu aitzinetik eta badakite asmatze tasa hainbat faktoreren araberakoa dela: audio kalitatea, hizkera mota, erregistroa, bolumena, abiadura... «Baldintzarik onenetan oso emaitza onak ematen ditu, baina baldintzen arabera asko jaits daiteke asmatze tasa», agertu zuen Igor Leturiak, proiektuaren arduradunak.
Tabakalerako aurkezpenean, lanean jarri zuten euskal plataforma, ondoen egiten dakiena erakusteko. Adibidez, ederki transkribatu eta azpititulatu zuen Iñigo Urkullu EAEko lehendakariaren urte bukaerako mezua, gaztelaniaz emana. Errenterian egindako udalbatzar bat transkribatzen eta azpititulatzen ere lan ona egin zuen, oraingoan euskaraz.
Ondotik, “Teknopolis” Elhuyarren ETBko saioa jarri zioten Adituri eta hemen ere moldatzen zen, akats txikiren bat gorabehera.
Youtuber baten bideo batekin ere konpondu zen, akats batzuk eginez baina orokorrean ongi. Gehien kostatzen zaion lana beharbada zuzeneko transkripzioak eta azpitituluak dira. Hor akats gehixeago egiten ditu, baina erabiltzaileari zereginik astunena kentzeko balio du. Plataformak bere barrenean duen editatzeko interfazean erraz eta eroso egin daitezke beharrezko zuzenketak, eta emaitza ederra lortzen da.M. I. G.