"Kostuak jaisten saiatu behar dugu, itzultzaileentzat erremintak sortuz"

  • EHUko Donostiako campusean Sistemen Ingeniaritza eta Automatika Sailean irakasle da. Leioan berriz, Elektrika eta Elektronika Sailean ikerlari. Harrituta dago kazetariak bere tesiari buruz galdetu diolako. Lehen ere hurbildu zaizkio hedabideetatik eta interes hori arraroa egin zaio.
Alicia Perez
"Hogei urte pasa dira eta ez dugu lortu hizkuntza batetik bestera natural eta zuzen itzultzea. Apurka ari gara"Dani Blanco
Zarata mediatikoz beteriko garai nahasiotan, merkatu logiketatik urrun eta irakurleengandik gertu dagoen kazetaritza beharrezkoa dela uste baduzu, ARGIA bultzatzera animatu nahi zaitugu. Geroz eta gehiago gara, jarrai dezagun txikitik eragiten.
Esan diogu, bere alorra ulertzeko zaila den arren, itzulpengintza automatikoa badela gai interesgarria, hizkuntza gutxituentzat adibidez. Speech and text translation involving basque language: application of stochastic finite-state transducers izeneko tesia egin zuen, zer ikertu duen galdetu diogu: “Makinak itzulpenak egiteko metodo desberdinak ditu. Nik metodo estatistikoa darabilt. Euskaran zentratu naiz, baina berez, estatistikak edozein hizkuntzatik edozein hizkuntzara egitea ahalbidetzen du. Metodo horrek hitzak etiketak edo zenbakiak bailiran tratatzen ditu, lehenengo hitza a hizkuntzan eta bigarren hitza b hizkuntzan. Dena dela, okerrago edo hobeto ibiliko da sistema, hizkuntzek euren artean duten hurbiltasunaren edo urruntasunaren arabera. Estatistikak, euskara eta gaztelaniaren arteko itzulpenetan, azkenean txapuza egiten du, oso-oso hizkuntza desberdinak baitira. Zerbait egiten du, baina gutxi, oraindik bere ahalmena nahiko murritza da.


Estatistikarenaz gain, badira beste metodo batzuk itzulpengintzan, eta nahastu egin ohi dira.


Bai, hori da gaur egungo joera.

Baina estatistika aukeratu duzu.


Bai. Ametzagaiña Taldea itzulpen memoriekin ari zen eta estatistika sartu nahi zuen proiektuan. Eurek lagundu ziguten itzulpen unitateak –izen sintagmak, adibidez– identifikatzen.

Beraz, alde linguistikoa eta estatistikoa nahastu dituzu.


Itzulpen unitateak identifikatu nahi genituen, baina metodo linguistikoen bidez. Metodo estatistikoen bidez esaldiko subjektua, aditza eta bestelako elementuak identifika daitezke. Alabaina, metodo estatistikoek bere logika erabiliz egiten dute zatiketa hori: iruditzen zait honaino dela partiketa. Ondo, baina guk partiketa metodo linguistikoak erabiliz egitea nahi genuen, alegia, unitateak segmentatzea metodo linguistikoen bidez.

Eta horretarako Euskalmeteko eguraldi iragarpenen lagina erabili zenuten.


“Zerua oso hodeitsu egongo da arratsalde partean kostaldean eta mendietan aldiz...”. Horrelako laginak hartu genituen. Alor mugatu baterako aplikazioa da nik landutakoa, eta helburua da aplikazio eremua apurka-apurka handitzea. Baina, hau hasiera baino ez da.

Hori galdetu nahi nizun. Batzuetan badirudi itzulpen automatikoa asmatuta dagoela, hedabideek kontatzeko duten moduagatik, adibidez.


... agerian dago ezetz, bestela denok erabiliko genuke mugikorrean! Ez, ez dago asmatuta.

Nola transmititzen duzue egiten duzuen lana, noraino iritsi zareten azaltzea, adibidez?


Aspalditik ari gara itzulpengintza automatiko estatistikoan. 90eko hamarkadan AEBetan IBMko taldea sortu zen, eta horrek eman zien buelta aurreko metodoei. Hogei urte pasa dira eta ez dugu lortu hizkuntza batetik bestera natural eta zuzen itzultzea. Apurka ari gara uztartzen metodo linguistikoak eta estatistikoak.


Euskararekin bezala beste hizkuntzekin ere berdin aritzen dira lanean?


Azken finean, adimen artifizialeko ezagumenak aplikatzen dira, metodo orokorrak dira aplikatzen direnak problema jakin baterako. Nahiko gatza da gure problema zeren ez da matematika, hizkuntza da, oso aberatsa.


Buelta eman diozu, hizkuntza arazoa dela esan beharrean aberatsa dela diozu.


Erronka da, ea zer ekarri ahal diodan hizkuntzalaritzari nire metodoen bidez.


Itzulpen “perfektua” noiz izango dugun imajinatzen al duzu?


Ez nuke jakingo aurresaten, adibidez, hainbeste urtetan maila ertaineko itzultzailea izango dugu... Google-ek badauka berea, nahiko ona da, baina alor guztietarako aplikagarria al da? Oraindik ez. Hala ere, zientziaren bilakaera oso-oso azkarra da. Garai batean, bospasei urtean inork ez zizun tesia zapaltzen, gaur egun zure gaia urte pare batean zaharkituta geratu da, jende piloa ari da gai horretan.

Jendeak espero du itzultzaile perfektua aurkitzea Interneten, adibidez.


Bai, eta gero bazoaz probatzera eta txarto egiten du, ezta? Biltzarretan-eta aipatzen dena da: zuk zer nahiago duzu, Taiwanetik erositako garbigailuaren eskuliburua taiwanera perfektuan egotea edo euskara xumean? Nik nahiago dut ezagutzen dudan hizkuntzan egotea, akatsen bat badago ere nahiago dut ulertzea, beste hizkuntza batean perfektua izatea baino. Agerian dago itzultzaileen beharra oso handia dela. Kostuak jaisten saiatu behar dugu, itzultzaileei lagunduko dien erremintak sortuz.


Lagungarri beraz.


Euskalmeteko lagina, euskaraz eta gaztelaniaz geneukan, baina publikatzeko ingelesez behar genuen zerbait. Kontratatu genuen itzultzaileak 14.000 esaldi itzultzeko milioi bat pezeta kobratu zigun, ez da asko. Gure sistemak, entrenatuta zegoenean, 1.500 esaldi zuzentzeko segundo batzuk behar izan zituen. Itzultzaileari pasa nizkion esaldiak eta esan nion, “zuk egin duzun lana nireak segundo batzuetan egin du”. Noski, berak bezain ondo ez zuen egin makinak, baina kalitatea begiratzeko esan nion. Harri eta zur geratu zen, “ez dira zuzenak, baina ulergarriak dira” esan zuen. Aitortu beharra dago segundo batzuetan 1.500 esaldi itzultzea ondo dagoela. Gero, itzultzaileari gutxiago kostako zaio esatea ondo ala gaizki dagoen, zerotik itzultzen hastea baino.

Itzulpen automatikoak egiteko corpus bolumen handiak behar dira eta euskarak ez ditu, era berean dauzkagun itzulpen memoriak ez ditugu elkarbanatzen. Ondo ari al naiz?


Nondik aterako ditut laginak? Euskaraz publikatutakoa, doan, erraz eta formatu egokian lortzeko moduan... baldintza larregi dira, zaila da.

Tesirako enpresa batekin jarri zinen harremanetan. Ohikoa da hemen alor akademikoa eta enpresa elkarlanean aritzea?


Nahiko banatuta egoten dira. Unibertsitatean, batzuetan, ez dakigu ebatzitako problemak praktikan zelan jarri. Gero hor dago enpresa mundua gu gure lekuan jartzeko, “horrek ez du ezertarako balio, gaur egungo gizarteak behar duena hau da”. Oso tesi gutxi daude enpresarekin lotuta. Unibertsitatean ahaztu egiten gara gizartearen beharrez, enpresak berriz lurrean kokatuta daude. Gure proiektua sortu zen enpresa batek eskatuta.

Euskara askoz zailagoa da itzulpengintzarako, berezitasun linguistikoak dituelako, ala hori ez da egia eta arazoa corpus falta da.


Batetik, euskara oso bitxia da morfologikoki, atzizkiak jartzen ditu bata bestearen atzetik eta hitzaren esanahia askotxo aldatzen da. Bestetik, sintaxia ere oso bitxia da, gaztelaniaz egiten dena da subjektua, aditza eta osagaiak. Euskaraz ohiko egitura da subjektua, osagaiak eta aditza, eta aditzaren aurretik garrantzitsuena dena. Itzulpengintza egin behar dugunean, bi gauza hartu behar ditugu kontuan: bata, esanahia batetik bestera trasladatzea, eta bestea, gero hitzen orden egokia aukeratzea. Katalanaren eta gaztelaniaren artean ordena nahiko parekoa da, sistemari ez zaio hainbeste kostatzen ordena hori ulertzea, baina sistema estatistikoentzat kristo bat da urrutiko lerrokadurekin lan egitea [euskara eta gaztelania kasu]. Erronka da desberdinak diren hizkuntzen arteko itzulpena egitea.

Euskara eta beste hizkuntza batzuk egongo dira antzeko egoeran, ezta?


Alde horiek kontuan hartuta bai, baina euskarak gainera, baliabide linguistiko gutxi dauka, hiztun gutxi dauka. Baliabide gutxi izanda kalitate bereko gauzak lortzen saiatzea beste erronka bat da.

Alegia, berezitasunetan finlandiera pare da euskara, baina kopuruan finlandierak irabazten dio.


Noski. Orain biltzarretan esaten ari direna da metodo bereziak behar ditugula hizkuntza murriztuak bultzatzeko.
Singapurren egon naiz duela gutxi. Egunkarietan parte batzuk txineraz zeuden eta beste batzuk ingelesez. Itzulpengintza egin nahi baduzu hor ez daukazu corpus paralelorik, alegia, hau honen itzulpena da. Gara egunkariaren kasua bera da.
Erronka da hizkuntza batean zein bestean hurbilpen handia izango duten edukiak aurkitzea.

ASTEKARIA
2010ko irailaren 05
Irakurrienak
Matomo erabiliz
Azoka
Azkenak
Kontzertuak, hitzaldiak, antzerkiak, dantzak, bertso-saioak... M8ko ekitaldi kulturalen bilduma

Festa egiteko musika eta kontzertu eskaintza ez ezik, erakusketak, hitzaldiak, zine eta antzerki ikuskizunak eta zientoka ekintza kultural antolatu dituzte eragile ugarik Martxoaren 8aren bueltarako. Artikulu honetan, bilduma moduan, zokorrak gisa miatuko ditugu Euskal Herriko... [+]


Bizi testamentua: aurretiazko borondateen agiriaren gakoak

Soco Lizarraga mediku eta Nafarroako Duintasunez Hiltzeko Eskubidea elkarteko kidearen ustez bizi testamentuak heriotza duin bat eskaini eta familiari gauzak errazten dizkio.


2025-03-07 | Uriola.eus
Iker Egiraun, Etxebarrieta Memoria Elkartea
“Bizi dugun testuingurua urteetan emandako borroken ondorioa dela sinbolizatu nahi dugu”

Bilbo Hari Gorria dinamikarekin ekarriko ditu gurera azken 150 urteetako Bilboko efemerideak Etxebarrieta Memoria Elkarteak. Iker Egiraun kideak xehetasunak eskaini dizkigu.


2025-03-07 | Aiaraldea
Ferosca I zentral eolikoaren kontrako alegazioak zabaldu ditu Aiaraldeko Mendiak Bizirik plataformak

Laudion, Aiaran eta Okondon izango du eragina energia azpiegiturak eta plataformaren aburuz, proiektuak eta ingurumen-inpaktuaren azterketak gabezia garrantzitsuak dituzte.


2025-03-07 | Euskal Irratiak
Donibane Lohizuneko Begiraleak kultur elkarteak bere 90 urteak ospatuko ditu

"Entseatzen gira arnas gune bat sortzen Donibane Lohizunen, hain turistikoa den herri honetan". 250 kiderekin Donibane Lohizuneko Begiraleak kultur elkarteak 90 urte bete ditu aurten. Lau emaztek sortu zuten talde hauetan eramaile izan zen Madeleine de Jauregiberri... [+]


“Topaketa antiinperialistak” egingo ditu Askapenak martxoaren 15 eta 16an Bilbon

Karmela espazio autogestionastuan egingo ditu, eta Euskal Herriko zein nazioarteko gonbidatuak egongo dira bertan. "Koiuntura analisi orokorretik abiatu eta Euskal Herriko borroka internazionalistaren gakoetarainoko bidea" egingo dutela adierazi du Askapenak... [+]


Legebiltzarrak 1936ko biktimen legea aldatu du, Erorien Monumentua birmoldatzeko

33/2013 Foru Legeari Xedapen gehigarri bat gehitu zaio datozen aldaketak gauzatu ahal izateko, eta horren bidez ahalbidetzen da “erregimen frankistaren garaipenaren gorespenezkoak gertatzen diren zati sinbolikoak erretiratzea eta kupularen barnealdeko margolanak... [+]


Bi eskumen berri bere gain hartu ditu Jaurlaritzak: atzerritarren lan-baimena eta meteorologia-zerbitzua

2025 amaitu baino lehen Gernikako Estatutuan jasotzen diren eskumen guztiak izatea espero du Jaurlaritzak. Oraindik 25 eskumen falta dira. Transferentzia Batzordea aurreko astean biltzekoa zen baina "agenda arazoak" zirela eta atzeratu zuten. 


Duplak egin du aurtengo Herri Urratseko abestia

Elgarrekin izena du Duplak egin duen aurtengo abestiak eta Senpereko lakuan grabatu zuten bideoklipa. Dantzari, guraso zein umeen artean azaldu ziren Pantxoa eta Peio ere. Bideoklipa laugarrengo saiakeran egin zen. 


2025-03-06 | Haizea Isasa
Kasu, ez gitxu lo!

“Kasu, ez gitxu lo!”. Gure denbora eta manerekin baina heldu gira.

Azaroaren 25ean Baionako elgarretaratzera joan ez joan eta autoak nola partekatu pentsatzetik (joan-jina bi oren), bat-batean Lartzabalen elgarretaratze bat antolatu genuen, eta 47 emazte bildu!... [+]


Eskuin muturrarekin lotura duen alemaniar batek egin zuen Manheim hiriko auto harrapaketa, ez etorkin batek

Alemaniako Poliziak asteleheneko gertakariaren arrazoiak "politikoak" zirela baztertu duen arren, 35 urteko Alexander Scheuermann Ring Bund talde neonaziko kide zen. Bi hildako eta hamar zauritu utzi dituen atentatuaren egileak sare sozialetan "gorroto mezuak"... [+]


2025-03-06 | Mara Altuna Díaz
Mary Kim Laragan-Uranga, AEB-etako euskalduna eta AEK-ko ikaslea
“Euskara ikasten dut AEBetara emigratu zuten nire aitona-amonen ahalegina eta sustraiak ohoratzeko”

“Bi pertsona mota daude munduan: euskaldunak, batetik, eta euskaldunak izan nahiko luketenak, bestetik”. Gaztea zela, Mary Kim Laragan-Urangak maiz entzuten omen zuen horrelako zerbait, Idahon (AEBak), hain zuzen. Ameriketan jaio, hazi, hezi eta bizi izandakoak 70... [+]


Feminismo antimilitarista: ezinbesteko borroka Martxoaren 8an eta beti

Martxoaren 8a, Emakumeen Nazioarteko Eguna, munduan zehar milioika emakumeontzat berdintasuna, eskubideak eta justizia eskatzeko borroka eguna da. Hala ere, gerrek, gatazkek eta politika militaristen hazkundeak markatutako testuinguru global batean, inoiz baino premiazkoagoa da... [+]


Manu Ayerdiren kontrako auzia behin betiko artxibatu dute, instrukzioa epez kanpo luzatu zelako

Geroa Baiko lehendakari eta Nafarroako lehendakariorde izandakoa enpresa bati 2,6 milioi euroko diru-laguntzak ustez modu irregularrean emateagatik zegoen auzipetuta, Davalor auzia deiturikoan. Nafarroako Probintzia Auzitegiak erabaki du auzia behin betiko artxibatzea, legalki... [+]


Feminista sindikalista ala sindikalista feminista

Nahiz eta Nazio Batuen Erakundeak (NBE) 1977an nazioarteko egun bat bezala deklaratu zuen eta haren jatorriaren hipotesi ezberdinak diren, Martxoaren 8aren iturria berez emazte langileen mugimenduari lotua da.


Eguneraketa berriak daude