Dixémoslle que, aínda que o seu campo é difícil de entender, a tradución automática é un tema interesante para as linguas minoritarias.
Speech and text translation involving basque language: application of stochastic finite-state transducers, preguntámoslle que investigou: “A máquina ten diferentes métodos de tradución. Eu emprego o método estadístico. Centreime no eúscaro, pero de feito, a estatística permite facer estatísticas de calquera idioma a calquera idioma. Este método trata as palabras como etiquetas ou números, a primeira palabra na lingua a e a segunda palabra na lingua b. No entanto, o sistema funcionará peor ou mellor en función da proximidade ou distancia das linguas entre si. A estatística, nas traducións entre o eúscaro e o castelán, acaba chapoteando, xa que son linguas moi diferentes. Fai algo, pero pouco, aínda a súa capacidade é bastante reducida.
Ademais da estatística, existen outros métodos de tradución que se adoitan confundir.
Si, esa é a tendencia actual.
Pero elixiches a estatística.
Si. O Grupo Ametzagaiña estaba a traballar con memorias de tradución e quería incluír a estatística no proxecto. Eles axudáronnos a identificar as unidades de tradución, como os sintagmas de nomes.
Por tanto, confundiu a parte lingüística e a estatística.
Queriamos identificar as unidades de tradución, pero con métodos lingüísticos. Os métodos estadísticos permiten identificar o suxeito, o verbo e outros elementos da frase. Con todo, os métodos estadísticos fan esta división coa súa lóxica: paréceme que até aquí é a partición. Ben, pero nós queriamos que a partición fixésese por métodos lingüísticos, é dicir, que as unidades se segmentaran por métodos lingüísticos.
E para iso utilizastes unha mostra das predicións meteorolóxicas de Euskalmet.
“O ceo estará moi nubrado durante a tarde na costa e nas montañas...”. Tomamos mostras deste tipo. O que eu traballei é unha aplicación para un campo limitado, e o obxectivo é ampliar aos poucos o campo de aplicación. Pero isto non é máis que o principio.
Era iso o que quería preguntarlle. Ás veces parece que a tradución automática está inventada, por exemplo, pola forma en que os medios de comunicación cóntano.
... está claro que non, se non, todos usariámolo no móbil! Non, non está inventado.
Como transmitides o traballo que facedes, como chegastes, por exemplo?
Hai tempo que estamos a traballar en tradución automática estadística. Na década dos 90 formouse en Estados Unidos o grupo de IBM, o que deu a volta aos métodos. Pasaron vinte anos e non conseguimos traducir dun idioma a outro de maneira natural e correcta. Aos poucos fomos conxugando métodos lingüísticos e estadísticos.
Traballan igual con outras linguas que co eúscaro?
Á fin e ao cabo, aplícanse
os coñecementos de intelixencia artificial, son os métodos xerais os que se aplican para un problema concreto. O noso problema é bastante salgado porque non é matemáticas, é unha linguaxe, é moi rico.
Deulle a volta, en lugar de dicir que o idioma é un problema, di que é rico.
O
reto é saber que podo achegar á lingüística a través dos meus métodos.
Imaxínasche cando teremos unha tradución “perfecta”?
Non sabería predicir, por exemplo, durante tantos anos teremos un tradutor de nivel medio... Google xa ten a súa, é bastante boa, pero é aplicable a todos os ámbitos? Aínda non. Con todo, a evolución da ciencia é extremadamente rápida. Nun tempo, en cinco ou seis anos ninguén lle oprimía a tese, hoxe en día o seu tema quedou anticuado nun par de anos, é un tema de moita xente.
A xente espera atopar ao tradutor perfecto en Internet, por exemplo.
Si, e logo vas probar e faio mal, non? O que se di nos congresos é: que prefires, que o manual da lavadora que compraches de Taiwan estea perfecto ao taiwán ou en eúscaro simple? Eu prefiro estar no idioma que coñezo, aínda que haxa algún erro, prefiro entendelo, a que sexa perfecto noutro idioma. Está claro que a necesidade dos tradutores é moi grande. Temos que tentar baixar custos, creando ferramentas que axuden aos tradutores.
Así de útil.
A
mostra de Euskalmet tiñámola en eúscaro e castelán, pero para publicala necesitabamos algo en inglés. O tradutor que contratamos cobrounos un millón de pesetas para traducir 14.000 frases, non é moito. O noso sistema, cando estaba adestrado, necesitou uns segundos para corrixir unhas 1.500 frases. Pasei as frases ao tradutor e díxenlle, “o traballo que fixeches foi feito por min nuns segundos”. Por suposto, a máquina non estaba tan ben como ela, pero lle dixen que vixiase a calidade. quedou asombrado, dixo: “Non son xustos, pero son comprensibles”. Hai que recoñecer que nuns segundos está ben traducir 1.500 frases. Logo, ao tradutor custaralle menos dicir si está ben ou mal que empezar a volver de cero.
Para facer traducións automáticas necesítanse grandes volumes de corpus e o eúscaro non os ten, así como tampouco compartimos as memorias de tradución que temos. Fágoo ben?
De onde sacarei as mostras? O publicado en eúscaro, de maneira gratuíta, fácil e no formato axeitado... son condicións excesivas, é difícil.
Contactou cunha empresa de Tesira. É habitual que aquí se traballe conxuntamente o ámbito académico e a empresa?
Están bastante repartidos. Na universidade ás veces non sabemos como pór en práctica os problemas resoltos. Logo está aí o mundo empresarial para pornos no noso lugar, “iso non serve para nada, o que necesita a sociedade actual é isto”. Hai moi poucas teses relacionadas coa empresa. Na universidade esquecémonos das necesidades da sociedade, mentres as empresas están situadas no solo. O noso proxecto xurdiu a petición dunha empresa.
O eúscaro é moito máis difícil para a tradución, porque ten particularidades lingüísticas, ou iso non é verdade e o problema é a falta de corpus.
Por unha banda
, o eúscaro é moi curioso morfológicamente, pon sufijos un tras outro e o significado da palabra varía moito. Por outra banda, a sintaxe é moi curiosa, o suxeito, o verbo e os compoñentes son os que se fan en castelán. En eúscaro, o suxeito, os compoñentes e o verbo é a estrutura habitual, e antes do verbo é a máis importante. Cando se trata de traducir hai que ter en conta dúas cousas: unha, trasladar o significado dunha a outra, e outra, elixir a orde axeitada das palabras. A orde entre o catalán e o castelán é bastante parecido, ao sistema non lle custa tanto entender esa orde, pero para os sistemas estadísticos é un cristo traballar con aliñacións a distancia [como o eúscaro e o castelán]. O reto é facer unha tradución entre linguas diferentes.
O eúscaro e outros idiomas estarán nunha situación similar, non?
Tendo
en conta estas diferenzas si, pero o eúscaro ten ademais poucos recursos lingüísticos, ten poucos falantes. Tentar conseguir cousas da mesma calidade con poucos recursos é outro reto.
É dicir, nas especialidades o eúscaro é como o finlandés, pero no número gáñalle o finlandés.
Por suposto. O que agora se está dicindo nos congresos é que necesitamos métodos especiais para fomentar as linguas minoritarias.
Acabo de estar en Singapura. Algúns xornais estaban en chinés e outros en inglés. Se queres facer tradución non tes alí corpus paralelos, é dicir, esta é a tradución.
É o caso do diario Gara. O
reto é atopar contidos que teñan un gran achegamento nun e outro idioma.