Alexandru Jerpelea, estudante de 17 anos de bacharelato en Bucarest (Romanía), creou o primeiro sistema neuronal de tradución automática para a rumanía. Trátase dunha lingua románica minorizada que falan nos Balcáns preto de 200.000 persoas. A súa innovadora ferramenta, dispoñible a través da páxina AroTranslate.com, permite traducir o arrumano-romanés, o arrumano-inglés e o inglés-romanés entre os idiomas.
A súa dedicación á lingüística computacional atraeu a atención nacional en Romanía, e os medios de comunicación quixeron dar a coñecer o seu traballo innovador. Nesta entrevista, Alexandru fálanos da inspiración que hai detrás do seu proxecto, dos retos aos que se enfronta e da importancia do seu proxecto para a conservación do arrumano.
Alexandru, podería dicirnos brevemente que é o que inventou exactamente e que beneficios achega á lingua arrumana?
Coa axuda de Sergiu Nisioi, membro da Universidade de Bucarest, e da comunidade arrumana de Rumania e doutros países, en especial coa axuda de Florentina Costa, creamos o primeiro sistema neuronal de tradución automática ao arrumano. A lingua oriental é un romance. Para levar a cabo o proxecto, tivemos que crear un conxunto de datos con máis de 80.000 pares de frases romanés-arrumanas. Recollemos os datos de diferentes fontes e fixémolo a través dun proceso de recollida de datos adaptado ao arrumano. Esta ferramenta de tradución baseada na IA pretende facer máis accesible o arrumano. Atoparás máis detalles técnicos do proxecto na nosa publicación.
En que che baseaches para desenvolver o primeiro sistema de tradución automática do arrumano?
Inspireime nos estudos de lingüística computacional e noutros proxectos de tradución automática de linguas en perigo de extinción, como o sami e o cheroki. A observación dos esforzos realizados noutros idiomas impulsoume a crear algo parecido para o arrumano.
Que importancia ten para vostede axudarlle dunha maneira tan significativa para coidar o arrumano?
Estou orgulloso de que este proxecto chame a atención sobre a conservación do arrumano. Os artigos de Internet e as publicacións en redes sociais están a axudar a concienciar á xente. No mundo académico, espero que o noso corpus promova máis investigacións sobre a dixitalización do arrumano. A pesar de que o noso proxecto é un gran avance, é un prototipo que ten fronteiras e o romanés aínda ten que facer fronte a moitos retos. A pesar de que este proxecto en si mesmo non vai salvar "" a lingua, espero que dea un paso na boa dirección.
Que dificultades tiveches á hora de desenvolver este sistema de tradución?
O maior reto foi a recollida de datos. Aínda que o noso corpus (conxunto de datos) é o máis grande deste tipo, segue sendo relativamente pequeno en comparación coas linguas de maior nivel de recursos, xa que conteñen conxuntos de datos de millóns ou miles de millóns de frases. O noso obxectivo é seguir ampliando e mellorando.
Que reaccións recibiu da comunidade de arrumano en relación á súa invención? Como reaccionaron os medios romaneses ante este traballo?
A comunidade arrumana mostrouse moi activa e ofreceu comentarios construtivos sobre os erros do programa, que foron moi valiosos. Os principais medios de comunicación romaneses deron a coñecer o noso proxecto, o que suscitou entusiasmo mesmo entre os que non son arrumanos parlantes. Recibimos mensaxes de persoas que descoñecían o estado da lingua, e alégranos contribuír a concienciar sobre os retos do arrumano.
Que tarefas ten para futuros proxectos relacionados coa tecnoloxía lingüística?
O ano que vén empezarei na universidade. Alí seguirei estudando Procesamiento da Linguaxe Natural e colaborarei na realización de máis proxectos para as linguas con menos recursos. Cando termine o proceso de admisión na universidade, seguirei desenvolvendo o sistema de tradución para o romanés.
Korsikako legebiltzarkideek ezin dute Korsikako Asanblean korsikeraz hitz egin, Bastiako Auzitegiaren 2023ko epai baten arabera. Ebazpen horri helegitea jarri zion Asanbleak, baina debekua berretsi du orain auzitegi berak. Epaiak tokiko beste hizkuntzei eragiten diela ohartarazi... [+]
Uwa, kamsá, tukuná, uitoto, tikun, embera, nasa-yuwe, nuka, sikuani, siano, macuna, yuruti, kichwa, achagua, bora, truncar. Estes son algúns dos idiomas que se falan en Colombia. Desgraciadamente, cando vivía en Colombia, en Cundinamarca, eu non tiven a oportunidade de... [+]
Marfa (EEUU), 1954. Na escola primaria Blackwell desta localidade do deserto de Texas, os nenos foron forzados a participar nunha peculiar cerimonia. O profesorado repartiulles anacos de papel e pediulles que escribisen: “Non vou falar español, nin na escola nin no... [+]