argia.eus
INPRIMATU
Com s'ha utilitzat la intel·ligència artificial per a difondre el basc?
  • Entre ells, Naiara Perez, investigadora del Centre de Tecnologia Lingüística HI-TZ de la UPV/EHU; Itziar Cortes, investigadora d'Elhuyar, i Eli Pombo, gerent de Iametza. Entre altres coses, parlaran sobre el lloc que té el basc en la intel·ligència artificial, sobre les seves possibilitats, els reptes i les dificultats.
Olaia L. Garaialde 2024ko uztailaren 10a

Està en boca de tots i en el dia a dia s'utilitza més la intel·ligència artificial del que es creï. Però què és? “Per a donar una definició simple diria que és un camp entre la matemàtica i la informàtica, en el qual als ordinadors se'ls donen les competències humanes, com la capacitat lingüística, la vista, el moviment…”, explica Naiara Pérez. La ment pot ser exacta o general. És a dir, l'específic serveix per a algunes accions, com, per exemple, accedir a un túnel i encendre automàticament les llums del cotxe o preguntar coses als auxiliars de veu. Per contra, el genèric és una cosa similar a l'ésser humà i és capaç de realitzar més d'una acció, com és el cas de l'interlocutor artificial ChatGPT d'Open Al.

La intel·ligència artificial funciona mitjançant xarxes neuronals. Les xarxes neuronals tracten d'imitar amb els instruments de computació el sistema nerviós humà i la manera d'aprendre. Per a això, és necessari informar i dissenyar algorismes d'aprenentatge que capacitin les eines per a aprendre patrons. “Encara no hem arribat, però hem començat a plantejar-nos realment si en els pròxims anys la intel·ligència artificial pot representar a la ment d'un ésser humà”, ha dit Pérez.

No obstant això, Pombo ha fet un comunicat en el qual recorda que la intel·ligència artificial és una eina: “No deixaria que ens sedujamos. Hem d'utilitzar la tecnologia de manera racional, per a usos realment útils i de manera ètica”.

Eli Pombo, Iametza: “Sento que estem intentant perdre el tren i fer lloc, però no soc pessimista. A part de les dificultats, crec que també tenim vent favorable”

La intel·ligència artificial es pot aplicar en molts sectors, entre ells el processament del llenguatge. En aquest àmbit s'inclouen, entre altres, els sistemes de reconeixement i traducció simultània de la llengua escrita, els sistemes de recepció i escriptura de la llengua oral i els sistemes de conversió de textos en veu. Segons Pérez, en els últims anys al País Basc hi ha “molts” investigadors en tecnologia lingüística i desenvolupament, i hi ha un sector “fort”: “Estem sorgint de nosaltres”. Per tant, hi ha un sector que investiga en basc, però en tot aquest remolí de la tecnologia, quin és el lloc que té el basc? Quins beneficis i inconvenients té? Quines dificultats i possibilitats té el basc?

“La intel·ligència artificial és la realitat que ens envolta i el basc ha de ser aquí. Si no, perd oportunitats en la presència digital”, ha subratllat Pombo. A més, ha afegit que es tracta d'una oportunitat perquè el basc s'estengui a altres llocs. Pérez s'ha sumat a això i ha recordat que les eines de gran projecció, com ChatGPT, solen estar en mans de grans empreses: “No podem quedar-nos a l'espera del que vagin a fer les grans empreses. La prioritat d'empreses com Google i Microsoft no és tenir en compte tots els idiomes del món. Aquest tipus d'empreses se centren en els idiomes amb major nombre de clients, és a dir, en les llengües hegemòniques”. No obstant això, ha afegit que en aquest tipus d'empreses també s'ha començat a integrar el basc.

Pombo sent que els investigadors que treballen en basc en aquest sentit estan “lluitant”: “Sento que estem intentant perdre el tren i fer lloc, però no soc pessimista. A part de les dificultats, crec que també tenim vent favorable”. També diu que hi ha "molta voluntat" de fer les coses per part de les institucions públiques i de la ciutadania. A més, segons Pombo, és “impossible” competir contra els avanços que fan les grans empreses: “Hem de continuar fent les coses amb sentit comú i sense frustrar”.

Elhuyar compte, entre altres, amb les eines Elia i Entzun. El traductor neuronal Elia tradueix en pocs segons textos senzills i documents amb format. La plataforma d'experts processa arxius d'àudio i vídeo prèviament gravats i crea les seves transcripcions i subtítols.

Sobirania tecnològica Atès que la
tecnologia es basa en dades en general, Pombo considera que per a no posar la informació a la disposició de les grans empreses és necessari gestionar-la “de manera sobirana”: “El programari lliure et permet millorar el que has fet per tu i enforteix l'economia local”. En aquest sentit, Cortès ha advertit que l'ús d'aquestes dades per part dels usuaris ha estat "racional". Per això, en Elhuyar no s'utilitzen les dades dels clients per a entrenar les eines: “Hem d'estar atents, no llegim la lletra petita o no ens avisen i sense voler estem alimentant aquests sistemes”. Pérez també ha posat l'accent en l'origen de les dades i ha afirmat que en els models lliures l'aspecte ètic és "més net".També han

subratllat l'impacte que té treballar des de les necessitats i aspiracions locals. “Si ho fem nosaltres, crearem el contingut que tenen els temes que ens interessen”, ha dit Pérez. Ha afegit que la creació de “tecnologia capdavantera” contribueix a “alimentar” al sector tecnològic i al sector de la recerca al País Basc: “Si treballem de manera oberta podem promoure la col·laboració entre els centres de recerca d'aquí”.

Naiara Perez, Centre I.T.: “No podem quedar-nos a l'espera del que facin les grans empreses. La prioritat d'empreses com Google i Microsoft no és tenir en compte tots els idiomes del món”

Són molts els que posen a la disposició dels altres eines per a desenvolupar la tecnologia. Exemple d'això és el Latxa creat pel Centre de Tecnologia Lingüística HiTZ de la UPV/EHU. El llenguatge és un gran model, i quan es dona una successió de textos a aquesta mena de models, donen la paraula més probable. “Latxa no fa res per si mateix, és un motor que genera altres aplicacions”, explica Pérez. Per exemple, el corrector ortogràfic serveix per a crear aplicacions de resposta a preguntes i exercicis automàtics en l'ensenyament: “Nosaltres, per exemple, hem inclòs a Latxa com a usuari en el joc Una vegada al dia per a donar respostes”. Està disponible en la xarxa i pot descarregar-la qualsevol persona.

Falta d'informació, dificultat
Les dades
són el tresor de la intel·ligència artificial. De fet, per a entrenar les eines es necessiten el major nombre de dades de qualitat possible. Per exemple, per a crear un sistema que escolti la veu i la transcriu directament es necessiten moltes gravacions i transcripcions. Els investigadors entrevistats han subratllat que una de les grans dificultats que té el basc és l'obtenció de grans quantitats de dades. “En comparació amb les llengües hegemòniques, el basc no té tant de contingut, i llavors és més difícil obtenir resultats”, ha dit Pérez. Això sí, Cortès s'ha sumat a això, encara que creu que, en comparació amb altres llengües minoritàries, hi ha "més" contingut en euskera.la majoria de les

eines actuals estan formades en basc unificat, encara que també existeixen eines que treballen els dialectes. El servei de traducció Batua, per exemple, està basat en la intel·ligència artificial i les xarxes neuronals i és un projecte desenvolupat pel centre tecnològic Vicomtech i promogut per Euskaltel, Mondragonlingua i EITB. Aquest servei de traducció coneix el basc batua, el francès, el castellà, l'anglès i el biscaí. A més, és capaç de fer traduccions entre el basc i totes aquestes llengües. “En el cas dels dialectes bascos és molt més difícil obtenir dades; si el basc es costa en el batua, pensa en el biscaí o en el labortano”, ha dit Pérez. Quant als dialectes, la falta de normes i les variants existents en cada zona dificulten el procés: “El biscaí no està unit, llavors si alimentem la màquina amb els dialectes de Getxo, Guernica o Ondarroa, és molt difícil crear un pratón”. Malgrat

les dificultats, això no vol dir que a Euskal Herria no es generi contingut de qualitat. De fet, Cortès ha destacat que es cuida "molt" el contingut que es genera en basc: “Amb les dades que tenim estem aconseguint resultats molt ordenats”. A més, ha afegit que la intel·ligència artificial ha obert altres portes al basc, ja que es trobaven "delimitades" amb sistemes antics. Explica que amb els primers sistemes no arribaven a crear i posar a disposició sistemes “veritablement útils”.

Traslladat a la pràctica explica els avanços en traducció automàtica: “Abans no funcionava bé, però ara sí”. En 2007 Elhuyar i la UPV van crear Matxin, el primer traductor automàtic lliure. El sistema d'aquesta època no estava basat en la intel·ligència artificial: “En el cas del basc, els resultats que donava no s'acostaven als que tenim avui dia. Fins a 2016 no aconseguim un sistema de qualitat per a la traducció entre el basc i el castellà”. En l'actualitat, Elia és coneguda com el traductor automàtic.

Per contra, en el cas d'altres idiomes, per exemple, per a les traduccions entre el castellà i el gallec, en l'actualitat s'utilitzen sistemes antics que encara no es basen en la intel·ligència artificial: “En les llengües més pròximes o amb similituds s'obtenien molt bons resultats. En el cas del basc hi ha declinacions, els verbs són diferents i l'ordre de les paraules és lliure. Això crea dificultats per a crear regles de pas d'un idioma a un altre. Gràcies a la intel·ligència artificial avui dia no hi ha gairebé límits".

Itziar Cortes, Elhuyar: “Si utilitzem el traductor automàtic per a traduir al basc el que no està en basc i no mirem si la traducció està bé, no afavorim al basc”

Com la tecnologia és
capaç de fer cada vegada més coses, Cortesa creu que cal ser “raonables”. En cas contrari, en lloc de ser un instrument per a la difusió del basc, diu que pot ser contraproduent: “Si utilitzem el contingut creat en basc per a traduir-lo, estem difonent el contingut que d'alguna manera s'ha creat en basc. Però si utilitzem el traductor automàtic per a traduir al basc el que no està en basc i no mirem si la traducció està bé, no afavorim al basc”. Ha afegit que això farà que a mitjà termini tinguem textos de “baixa qualitat”: “Si utilitzem aquests textos per a entrenar sistemes de futur, la qualitat del basc serà baixa”. A més de

revisar el contingut que es genera, què es pot fer per a garantir la qualitat? El Centre de Tecnologia Lingüística HiTZ ha adoptat diverses vies per a això. En primer lloc, s'han utilitzat els continguts dels mitjans de comunicació bascos amb llicència Creative Commons. Pel fet que aquestes dades no són suficients, també s'ha recorregut als grans arxivaments i s'ha filtrat el seu contingut a través d'un filtre. “Hem aconseguit 4.000.000 de documents, però no és suficient per a crear una eina com ChatGPT; no obstant això, hem aconseguit bons resultats”.

Un altre exemple són les eines Elia, Entzun i TTS que té Elhuyar. Els tres es basen en la intel·ligència artificial. El traductor neuronal Elia tradueix en pocs segons textos senzills i documents amb format. La plataforma d'experts processa arxius d'àudio i vídeo prèviament gravats i crea les seves transcripcions i subtítols. El neuronal TTS converteix el text en veu. Les tecnologies d'Elhuyar coneixen el basc, el castellà, el francès, l'anglès, el català i el gallec. Això significa que Elia, Entzun i TTS es poden utilitzar en aquests sis idiomes. És l'última novetat d'Elhuyar: “Hem vist que els clients són multilingües i que volen utilitzar la nostra tecnologia en altres idiomes diferents al basc. Tenint el basc com a eix principal, poden utilitzar l'única eina en més idiomes”.

Elhuyar zientzia.eus té integrat en el seu web al traductor neuronal. Nota: “Text escrit en basc i traduït automàticament a través d'Elia, sense supervisió posterior”. En aquest exemple el text apareix en catanata.

Cortès creu que totes aquestes eines poden ajudar a “ampliar” el basc: “No hem de tenir por de crear en basca. Si volem arribar a més gent, a més dels traductors professionals, avui dia tenim moltes eines”. En Elhuyar, per exemple, la majoria de les vegades creen coses en basca, però tradueixen algunes coses fora d'Euskal Herria amb un traductor automàtic. Sempre avisant a l'usuari i oferint la possibilitat d'accedir a la versió original.Per exemple

, en el portal zientzia.eus tenen un traductor automàtic integrat. Això significa que si una persona posa en Internet el sistema Com xurdiu o solar? -Com va sorgir el sistema solar? en gallec–, que es pot accedir al portal zientzia.eus. En la pàgina web s'ofereix la possibilitat de llegir en un altre idioma i veure la versió original. “Tenim clar que el lector ha de saber que és un text fet per un traductor automàtic, i no per una persona”, ha dit Cortesa.

ARGIA ha participat recentment en el projecte Itzulinguru i, igual que la web zientzia.eus, ha integrat al traductor automàtic en l'experiment proposat pel Clúster de Sociolingüística i el grup de recerca Innoklab de la UPV/EHU. Aquest projecte ha comptat amb la participació de: Elhuyar, AEK, Orai, Centre d'Intel·ligència Artificial, Osakidetza, Departament d'Educació del Govern Basc i Hekimen.Encara que usen el

traductor automàtic, no deixen tot en mans de les eines. Els membres d'Elhuyar repassen el contingut per a garantir la seva qualitat. A vegades són els investigadors i altres els traductors professionals: “Nosaltres ho tenim clar: es necessiten traductors professionals perquè amb l'automàtic no s'aconsegueix el 100% de la qualitat. A més, no pots deixar a qualsevol que sàpiga si un text és bo o no, perquè no tots tenim els mateixos criteris”. Tots aquests instruments i recursos que existeixen en l'actualitat

poden ajudar a l'aprenentatge d'idiomes. No obstant això, què ocorre si, en lloc de despertar les ganes d'aprendre, fan que no tinguin ganes d'aprendre l'idioma? Segons Pérez, encara que el desig o la necessitat d'aprendre una llengua està lligat a la necessitat de comunicar, no es limita a això: “Pel que fa al basc, no crec que ningú aprengui a comunicar-se per si sol. És una elecció i hi ha moltes coses més a prop. Realment, si vols aprendre basc, francès, àrab o qualsevol idioma, aquest tipus d'eines et facilitaran el camí, però un traductor no et donarà el plaer de llegir en basc directament”.