argia.eus
INPRIMATU
Latxa: Hitz crea el model lingüístic més gran i lliure en basc
  • Fa poc es va presentar el gran model de llengua catalana lliure anomenat Aina Flor, i en la notícia de la setmana passada dèiem que el director del Centre Basc Hitz, Eneko Agirre, va anunciar que en breu també venia en basc. I ahir mateix es va fer públic el Centre Hitz: Latxa. LLM és un gran model lingüístic, una superbase de dades en la qual es basen les iniciatives d'intel·ligència artificial. Els LLM són la base de les versions ChatGPT d'OpenAI, per exemple. Ara tenim un d'aquests, en basc (bo, un munt de models de veritat, format per 3 corpus).
Sustatu 2024ko urtarrilaren 30

Segons Hitz Zentroa "és la família de models oberts" Latxa, que inclou el "major model lingüístic en basc". Està construïda sobre el model lingüístic Meta o Facebook Flama 2 i segueix la seva llicència. Flama 2 ja ha vist excel·lents resultats en basc, capaç de realitzar una correcta traducció automàtica oral en basca a través del producte Seamless M4T. El logo de Latxa és precisament el que uneix a Flama i a l'ovella basca, encara que també hi ha una connexió en nom (com ens ha semblat).

Latxa recull models d'entre 7 i 70 mil milions de paràmetres. Quant al conjunt de textos per a la construcció de models, els investigadors bascos han utilitzat EusCrawl, un conjunt de textos en basc de 1,72 milions de documents i 288 milions de paraules. EusCrawl es va extreure de 33 webs de contingut de qualitat, oferint major qualitat que altres tècniques de formació de corpus des d'Internet.

De fet, Latxa no s'ha fet per al públic general, això vindrà més endavant. Tanmateix, els tres models estan disponibles en la plataforma HuggingFace i podran ser utilitzats per l'enginyer expert consultant el “model card”, on es troben les instruccions per a la informació tècnica i la iniciació en l'ús dels models.

El desenvolupament de Latxa ha estat el resultat d'una iniciativa de recerca, innovació i desenvolupament, que forma part del projecte IKER-GAITIK, secundat pel Govern Basc, en col·laboració amb el programa europeu EuroHpc.

Els models lingüístics actuals tenen un rendiment sorprenent, com l'anglès ChatGPT o l'anglès Bard. No obstant això, en el cas de les llengües minoritàries i el basc no. Amb aquests models ha fet un pas en la sessió d'Hitz Zentroa per a donar la volta a la situació, i segons les seves dades, Latxa respon millor que altres sistemes a les formulacions en basca.

Més informació, aquí.

En Hugginface: Latxa.