argia.eus
INPRIMATU
Latxa: Hitz crea o modelo lingüístico máis grande e libre en eúscaro
  • Hai pouco presentouse o gran modelo de lingua catalá libre chamado Aina Flor, e na noticia da semana pasada diciamos que o director do Centro Vasco Hitz, Eneko Agirre, anunciou que en breve tamén viña en eúscaro. E onte mesmo fíxose público o Centro Hitz: Latxa. LLM é un gran modelo lingüístico, unha superbase de datos na que se basean as iniciativas de intelixencia artificial. Os LLM son a base das versións ChatGPT de OpenAI, por exemplo. Agora temos un destes, en eúscaro (bo, unha chea de modelos de verdade, formado por 3 corpus).
Sustatu 2024ko urtarrilaren 30

Segundo Hitz Zentroa "é a familia de modelos abertos" Latxa, que inclúe o "maior modelo lingüístico en eúscaro". Está construída sobre o modelo lingüístico Meta ou Facebook Chama 2 e segue a súa licenza. Chama 2 xa viu excelentes resultados en eúscaro, capaz de realizar unha correcta tradución automática oral en eúscaro a través do produto Seamless M4T. O logo de Latxa é precisamente o que une a Chama e á ovella vasca, aínda que tamén hai unha conexión en nome (como nos pareceu).

Latxa recolle modelos de entre 7 e 70 mil millóns de parámetros. En canto ao conxunto de textos para a construción de modelos, os investigadores vascos han utilizado EusCrawl, un conxunto de textos en eúscaro de 1,72 millóns de documentos e 288 millóns de palabras. EusCrawl extraeuse de 33 webs de contido de calidade, ofrecendo maior calidade que outras técnicas de formación de corpus desde Internet.

De feito, Latxa non se fixo para o público xeral, iso virá máis adiante. Con todo, o tres modelos están dispoñibles na plataforma HuggingFace e poderán ser utilizados polo enxeñeiro experto consultando o “model card”, onde se atopan as instrucións para a información técnica e a iniciación no uso dos modelos.

O desenvolvemento de Latxa foi o resultado dunha iniciativa de investigación, innovación e desenvolvemento, que forma parte do proxecto IKER-GAITIK, apoiado polo Goberno Vasco, en colaboración co programa europeo EuroHpc.

Os modelos lingüísticos actuais teñen un rendemento sorprendente, como o inglés ChatGPT ou o inglés Bard. Con todo, no caso das linguas minoritarias e o eúscaro non. Con estes modelos deu un paso na sesión de Hitz Zentroa para dar a volta á situación, e segundo os seus datos, Latxa responde mellor que outros sistemas ás formulacións en eúscaro.

Máis información, aquí.

En Hugginface: Latxa.