Latxa: euskarazko hizkuntza eredu handiena eta librea sortu du Hitz-ek

  • Aina Flor izeneko hizkuntza eredu handi katalan librea aurkeztu zen duela gutxi, eta duela astebeteko albistean genioen Hitz Zentro euskalduneko Eneko Agirre zuzendariak iragarri zuela bazetorrela laster euskarazkoa ere. Eta atzo bertan egin zuen publiko Hitz Zentroak: Latxa. LLM edo hizkuntza eredu handi bat da, adimen artifizialeko ekimenek oinarrian duten super-datubasea, erraz esanda. OpenAI-ren ChatGPT bertsioen oinarriak dira LLM-ak adibidez. Orain holako bat dugu, euskaraz (tira, eredu sorta bat egiaz, 3 korpusek osatua).

Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

2024ko urtarrilaren 30ean - 07:30

Hitz Zentroaren esanetan, "eredu irekien familia da" Latxa, "euskarazko hizkuntza eredurik handiena" bere baitan duena. Meta edo Facebook enpresaren Llama 2 hizkuntza ereduaren gainean dago eraikita, eta haren lizentzia jarraitzen du. Llama 2 ikusia dugu aurretik ere euskarazko emaitza bikainak ematen, ahozko itzulpen automatiko zuzena euskaraz egiteko gai Seamless M4T produktuaren bidez. Latxaren logoak, hain zuzen, Llama eta ardi euskalduna batzen ditu, izenean ere badagoelarik konexio bat (iruditu zaigunez).

Latxak 7-70 mila miloi parametro arteko ereduak biltzen ditu. Ereduak eraikitzeko testu multzoari dagokionez, EusCrawl erabili dute ikerlari euskaldunek, euskarazko testuez osatutako testu multzoa, 1,72 milloi dokumentu eta 288 miloi hitz dituena. EusCrawl kalitatezko edukia duten 33 webguneetatik erauzi zen, Internetetik corpusak osatzeko beste teknikak baino kalitate hobea eskainiaz.

Berez, Latxa ez da egin publiko orokorrarentzat, hori aurrerago etorriko da. Hala ere, hiru ereduak eskuragarri daude HuggingFace plataforman daude eskuragarri, eta ingeniari adituak erabili ahal izandgo ditu kontsultatuz “model card” delakoa: informazio teknikorako eta ereduak erabiltzen hasteko argibideak hortxe dira.

Latxaren garapena ikerketa, berrikuntza eta garapena sustatzeko ekimen baten ondorio izan dira, Eusko Jaurlaritzak lagundutako IKER-GAITU proiektuaren parte da, EuroHpc programa europarraren laguntzarekin.

Gaur egungo hizkuntza ereduek errendimendu harrigarria dute, adibidez ingelesarako ChatGPT edo Bard. Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, ez. Eredu hauekin pauso bat eman du Hitz Zentroak egoerari buelta emateko saioan, eta beren datuen arabera, euskarazko formulazioei beste sistemek baino hobeto erantzuten du Latxak.

Informazio gehiago, hemen.

Hugginface-n: Latxa.


Kanal honetatik interesatuko zaizu: Adimen artifiziala
2025-01-10 | Sustatu
Applek albiste-laburpenak asmatzen ditu inolako axolarik gabe

Adimen Artifizialarekin egindako disparateen biltegia handitzen ari da. Erabiltzaile arruntok sortutakoak txorakeriak izan daitezke neurri handi batean, baina Interneteko erraldoiak berak ari dira halakoak errepikatzen eta horrek larriagoa dirudi, eragin globala izan... [+]


2024-11-08 | Leire Ibar
Farmazia enpresen erdiak baino gehiagok adimen artifiziala erabiltzen du

Sendagaien garapena "bizkortzeko, tratamenduak pertsonalizatzeko eta barne-prozesuak optimizatzeko" erabiltzen ari dira adimen artifiziala. Enpresen % 33k erabiltzen du gaixotasunen analisian, eta % 29k sendagaien garapenean eta fabrikazioan.


Teknologia
AA sortzailearen erantzuna

Orain dela urte asko Dr. Abuse chatbota ezagutu nuen, aplikazio horrekin ohartu nintzen ere pertsonok zeinen azkar kateatu gaitezkeen holako makinetara. Animalia sozialak izanda, harremana berezkoa eta beharrezkoa dugu, eta 'harremana' izenak dioen bezala,... [+]


2024-11-01 | Sustatu | Sustatu
Wikipedia AA eduki okerretik (baina ez AA orotatik) askatzeko premia eta proiektua

WikiProject AI Cleanup proiektuari ekin diote Wikipedian: "Adimen Artifizialaren garbiketa", nolabait esatearren. Wikilari boluntarioak momentuz ingelesez, frantsesez eta alemanez hasi dira adimen artifizialaren bidez sortutako materialak detektatu eta (okerrak... [+]


Teknologia
Kakofoniak

Eremu ez profesionalari loturiko pertsona talde digitaletan, besteoi argudioak emateko adimen artifiziala baliatu duenik ikustea gertatu zait azken urte honetan. Partekaturikoa propioa bailitzan. Norberarena, baina ez jabetzaren zentzuari loturikoa, baizik eta norbere... [+]


2024-10-29 | Leire Ibar
Hamar urtean zabor elektronikoaren pilaketa mila aldiz biderkatu daiteke

Adimen artifizialak bost milioi tona hondakin elektroniko sortu ditzake 2030a baino lehen, Nature Computational Science aldizkariak argitaratu duen txosten baten arabera. Ikertzaileek ekonomia zirkularreko estrategia bat ezartzearen beharra nabarmendu dute.


2024-10-25 | Leire Ibar
28 emakume ezkutuan grabatzea egotzi diote Nafarroako irakasle bati

Nafarroako Foruzaingoak Bigarren Hezkuntzako irakasle baten inguruko ikerketa abiatu du. Institutuko komunetan eta hainbat dendatako aldageletan emakumeak ezkutuan grabatzea leporatu diote auzipetuari.


2024ko Euskarabildua
Teknologia artifiziala baino, pertsonak eta komunitateak lehen lerrora

Artifiziala ez den teknologia izango du goiburutzat Iametza komunikazio enpresak, ARGIA eta Ametzagainarekin elkarlanean, antolatu duen Euskarabildua jardunaldiaren 13. edizioa. Teknologiaren erabilera "etikoagoa, iraunkorragoa eta bideragarriagoa" aldarrikatuko dute,... [+]


Microsoftek berriz jarriko du martxan Three Mile Island zentral nuklearra, adimen artifiziala elikatzeko

1979an istripu nuklear larria gertatu zen Pennsylvaniako (AEB) Three Mile Island zentral nuklearreko unitateetako batean. Bestea, 2019an itxi zutena, berriz jarriko dute martxan, Microsoften adimen artifizialaren energia behar handiak asetzeko.


Teknologia
Mundu ikuskerAA

Gizakiontzat ez da inoiz erraza izan lasai pentsatzeko denbora tarte luzeak hartzea, bizimodua aurrera ateratzearen ardurarekin bizi gara, bai geurea zein geure ondorengoena. Bizitzeko izan dugun aukera honetan, ahalik eta ongien nahi ditugu gauzak egin. Ardura horiengatik,... [+]


Ikasgeletan mugikorra erabiltzeari buruzko eztabaida prozesua iragarri du Jaurlaritzak

Eskolan adimen artifiziala erabiltzera animatu ditu irakasleak Eusko Jaurlaritzako Hezkuntza sailburuak, eraldaketa digitalaren beldur ez izateko esan die. Ikasgelan mugikorra erabiltzeari buruzko gogoeta prozesu bat ere iragarri du: “Ez dago erabilera horrek duen... [+]


2024-08-01 | Sustatu
Zer egin Elon Musken Grok adimen artifiziala ez elikatzeko (aukeran)

Elon Musken proiektuen artean bada adimen artifizialeko bat ere, Grok, eta horretarako Musken jabetzako X edo Twittereeko erabiltzaileen jarduna ari dira baliatzen, LLM edo hizkuntza eredua handitzeko eta entrenatzeko. Izatez, Twitterreko zure ezarpenetan sistema hori... [+]


2024-07-24 | Sustatu
Claude, euskaraz oso txukun egiten duen beste adimen artifizial bat

Ekainean kaleratu zuen Anthropic enpresak Claude adimen artifizialaren (AA) Claude 3.5 Sonnet izeneko bertsioa.  Eta joan den asteko nobedadea, Android aplikazioa. AA inbento hauek jada ohituta gauzkaten bezala, euskaraz oso txukun aritzen da. Beñat... [+]


Teknologia
Euskalgintza digital kritikoa

Euskara, eremu digitala den itsasoan ezagutzara eta harremanetara abiatzeko portua da. Adimen artifizialarekin, portu horretatik mundu osoarekin euskaraz harremanetan jartzeko aukera ematen dela dirudi. Euskararen automatizazioa laguntza ederra da belaunaldi berriekin euskal... [+]


Eguneraketa berriak daude