Aina Flor izeneko hizkuntza eredu handi katalan librea aurkeztu zen duela gutxi, eta duela astebeteko albistean genioen Hitz Zentro euskalduneko Eneko Agirre zuzendariak iragarri zuela bazetorrela laster euskarazkoa ere. Eta atzo bertan egin zuen publiko Hitz Zentroak: Latxa. LLM edo hizkuntza eredu handi bat da, adimen artifizialeko ekimenek oinarrian duten super-datubasea, erraz esanda. OpenAI-ren ChatGPT bertsioen oinarriak dira LLM-ak adibidez. Orain holako bat dugu, euskaraz (tira, eredu sorta bat egiaz, 3 korpusek osatua).
Hitz Zentroaren esanetan, "eredu irekien familia da" Latxa, "euskarazko hizkuntza eredurik handiena" bere baitan duena. Meta edo Facebook enpresaren Llama 2 hizkuntza ereduaren gainean dago eraikita, eta haren lizentzia jarraitzen du. Llama 2 ikusia dugu aurretik ere euskarazko emaitza bikainak ematen, ahozko itzulpen automatiko zuzena euskaraz egiteko gai Seamless M4T produktuaren bidez. Latxaren logoak, hain zuzen, Llama eta ardi euskalduna batzen ditu, izenean ere badagoelarik konexio bat (iruditu zaigunez).
Latxak 7-70 mila miloi parametro arteko ereduak biltzen ditu. Ereduak eraikitzeko testu multzoari dagokionez, EusCrawl erabili dute ikerlari euskaldunek, euskarazko testuez osatutako testu multzoa, 1,72 milloi dokumentu eta 288 miloi hitz dituena. EusCrawl kalitatezko edukia duten 33 webguneetatik erauzi zen, Internetetik corpusak osatzeko beste teknikak baino kalitate hobea eskainiaz.
Berez, Latxa ez da egin publiko orokorrarentzat, hori aurrerago etorriko da. Hala ere, hiru ereduak eskuragarri daude HuggingFace plataforman daude eskuragarri, eta ingeniari adituak erabili ahal izandgo ditu kontsultatuz “model card” delakoa: informazio teknikorako eta ereduak erabiltzen hasteko argibideak hortxe dira.
Latxaren garapena ikerketa, berrikuntza eta garapena sustatzeko ekimen baten ondorio izan dira, Eusko Jaurlaritzak lagundutako IKER-GAITU proiektuaren parte da, EuroHpc programa europarraren laguntzarekin.
Gaur egungo hizkuntza ereduek errendimendu harrigarria dute, adibidez ingelesarako ChatGPT edo Bard. Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, ez. Eredu hauekin pauso bat eman du Hitz Zentroak egoerari buelta emateko saioan, eta beren datuen arabera, euskarazko formulazioei beste sistemek baino hobeto erantzuten du Latxak.
Informazio gehiago, hemen.
Hugginface-n: Latxa.
Silicon Valley-ko oligarkia AEBetako gobernura iritsi berritan lehertu da adimen artifizialaren (AA) burbuila. Txip aurreratuen erraldoia den Nvidia-k urtarrilaren amaieran izandako %16,8ko balio galera, egun bakar batean inoiz izan den burtsa balio galerarik handiena da... [+]
Geroz eta ekoizpen gehiagok baliatzen dituzte teknologia berriak, izan plano orokor eta jendetsuak figurante bidez egitea aurrezteko, izan efektu bereziak are azkarrago egiteko. Azken urtean, dena den, Euskal Herriko zine-aretoak gehien bete dituztenetako bi pelikulek adimen... [+]
Diario de Noticias de Álava (DNA) egunkariko langileak sinadura greban daude, eta aspaldi ari dira beren lan baldintza “miserableak” eta horiek kazetaritzaren kalitatean duen eragina salatzen. 2013tik soldatak izoztuta dituzte, eta ordutik erosahalmenaren %30... [+]
«I will overturn, overturn, overturn, it[…]»
Ezekiel 21:27 – King James Version
«Algoritmo guztien gainetik, algoritmo guztien azpitik»
Xabier Landabidea
Deseroso nago, deseroso gure jendarteak teknologiarekiko hartu duen jarrera kasik... [+]
Otsailaren 10 eta 11n ehun bat estatuburu elkartu dira Parisen, Adimen Artifizialaren sektoreko ordezkariekin batera, AAri buruzko laugarren gailurraren kari. Abiadura handian garatzen ari den teknologia horri buruzko kezkak eta galderak entzun badira ere, ez zen horientzako... [+]
Silicon Valleyko enpresa teknologiko handienei zaplazteko ederra eman die DeepSeek-ek. Adimen Artifizialeko chatbot txinatar merke eta berriak zalantzan jarri du AEBen nagusitasuna arlo horretan, eta erakutsi du ez dela milaka milioi diru behar modelo aurreratu eta efizienteak... [+]
Zer jakin behar dut? Norekin erlazionatu behar dut? Non bizi behar dut? Ardura horiekin gabiltza gizakiok gure gizarteen baitan bizitza on baten ideia bizitzeko bidean. Ondo erantzuten ez badakigu, bazterretan geratuko garen beldurrez.
Joan den astean, kanpoan geratzearen... [+]
AEBetako auzi judizialen batengatik jakin denez, Metak (Facebook-eko jabeak) Libgen sareko liburutegia masiboki pirateatu du BitTorrent protokoloak erabiliz. 81.7 terabyte gutxienez lortu zituzten horrela, beren adimen artifizialeko sistemak elikatzeko. Saiakera eta zientzia... [+]
ChatGPT ez da dagoeneko "hainbesterako". Lehiakide biziago, eskuragarriago eta merkeago bat jarri zaio parean AEBetako eta mundu mailako liderrari: enpresa txinatar baten eskutik ikusi du argia DeepSeekek. Dantzan jarri da mundua, eta ez espresuki onerako. Mikrotxipen... [+]
Donald Trumpen agintaldia hasi da politika atzerakoiak ezartzen woke edo DEI izan daitekeen guztiaren kontra, eta baita neurri teknologikoak iragarriz. Lehen unetik, karguaren zina egin zuenetik, teknologiako erraldoien buruak lehen lerroan egotea deigarria izan zen: bereziki... [+]
Stargate izeneko proiektuarentzat 500.000 milioi dolarreko inbertsioa iragarri du AEBetako presidente izendatu berriak. OpenAI, SoftBank eta Oracle konpainiek hartuko dute parte.
Adimen Artifizialarekin egindako disparateen biltegia handitzen ari da. Erabiltzaile arruntok sortutakoak txorakeriak izan daitezke neurri handi batean, baina Interneteko erraldoiak berak ari dira halakoak errepikatzen eta horrek larriagoa dirudi, eragin globala izan... [+]
Sendagaien garapena "bizkortzeko, tratamenduak pertsonalizatzeko eta barne-prozesuak optimizatzeko" erabiltzen ari dira adimen artifiziala. Enpresen % 33k erabiltzen du gaixotasunen analisian, eta % 29k sendagaien garapenean eta fabrikazioan.
Orain dela urte asko Dr. Abuse chatbota ezagutu nuen, aplikazio horrekin ohartu nintzen ere pertsonok zeinen azkar kateatu gaitezkeen holako makinetara. Animalia sozialak izanda, harremana berezkoa eta beharrezkoa dugu, eta 'harremana' izenak dioen bezala,... [+]