EHUko informatikari euskaldunen IXA taldeak orain arte osatutako euskarazko hitz-corpus handiena bildu du, prozesatu du Hitz zentroaren partaidetzarekin (eta Meta enpresaren laguntzarekin ere), eta berrerabilpenerako prestatu du zenbait formatutan. Creative Commons lizentziekin jarri dituzte erabilgarri materialak, EusCrawl izenarekin.
Guztira 12.5 milioi dokumentu eta 423 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da. Corpusa bi formatu ezberdinetan dago eskuragarri: JSONL eta TXT. Hau da helbidea: http://ixa.ehu.eus/euscrawl/
Zenbait iturritan dute jatorria testuek, eta horien arabera da berrerabilgarri edukia lizentzia batekin edo bestearekinb: Cc-by-sa lizentzia librearekin eskuratu da edukia Wikipediatik, Berriatik eta Argiatik. Beste murrizketa batzyk dituzte Hitza batzuen edukiek, edo Bilbo Hiria Irratitik eskuratuek.
Zertarako erabili ahal izango da EusCraweleko korpus handi hori? Adimen artifizialean oinarritutako hizkuntza-ereduen teknologian izango du aplikazioa. IXA taldeak azaldu duen bezala, "Hizkuntza-ereduak testu kopuru handiak erabiliz entrenatzen dira, eta, testua irakurriaz, gai dira hizkuntzaren egitura ikasi eta testu berriak sortzeko. Gaur egungo hizkuntzaren prozesamenduko aplikazioen muinean aurki ditzakegu hizkuntza-ereduak, dela bilaketa eta galderen erantzunean, itzulpen automatikoan, ahotsaren ezagutzan edo elkarrizketa-sistema zein txatbotetan. Labur esateko, hizkuntza-ereduak dira hizkuntzaren inguruan egiten diren aplikazio gehienen motorra, eta testuak dira motor horren gasolina".
Hizkuntza-eredu onak eraikitzeko behar den testu kopurua oso handia da. Ingelesa bezalako hizkuntzetarako testuak aurkitzea ez da arazoa; baina hala ere, kopurun horiek bildu egin behar dira, eta horrela zientzialariak lanak hartu dituzte Colossal Clean Crawled Corpus (C4) izeneko corpusa sortzeko aidbidez, 156.000 milioi hitz dituena.
EusCrawl konparazioan, txikia da, baina nonbait hasi behar. Gainera, euskararen kasuan egon dira testu-masa handiak sortuta, baina kalitatearen aldetik ez omen guztiz fidagarriak: Google eta Meta-AI (lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 (1.000 milioi hitz) eta CC100 (416 milioi hitz) corpusak dira.
Izatez, EusCrawl horiek baino txikiagoa izan arren, erabili dute jada eratorritako beste produktu batzuk sortzeko ere: IXAkoek EusCrawl-ekin entrenatutako bi hizkuntza-eredu sortu dituzte, horietako bat egun euskararako dagoen eredurik handiena, 355 Milioi parametrokoa.
Era berean IXAkoek jakinarazi dute EusCrawl erabiliko delaBigScience proiektuan, helburu bezala hizkuntza-eredu eleaniztun eta erraldoi librea eraikitzea duen proiektua, horretarako bost milioi konputazio-ordu erabiliz. BigScience-ren sortuko den hizkuntza-ereduak euskaraz ere jakingo du.
EusCrawl Interneten argitaratu da, eta IXA taldeko bost lagunek egindako lan gisa ere aurkeztu da, paper akademiko batean. EHUko IXA taldearen emaitza dela esan daiteke, baina Meta enpresak ere (Facebook zenak) parte hartu du lanean, IXAn zein Metan zubi egiten duen Mikel Artetxe informatikariaren bidez. Paperra sinatzen dute halaber Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre eta Aitor Soroak.
EusCrawli buruzko informazio gehiago, Unibertsitatea.net-en.
Le Tampographe Sardon enpresak salgai ezarria du 24 laidoko zigilu-kutxa. Sarean eskuragarri da. Ximun Fuchs aktoreak du hautaketa lana egin, irainak "lan tresna" baitira beretzat.
Idatzi honen bidez, EITBko Euskara Batzordeak eta azpian sinatzen duten EITBko organoek euren kezka eta gaitzespena agertu nahi dituzte azken hilabeteetan EITBko zuzendaritza-postuetarako abian ipini diren hautatze-prozesuak direla eta, gutxietsi egin baita euskararen... [+]
Manifestazioa goizeko 11:30ean izango da, Justizia Jauregian. Mugimenduak euskaldunon eskubideen alde eta auziperatuekiko elkartasunean luzatu du deialdia. Auziperatuek iazko Euskararen Egunean Baionako Justizia Auzitegian "Justizia Euskararentzat" pintaketa egin zuten... [+]
Aurretik bistaz ezagutzen banuen ere, musikaren munduak hurbildu gaitu Julen Goldarazena eta biok. Segituan ezagutu nuen Flako Chill Mafiak erakusten zuen irudi horretatik harago eta horrek baldintzatu dizkit, hein handi batean, proiektuarekiko harremana eta iritzia. Lauzpabost... [+]
Eskola segregatua izan da Gasteizko Judimendi ikastetxe publikoa, hiri guztiko ikasleak hartu ditu, jatorri atzerritarreko familien seme-alabak. Baina A hizkuntza eredutik D eredura igarotzeaz gain, auzoak eskola bere sentitzeko eta auzoko familiak erakartzeko egindako... [+]
Nafarroa Beherean, Aiherrako 'Beltzegitea' etxean kokatuko da Eguzkilore haurtzain-etxe berria. Euskara, natura eta motrizitate librea oinarri harturik, heldu den apirilean hasiko dira zerbitzua eskaintzen.
"Etorkizuneko zubiak" eraikiz, azpimarratu dute "garai nahasi hauetan" euskararen aldeko aldarriak ozen entzun behar direla aurrerantzean: "Bada garaia euskarari dagokion tratamendua, lekua, emateko".
Modu horretan, euskara eta euskal kultura hiriaren bihotzera eraman duen proiektuari egonkortasuna eta sendotasuna emanen diote.
Zestoan (Gipuzkoa), 2024ko irailaz geroztik, baliabide ekonomiko urriko haur eta gazteak bost kultur eta kirol ekintzen artean bat aukeratu, eta horretan doan aritu daitezke. Udalak dirulaguntzen araudia berritu du, haurren aisialdia eskubide bat dela argudiatuta. Aldaketarako... [+]
Eusko Jaurlaritzak isunak kendu dizkie ertzainei euskaraz hitz egiteagatik zigortuak izan ziren Donostiako herritarrei. Manex Ralla eta Amaia Abendaño dira herritar horiek, isunak kendu dizkietela baieztatu diote hedabide honi.
EITBko Euskara Batzordeak gaitzespena adierazi du azken hilabeteetan egindako zuzendaritza postuetarako hautaketa prozesuak direla eta. Salatu dutenez, euskarazko C1 maila ez duten hiru pertsona hautatu dituzte postu garrantzitsuetarako: EITB Mediaren zuzendaritzarako, Social... [+]
Ostegun honetako Udal Osoko Bilkuran eztabaidatu eta bozkatuko dira Amurrioko Udaleko 2025erako aurrekontuak eta, beste behin ere, Udal Gobernuak uko egin dio Aiaraldea Komunikabidearen hitzarmen eta dirulaguntza berrezartzeari.
Euskarazko murgiltze eredua eta eredu elebiduna duten ikastetxeak gutxiengo izatetik gehiengo izatera pasa dira Ipar Euskal Herrian hogei urteotan, Euskararen Erakunde Publikoaren azterketak erakutsi duenez.
Egiari zor, ez dakit zergatik ari naizen hau idazten. Gaur egungo giro liskartsuan ez dira modu honetako iritziak ondo hartzen. Beharbada, ARGIAk ez du hau argitaratuko, ez baitator bat orain arte argitaratu dituzten iritziekin (baina, azkenean argitaratzea erabaki badute,... [+]