EusCrawl, euskarazko hitzen korpus erraldoia

  • EHUko informatikari euskaldunen IXA taldeak orain arte osatutako euskarazko hitz-corpus handiena bildu du, prozesatu du Hitz zentroaren partaidetzarekin (eta Meta enpresaren laguntzarekin ere), eta berrerabilpenerako prestatu du zenbait formatutan. Creative Commons lizentziekin jarri dituzte erabilgarri materialak, EusCrawl izenarekin.

Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

2022ko martxoaren 24an - 09:10
Zarata mediatikoz beteriko garai nahasiotan, merkatu logiketatik urrun eta irakurleengandik gertu dagoen kazetaritza beharrezkoa dela uste baduzu, ARGIA bultzatzera animatu nahi zaitugu. Geroz eta gehiago gara, jarrai dezagun txikitik eragiten.

Guztira 12.5 milioi dokumentu eta 423 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da. Corpusa bi formatu ezberdinetan dago eskuragarri: JSONL eta TXT. Hau da helbidea: http://ixa.ehu.eus/euscrawl/ 

Zenbait iturritan dute jatorria testuek, eta horien arabera da berrerabilgarri edukia lizentzia batekin edo bestearekinb: Cc-by-sa lizentzia librearekin eskuratu da edukia Wikipediatik, Berriatik eta Argiatik. Beste murrizketa batzyk dituzte Hitza batzuen edukiek, edo Bilbo Hiria Irratitik eskuratuek.

Zertarako erabili ahal izango da EusCraweleko korpus handi hori? Adimen artifizialean oinarritutako hizkuntza-ereduen teknologian izango du aplikazioa. IXA taldeak azaldu duen bezala, "Hizkuntza-ereduak testu kopuru handiak erabiliz entrenatzen dira, eta, testua irakurriaz, gai dira hizkuntzaren egitura ikasi eta testu berriak sortzeko. Gaur egungo hizkuntzaren prozesamenduko aplikazioen muinean aurki ditzakegu hizkuntza-ereduak, dela bilaketa eta galderen erantzunean, itzulpen automatikoan, ahotsaren ezagutzan edo elkarrizketa-sistema zein txatbotetan. Labur esateko, hizkuntza-ereduak dira hizkuntzaren inguruan egiten diren aplikazio gehienen motorra, eta testuak dira motor horren gasolina".

Hizkuntza-eredu onak eraikitzeko behar den testu kopurua oso handia da. Ingelesa bezalako hizkuntzetarako testuak aurkitzea ez da arazoa; baina hala ere, kopurun horiek bildu egin behar dira, eta horrela zientzialariak lanak hartu dituzte Colossal Clean Crawled Corpus (C4) izeneko corpusa sortzeko aidbidez, 156.000 milioi hitz dituena.

EusCrawl konparazioan, txikia da, baina nonbait hasi behar. Gainera, euskararen kasuan egon dira testu-masa handiak sortuta, baina kalitatearen aldetik ez omen guztiz fidagarriak: Google eta Meta-AI (lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 (1.000 milioi hitz) eta CC100 (416 milioi hitz) corpusak dira.

Izatez, EusCrawl horiek baino txikiagoa izan arren, erabili dute jada eratorritako beste produktu batzuk sortzeko ere: IXAkoek EusCrawl-ekin entrenatutako bi hizkuntza-eredu sortu dituzte, horietako bat egun euskararako dagoen eredurik handiena, 355 Milioi parametrokoa.

Era berean IXAkoek jakinarazi dute EusCrawl erabiliko delaBigScience proiektuan, helburu bezala hizkuntza-eredu eleaniztun eta erraldoi librea eraikitzea duen proiektua, horretarako bost milioi konputazio-ordu erabiliz. BigScience-ren sortuko den hizkuntza-ereduak euskaraz ere jakingo du.

EusCrawl Interneten argitaratu da, eta IXA taldeko bost lagunek egindako lan gisa ere aurkeztu da, paper akademiko batean. EHUko IXA taldearen emaitza dela esan daiteke, baina Meta enpresak ere (Facebook zenak) parte hartu du lanean, IXAn zein Metan zubi egiten duen Mikel Artetxe informatikariaren bidez. Paperra sinatzen dute halaber Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre eta Aitor Soroak.

EusCrawli buruzko informazio gehiago, Unibertsitatea.net-en.


Kanal honetatik interesatuko zaizu: Euskara
Eskolako guraso taldean nola informatu euskara hutsean, erdaldunak haserretu gabe

"No entiendo, en castellano por favor" eta gisakoak ohikoak dira eskolako guraso Whatsapp taldeetan, baina Irungo Txingudi ikastola publikoan euskara hutsean aritzeko modu erraz eta eraginkorra aurkitu dute, behar duenarentzat itzulpen sistema berehalakoa ahalbidetuta.


Hasi da Errigoraren udaberriko kanpaina

Martxoaren 10etik 26ra izango da udaberriko kanpaina. 'Beste modura, denona de onura' lelopean arituko dira gertuko ekoizpena, banaketa eta kontsumoa babestu eta sustatzeko, ager zonaldean euskara hauspotzen duten bitartean. Apirila amaieratik aurrera jasoko dira... [+]


2025-03-11 | Sustatu
Etorkisuneku 01 jardunaldia 14an, “etorkizunak pentsatzeko euskaratik”

Etorkisuneku 01 izenarekin jardunaldia egingo da martxoaren 14an, datorren ostiralean, Errenterian. Badalabek eta TEKS elkarteak antolatuta "hizkuntzari eta komunitateari lotutako iruditeria eta diskurtsoak berritzeko proposamen bat" izango omen da. Badalaben egoitzan... [+]


EAEko Osasun Saila mediku euskaldun bila

Alberto Martinez Eusko Jaurlaritzako Osasun sailburuak argi dio: ez ditu mediku euskaldunak aurkitzen, eta euskarazko osasun arreta ezin da bermatu mediku egoiliar (formazioan dauden espezialista) gehienak kanpotarrak direlako. Mediku euskaldunak bilatzea perretxikotan joatea... [+]


Haur eskoletan euskarazko ehun plaza gehiago eskainiko ditu Iruñeko Udalak hurrengo ikasturtean

Euskarazko eskaintza handitzeko akordioa erdietsi dute EH Bilduk, PSNk, Geroa Baik eta Zurekin Nafarroak


'Gaztetxeak Bertsotan'
“Gazteon ahots kritikoa entzunarazi nahi dugu, txapelketaren formak determinatu gabe”

Asteburu honetan hasiko da Gaztetxeak Bertsotan egitasmo berria, Itsasun, eta zazpi kanporaketa izango ditu Euskal Herriko ondorengo hauetan: Hernanin, Mutrikun, Altsasun, Bilboko 7katun eta Gasteizen. Iragartzeko dago oraindik finala. Sariketa berezia izango da: 24 gaztez... [+]


2025-03-06 | Mara Altuna Díaz
Mary Kim Laragan-Uranga, AEB-etako euskalduna eta AEK-ko ikaslea
“Euskara ikasten dut AEBetara emigratu zuten nire aitona-amonen ahalegina eta sustraiak ohoratzeko”

“Bi pertsona mota daude munduan: euskaldunak, batetik, eta euskaldunak izan nahiko luketenak, bestetik”. Gaztea zela, Mary Kim Laragan-Urangak maiz entzuten omen zuen horrelako zerbait, Idahon (AEBak), hain zuzen. Ameriketan jaio, hazi, hezi eta bizi izandakoak 70... [+]


2024an Euskal Herrian estreinatutako 900 filmetatik bi baino ez dira euskaraz izan

Pantailak Euskarazek eta Hizkuntz Eskubideen Behatokiak aurkeztu dituzte datu "kezkagarriak". Euskaraz eskaini diren estreinaldi kopurua ez dela %1,6ra iritsi ondorioztatu dute. Erakunde publikoei eskatu diete "herritar guztien hizkuntza eskubideak" zinemetan ere... [+]


C2ko ikasleei eskerrak

Administrazioko hainbat gai, LGTBI+ kolektiboko kideen beharrizanak, segurtasun subjektiboa, klima aldaketa, gentrifikazioa, ikus-entzunezkoak erabiltzeko modu berriak, audientzia-datuak jasotzeko moduak, dislexia, ikuspegi pedagogiko aktibo eta irisgarriak, literatur... [+]


Elebitasunaren tranpa

Auzitan jar ez daitekeen baieztapen orokor eta eztabaidaezinaren gisan saldu digute hizkuntzak jakitea printzipioz ona dela, baina baditu bere "ñabardurak", edo esanahi ezkutuagokoak. Hemengo ustezko elebitasun kontzeptuaren azpian dagoen baina kamuflatzen den... [+]


2025-03-04 | ARGIA
Euskaraz egiteko eskatzeagatik Tolosan EHEko kide bati eraso egin diotela salatu dute

Euskal Herrian Euskarazen arabera, Tolosako tren geltokiko segurtasun agente batek eraso egin zion militante bati, agenteari euskaraz hitz egiteko eskatu ziolako. Tolosako alkateak "kezka" adierazi du eta azalpenak eskatuko dituela jakinarazi.


5.000 ‘erlezain’ lortzeko kanpaina nazionala abiatu du Herri Urratsek

Otsailaren 28an Hendaian eman dio hasiera kanpainari Herri Urratsek. Euskararen transmisioa bermatzen duen Seaska babestea da helburua.


Erabat doan izango da Hondarribian euskara ikastea

EH Bilduk sustatuta, Hondarribiako udalak euskara sustatzeko diru-laguntzetan aldaketak egin eta laguntza-lerro berri bat sortu du. Horri esker, erabat doakoak izango dira euskalduntze ikastaroak, besteak beste.


2025-02-28 | ARGIA
“Erdalduntzeko makina” salatzeko kanpaina abian jarri du Bilboko Guka mugimenduak

Gukak “Bilbo erdalduntzen duen makina” ikusaraziko du kanpainaren bidez. 24 orduz martxan dagoen makina salatuko dute, eta berori “elikatu eta olioztatzen dutenek” ardurak hartzea eskatuko dute. Euskararen aldeko mekanismoak aktibatzea aldarrikatuko dute.


Eguneraketa berriak daude