EusCrawl, euskarazko hitzen korpus erraldoia

  • EHUko informatikari euskaldunen IXA taldeak orain arte osatutako euskarazko hitz-corpus handiena bildu du, prozesatu du Hitz zentroaren partaidetzarekin (eta Meta enpresaren laguntzarekin ere), eta berrerabilpenerako prestatu du zenbait formatutan. Creative Commons lizentziekin jarri dituzte erabilgarri materialak, EusCrawl izenarekin.

Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

2022ko martxoaren 24an - 09:10

Guztira 12.5 milioi dokumentu eta 423 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da. Corpusa bi formatu ezberdinetan dago eskuragarri: JSONL eta TXT. Hau da helbidea: http://ixa.ehu.eus/euscrawl/ 

Zenbait iturritan dute jatorria testuek, eta horien arabera da berrerabilgarri edukia lizentzia batekin edo bestearekinb: Cc-by-sa lizentzia librearekin eskuratu da edukia Wikipediatik, Berriatik eta Argiatik. Beste murrizketa batzyk dituzte Hitza batzuen edukiek, edo Bilbo Hiria Irratitik eskuratuek.

Zertarako erabili ahal izango da EusCraweleko korpus handi hori? Adimen artifizialean oinarritutako hizkuntza-ereduen teknologian izango du aplikazioa. IXA taldeak azaldu duen bezala, "Hizkuntza-ereduak testu kopuru handiak erabiliz entrenatzen dira, eta, testua irakurriaz, gai dira hizkuntzaren egitura ikasi eta testu berriak sortzeko. Gaur egungo hizkuntzaren prozesamenduko aplikazioen muinean aurki ditzakegu hizkuntza-ereduak, dela bilaketa eta galderen erantzunean, itzulpen automatikoan, ahotsaren ezagutzan edo elkarrizketa-sistema zein txatbotetan. Labur esateko, hizkuntza-ereduak dira hizkuntzaren inguruan egiten diren aplikazio gehienen motorra, eta testuak dira motor horren gasolina".

Hizkuntza-eredu onak eraikitzeko behar den testu kopurua oso handia da. Ingelesa bezalako hizkuntzetarako testuak aurkitzea ez da arazoa; baina hala ere, kopurun horiek bildu egin behar dira, eta horrela zientzialariak lanak hartu dituzte Colossal Clean Crawled Corpus (C4) izeneko corpusa sortzeko aidbidez, 156.000 milioi hitz dituena.

EusCrawl konparazioan, txikia da, baina nonbait hasi behar. Gainera, euskararen kasuan egon dira testu-masa handiak sortuta, baina kalitatearen aldetik ez omen guztiz fidagarriak: Google eta Meta-AI (lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 (1.000 milioi hitz) eta CC100 (416 milioi hitz) corpusak dira.

Izatez, EusCrawl horiek baino txikiagoa izan arren, erabili dute jada eratorritako beste produktu batzuk sortzeko ere: IXAkoek EusCrawl-ekin entrenatutako bi hizkuntza-eredu sortu dituzte, horietako bat egun euskararako dagoen eredurik handiena, 355 Milioi parametrokoa.

Era berean IXAkoek jakinarazi dute EusCrawl erabiliko delaBigScience proiektuan, helburu bezala hizkuntza-eredu eleaniztun eta erraldoi librea eraikitzea duen proiektua, horretarako bost milioi konputazio-ordu erabiliz. BigScience-ren sortuko den hizkuntza-ereduak euskaraz ere jakingo du.

EusCrawl Interneten argitaratu da, eta IXA taldeko bost lagunek egindako lan gisa ere aurkeztu da, paper akademiko batean. EHUko IXA taldearen emaitza dela esan daiteke, baina Meta enpresak ere (Facebook zenak) parte hartu du lanean, IXAn zein Metan zubi egiten duen Mikel Artetxe informatikariaren bidez. Paperra sinatzen dute halaber Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre eta Aitor Soroak.

EusCrawli buruzko informazio gehiago, Unibertsitatea.net-en.


Kanal honetatik interesatuko zaizu: Euskara
2025-02-07 | Euskal Irratiak
Ximun Fuchs
“Euskal irainak baitezpadakoak zaizkigu, elbarritu emozionalak ez gaitezen izan”

Le Tampographe Sardon enpresak salgai ezarria du 24 laidoko zigilu-kutxa. Sarean eskuragarri da. Ximun Fuchs aktoreak du hautaketa lana egin, irainak "lan tresna" baitira beretzat.


EITBko Euskara Batzordearen adierazpena

Idatzi honen bidez, EITBko Euskara Batzordeak eta azpian sinatzen duten EITBko organoek euren kezka eta gaitzespena agertu nahi dituzte azken hilabeteetan EITBko zuzendaritza-postuetarako abian ipini diren hautatze-prozesuak direla eta, gutxietsi egin baita euskararen... [+]


Euskal Herrian Euskarazek manifestazio nazionala deitu du apirilaren 6rako Baionan

Manifestazioa goizeko 11:30ean izango da, Justizia Jauregian. Mugimenduak euskaldunon eskubideen alde eta auziperatuekiko elkartasunean luzatu du deialdia. Auziperatuek iazko Euskararen Egunean Baionako Justizia Auzitegian "Justizia Euskararentzat" pintaketa egin zuten... [+]


Julen Goldarazena, 'Flako Fonki'. Xakea eta jotak
“Ez dakit euskara hobetu dudan edo lotsa galdu, baina horrek oso pozik jartzen nau”

Aurretik bistaz ezagutzen banuen ere, musikaren munduak hurbildu gaitu Julen Goldarazena eta biok. Segituan ezagutu nuen Flako Chill Mafiak erakusten zuen irudi horretatik harago eta horrek baldintzatu dizkit, hein handi batean, proiektuarekiko harremana eta iritzia. Lauzpabost... [+]


Judimendi: A ereduko ikastetxe estigmatizatua D ereduko auzo-eskola bilakatzen

Eskola segregatua izan da Gasteizko Judimendi ikastetxe publikoa, hiri guztiko ikasleak hartu ditu, jatorri atzerritarreko familien seme-alabak. Baina A hizkuntza eredutik D eredura igarotzeaz gain, auzoak eskola bere sentitzeko eta auzoko familiak erakartzeko egindako... [+]


2025-02-04 | Euskal Irratiak
Euskara hutsezko haurtzain-etxea irekiko dute Aiherran

Nafarroa Beherean, Aiherrako 'Beltzegitea' etxean kokatuko da Eguzkilore haurtzain-etxe berria. Euskara, natura eta motrizitate librea oinarri harturik, heldu den apirilean hasiko dira zerbitzua eskaintzen.


Nafarroako zubiak betetzera deitu du Sorionekuak mugimenduak maiatzaren 10erako, euskararen alde

"Etorkizuneko zubiak" eraikiz, azpimarratu dute "garai nahasi hauetan" euskararen aldeko aldarriak ozen entzun behar direla aurrerantzean: "Bada garaia euskarari dagokion tratamendua, lekua, emateko".


Iruñean Laba elkartearen eta Windsor tabernaren lokalak bateratuko dituzte

Modu horretan, euskara eta euskal kultura hiriaren bihotzera eraman duen proiektuari egonkortasuna eta sendotasuna emanen diote.


Zestoan euskararen erabilera handitzea helburu, aisialdia doan baliabide urriko haurrentzat

Zestoan (Gipuzkoa), 2024ko irailaz geroztik, baliabide ekonomiko urriko haur eta gazteak bost kultur eta kirol ekintzen artean bat aukeratu, eta horretan doan aritu daitezke. Udalak dirulaguntzen araudia berritu du, haurren aisialdia eskubide bat dela argudiatuta. Aldaketarako... [+]


Isunak kendu dizkiete ertzainei euskaraz hitz egiteagatik zigortutako donostiarrei

Eusko Jaurlaritzak isunak kendu dizkie ertzainei euskaraz hitz egiteagatik zigortuak izan ziren Donostiako herritarrei. Manex Ralla eta Amaia Abendaño dira herritar horiek, isunak kendu dizkietela baieztatu diote hedabide honi.


2025-01-30 | Leire Ibar
EITBko Euskara Batzordeak salatu du euskararen eskakizuna baztertu dela zuzendaritza postuetan

EITBko Euskara Batzordeak gaitzespena adierazi du azken hilabeteetan egindako zuzendaritza postuetarako hautaketa prozesuak direla eta. Salatu dutenez, euskarazko C1 maila ez duten hiru pertsona hautatu dituzte postu garrantzitsuetarako: EITB Mediaren zuzendaritzarako, Social... [+]


2025-01-30 | Aiaraldea
Amurrioko Udalak uko egin dio Aiaraldea Komunikabidearen dirulaguntza 2025eko udal aurrekontuetan sartzeari

Ostegun honetako Udal Osoko Bilkuran eztabaidatu eta bozkatuko dira Amurrioko Udaleko 2025erako aurrekontuak eta, beste behin ere, Udal Gobernuak uko egin dio Aiaraldea Komunikabidearen hitzarmen eta dirulaguntza berrezartzeari.


2025-01-29 | ARGIA
Bi hamarkadatan euskarazko eta elebitako ikastetxeek gain hartu diete frantsesezkoei Ipar Euskal Herrian

Euskarazko murgiltze eredua eta eredu elebiduna duten ikastetxeak gutxiengo izatetik gehiengo izatera pasa dira Ipar Euskal Herrian hogei urteotan, Euskararen Erakunde Publikoaren azterketak erakutsi duenez.


2025-01-27 | Aritz Arrieta
Euskaldun harrera herria?

Egiari zor, ez dakit zergatik ari naizen hau idazten. Gaur egungo giro liskartsuan ez dira modu honetako iritziak ondo hartzen. Beharbada, ARGIAk ez du hau argitaratuko, ez baitator bat orain arte argitaratu dituzten iritziekin (baina, azkenean argitaratzea erabaki badute,... [+]


Eguneraketa berriak daude