EusCrawl, euskarazko hitzen korpus erraldoia

  • EHUko informatikari euskaldunen IXA taldeak orain arte osatutako euskarazko hitz-corpus handiena bildu du, prozesatu du Hitz zentroaren partaidetzarekin (eta Meta enpresaren laguntzarekin ere), eta berrerabilpenerako prestatu du zenbait formatutan. Creative Commons lizentziekin jarri dituzte erabilgarri materialak, EusCrawl izenarekin.

Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

2022ko martxoaren 24an - 09:10

Guztira 12.5 milioi dokumentu eta 423 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da. Corpusa bi formatu ezberdinetan dago eskuragarri: JSONL eta TXT. Hau da helbidea: http://ixa.ehu.eus/euscrawl/ 

Zenbait iturritan dute jatorria testuek, eta horien arabera da berrerabilgarri edukia lizentzia batekin edo bestearekinb: Cc-by-sa lizentzia librearekin eskuratu da edukia Wikipediatik, Berriatik eta Argiatik. Beste murrizketa batzyk dituzte Hitza batzuen edukiek, edo Bilbo Hiria Irratitik eskuratuek.

Zertarako erabili ahal izango da EusCraweleko korpus handi hori? Adimen artifizialean oinarritutako hizkuntza-ereduen teknologian izango du aplikazioa. IXA taldeak azaldu duen bezala, "Hizkuntza-ereduak testu kopuru handiak erabiliz entrenatzen dira, eta, testua irakurriaz, gai dira hizkuntzaren egitura ikasi eta testu berriak sortzeko. Gaur egungo hizkuntzaren prozesamenduko aplikazioen muinean aurki ditzakegu hizkuntza-ereduak, dela bilaketa eta galderen erantzunean, itzulpen automatikoan, ahotsaren ezagutzan edo elkarrizketa-sistema zein txatbotetan. Labur esateko, hizkuntza-ereduak dira hizkuntzaren inguruan egiten diren aplikazio gehienen motorra, eta testuak dira motor horren gasolina".

Hizkuntza-eredu onak eraikitzeko behar den testu kopurua oso handia da. Ingelesa bezalako hizkuntzetarako testuak aurkitzea ez da arazoa; baina hala ere, kopurun horiek bildu egin behar dira, eta horrela zientzialariak lanak hartu dituzte Colossal Clean Crawled Corpus (C4) izeneko corpusa sortzeko aidbidez, 156.000 milioi hitz dituena.

EusCrawl konparazioan, txikia da, baina nonbait hasi behar. Gainera, euskararen kasuan egon dira testu-masa handiak sortuta, baina kalitatearen aldetik ez omen guztiz fidagarriak: Google eta Meta-AI (lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 (1.000 milioi hitz) eta CC100 (416 milioi hitz) corpusak dira.

Izatez, EusCrawl horiek baino txikiagoa izan arren, erabili dute jada eratorritako beste produktu batzuk sortzeko ere: IXAkoek EusCrawl-ekin entrenatutako bi hizkuntza-eredu sortu dituzte, horietako bat egun euskararako dagoen eredurik handiena, 355 Milioi parametrokoa.

Era berean IXAkoek jakinarazi dute EusCrawl erabiliko delaBigScience proiektuan, helburu bezala hizkuntza-eredu eleaniztun eta erraldoi librea eraikitzea duen proiektua, horretarako bost milioi konputazio-ordu erabiliz. BigScience-ren sortuko den hizkuntza-ereduak euskaraz ere jakingo du.

EusCrawl Interneten argitaratu da, eta IXA taldeko bost lagunek egindako lan gisa ere aurkeztu da, paper akademiko batean. EHUko IXA taldearen emaitza dela esan daiteke, baina Meta enpresak ere (Facebook zenak) parte hartu du lanean, IXAn zein Metan zubi egiten duen Mikel Artetxe informatikariaren bidez. Paperra sinatzen dute halaber Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre eta Aitor Soroak.

EusCrawli buruzko informazio gehiago, Unibertsitatea.net-en.


Kanal honetatik interesatuko zaizu: Euskara
Maiatzaren 10ean Sorionekuak ekimenak zubi eta ate zeharkatuko ditu euskara nafar guztiona dela aldarrikatzeko

Goizez Nafarroako zubirik esanguratsuenak jendez beteko ditu Sorionekuak dinamikak. Arratsalderako mobilizazio herritarra deitu dute Iruñeko Kostarapea parketik Alde Zaharreko Takonera parkeraino.


Udalek espresuki euskaraz jardutea baliogabetu du Gorenak

EAEko udal legearen euskararen arloko zenbait artikuluren aurkako epaia eman zuen Justizia Auzitegi Nagusiak 2023an, eta orain Gorenak berretsi du. Eusko Jaurlaritzak ez du garaiz aurkeztu epaiaren aurka egin zezakeen helegitea.


Ingeles ordu gehiagorik ez dute nahi

Sarriguren, Tafalla, Noain, Buztintxuri eta Gares herrietako D-PAI ereduko ikastetxeetako familiak kalera aterako dira Hezkuntza Departamentuak foru lege bidez ingeleseko orduak handitu nahi dituela salatzera. Euskarazko murgiltze ereduaren kontrako erabakia dela iruditzen... [+]


2025-04-08 | ELA sindikatua
Medikuen artean euskararen eskakizuna gaztelaniarena baino 47 puntu txikiagoa da Osakidetzan

Osakidetzan egun, ez dago bermatuta euskarazko zerbitzua. Zerbitzu gehienetan ez dago hizkuntza irizpiderik eta herritar euskaldunek bere burua nabarmendu beharra daukate, egoera oso zaurgarrian, euskarazko zerbitzua jaso ahal izateko.


2025-04-08 | Euskal Irratiak
Manex Fuchs
“Aberri Egunak euskaldun guztiak biltzeko ospakizuna izan beharko luke”

Aberri Eguna elkarrekin ospatzeko xedez sortu zen Euskal Herria Batera plataforma. Aurten, ikusgarri bat eskainiko dute apirilaren 11n, Manex Fuchs antzerkilariaren, Lorea Agirre idazlearen eta Martxel Rodriguez dantzariaren eskutik.


2025-04-07 | ARGIA
Euskararentzat justizia eskatu dute ehunka euskaltzalek Baionan

EHEk deituta, Baionan manifestazioa egin dute apirilaren 6an. Euskararentzat eta euskaldunentzat justizia eskatu dute, eta Euskararen Errepublika aldarrikatu. Hilaren 11n EHEko bi kide epaituko dituzte Baionako auzitegian desobedientzia ekintza bat egin izanagatik.


Lokizaldeako Euskararen Eguna
“Euskara gero eta gehiago entzuten da eskualdean, bereziki gazteen artean”

Aurtengo Lokizaldeako Euskararen Eguna Murieta herrian ospatu dute, larunbatean, goizean hasi eta ordu txikiak handitu arte. Zita garrantzitsua eta gozagarria da Nafarroako Lizarra ondoko eskualdeko euskaltzaleentzako.


2025-04-04 | ARGIA
Euskaraldia Hika-rako 83 herrik eman dute izena

Aurtengo berritasuna da. Ahobizi eta belarriprest rolen artean aukeratzeaz gain, herritarrek Euskaraldia Hikan parte hartzeko aukera izango dute. Hitanoa erabiltzen ez den herrietan, toka eta noka, bien erabilera bultzatuko da, eta hitanoa bizirik dagoen herrietan nokaren... [+]


2025-04-04 | Sustatu
Kneecap filma, orain euskarazko azpitituluekin

Ezagutzen duzue Kneecap filma? Oscar sarietarako hautatu zuten. Belfasteko hirukote baten istorioa da. Kneecap Hip Hop talde ezaguna da gaur egun, eta hizkuntzaren aldeko jarrera (gaelikoa) argia dute, IRAren osteko belaunaldiaren gorabeherak kontatzen ditu filmak; drogak eta... [+]


2025-04-03 | ARGIA
Behatokiak hizkuntza eskubideen urraketak betikotzeko arriskuaz ohartarazi du 2024ko txostenean

Behatokiak Hizkuntza Eskubideen Egoera 2024 txostena aurkeztu du. Herritarrek helarazitako gertakarien bilduma aztertuta, ondorioztatu dute 2024an egoerak ez duela hobera egin, eta gainera, kexak jaso dituzten hainbat entitateren eskutik urraketak iraunarazteko jarrera sumatu... [+]


Kutxa Banku Fundazioa ez da ados agertu Arriolaren adierazpenekin: “Euskara ez da oztopo”

Kutxa Banku Fundazioak adierazi du Kutxabankeko presidentearen adierazpenek ez dutela fundazioaren pentsamoldea islatzen, "Hizkuntza aniztasuna beti da aberastasun iturri, nekez izan daiteke oztopo", argudiatu dute.


“Neutrotzat aurkezten dena, egiaz, ideologia nagusiaren konplizea da”

Gozamen aparta bezain deskribatzeko zaila dakar, norbaiten hitzak irakurri edo entzun ostean, zera pentsatzeak: “Horixe zen neu aurreko hartan azaltzen saiatu nintzena!”. Idazlea eta itzultzailea da María Reimóndez, eta galegoz aritzen da, hizkuntza... [+]


Nafarroako biztanle gehienak, %63, euskara sustatzearen aldekoak edo oso aldekoak direla ondorioztatu du ikerketa lan batek

Nafarroako biztanle gehienak (% 63) "euskara sustatzearen aldekoak edo oso aldekoak" dira, eta %17 baino ez daude aurka, Xabier Erizek eta Carlos Vilchesek Eusko Ikaskuntzaren eta Nafarroako Gobernuko Memoria eta Bizikidetzako, Kanpo Ekintzako eta Euskarako... [+]


Euskara: makila guztien zahagia

Hizkuntzakeriatik edo glotofobiatik eta, zer esanik ez, euskararen aurkako gorrototik, askotan ikusi izan dugu gure euskara makila guztien zahagi bihurturik. Azkena, Anton Arriola Kutxabankeko presidentea ibili zaigu makilakari lanetan gure hizkuntzari astindu eta makilakada... [+]


2025-04-02 | Hala Bedi
Haizea eta Mikelsa (Euskal Udalekuak):
“Adin baten ematen du gauza guaiak ezin direla euskaraz egin”

Hemen da "uda bete abentura bizitzeko aukera." Zabalik dago aurtengo Euskal Udalekuetan izena emateko epea. 6 urtetatik 17 urtera arteko haur eta gazteentzako hamaika txanda antolatu dituzte Bernedo, Abaigar eta Goñi herrietan.


Eguneraketa berriak daude