EusCrawl, euskarazko hitzen korpus erraldoia

  • EHUko informatikari euskaldunen IXA taldeak orain arte osatutako euskarazko hitz-corpus handiena bildu du, prozesatu du Hitz zentroaren partaidetzarekin (eta Meta enpresaren laguntzarekin ere), eta berrerabilpenerako prestatu du zenbait formatutan. Creative Commons lizentziekin jarri dituzte erabilgarri materialak, EusCrawl izenarekin.

Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

2022ko martxoaren 24an - 09:10

Guztira 12.5 milioi dokumentu eta 423 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da. Corpusa bi formatu ezberdinetan dago eskuragarri: JSONL eta TXT. Hau da helbidea: http://ixa.ehu.eus/euscrawl/ 

Zenbait iturritan dute jatorria testuek, eta horien arabera da berrerabilgarri edukia lizentzia batekin edo bestearekinb: Cc-by-sa lizentzia librearekin eskuratu da edukia Wikipediatik, Berriatik eta Argiatik. Beste murrizketa batzyk dituzte Hitza batzuen edukiek, edo Bilbo Hiria Irratitik eskuratuek.

Zertarako erabili ahal izango da EusCraweleko korpus handi hori? Adimen artifizialean oinarritutako hizkuntza-ereduen teknologian izango du aplikazioa. IXA taldeak azaldu duen bezala, "Hizkuntza-ereduak testu kopuru handiak erabiliz entrenatzen dira, eta, testua irakurriaz, gai dira hizkuntzaren egitura ikasi eta testu berriak sortzeko. Gaur egungo hizkuntzaren prozesamenduko aplikazioen muinean aurki ditzakegu hizkuntza-ereduak, dela bilaketa eta galderen erantzunean, itzulpen automatikoan, ahotsaren ezagutzan edo elkarrizketa-sistema zein txatbotetan. Labur esateko, hizkuntza-ereduak dira hizkuntzaren inguruan egiten diren aplikazio gehienen motorra, eta testuak dira motor horren gasolina".

Hizkuntza-eredu onak eraikitzeko behar den testu kopurua oso handia da. Ingelesa bezalako hizkuntzetarako testuak aurkitzea ez da arazoa; baina hala ere, kopurun horiek bildu egin behar dira, eta horrela zientzialariak lanak hartu dituzte Colossal Clean Crawled Corpus (C4) izeneko corpusa sortzeko aidbidez, 156.000 milioi hitz dituena.

EusCrawl konparazioan, txikia da, baina nonbait hasi behar. Gainera, euskararen kasuan egon dira testu-masa handiak sortuta, baina kalitatearen aldetik ez omen guztiz fidagarriak: Google eta Meta-AI (lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 (1.000 milioi hitz) eta CC100 (416 milioi hitz) corpusak dira.

Izatez, EusCrawl horiek baino txikiagoa izan arren, erabili dute jada eratorritako beste produktu batzuk sortzeko ere: IXAkoek EusCrawl-ekin entrenatutako bi hizkuntza-eredu sortu dituzte, horietako bat egun euskararako dagoen eredurik handiena, 355 Milioi parametrokoa.

Era berean IXAkoek jakinarazi dute EusCrawl erabiliko delaBigScience proiektuan, helburu bezala hizkuntza-eredu eleaniztun eta erraldoi librea eraikitzea duen proiektua, horretarako bost milioi konputazio-ordu erabiliz. BigScience-ren sortuko den hizkuntza-ereduak euskaraz ere jakingo du.

EusCrawl Interneten argitaratu da, eta IXA taldeko bost lagunek egindako lan gisa ere aurkeztu da, paper akademiko batean. EHUko IXA taldearen emaitza dela esan daiteke, baina Meta enpresak ere (Facebook zenak) parte hartu du lanean, IXAn zein Metan zubi egiten duen Mikel Artetxe informatikariaren bidez. Paperra sinatzen dute halaber Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre eta Aitor Soroak.

EusCrawli buruzko informazio gehiago, Unibertsitatea.net-en.


Kanal honetatik interesatuko zaizu: Euskara
Naziometroaren seigarren neurketa
Gehiengoa euskal estatuaren alde legoke “adostutako” erreferendumean, gatazkarik sortzen ez badu

Euskal Burujabetzaren Barometroaren seigarren neurketa aurkeztu dute asteartean Donostian. Euskal Herriarekiko atxikimendua da nagusi oro har, baina Nafarroan Nafarroarekikoa gailentzen da. Euskara ez dago euskal sentimendua azaltzeko gako nagusien artean, baina gaztelera eta... [+]


2024-09-17 | ARGIA
Euskaldunen aurkako “oldarraldi” judizial betean, euskara eskakizuna berriro baliogabetuta

EAEko Auzitegi Nagusiak atzera bota du Donostiako bi udaltzain postutarako euskarazko B2 profila eskatzen zuen lan deialdia. "Euskaldunen eskubideak urratzen dituen" epai berri honen aurrean, hainbat eragilek salatu du "euskaldunen aurkako oldarraldiak"... [+]


2024-09-13 | ARGIA
Tematzearen emaitza: errepide seinaleak euskaraz

Herritarrak eskatzen du seinaleak euskaraz jartzeko. Gobernuak erantzuten dio legeak ez duela horretara behartzen. Behatokiak erantzuten dio, legeak ez badu derrigortzen ere, euskaraz jartzeko debekurik ez duela. Gobernuak bereari eusten dio. Alabaina, herritarrak tematzen dira... [+]


Euskarazko “parentesia linguistiko ederrak” proposatzera dator Mintzalasai festibala

Irailaren 16tik 22ra iraganen da euskararen erabilpena bultzatzeko xedez antolaturiko festibala. Baiona, Angelu eta Miarritze hirietan bideraturiko festibalaren hamahirugarren edizioa dute aurtengoa.


Maddi Kintana
“Badirudi lagunarteko hizkera, Hegoaldean eta Iparraldean, ezin dela banandu gaztelaniatik eta frantsesetik”

Maddi Kintanak ekainean aurkeztu du Master Amaierako Lana Bordeleko Unibertsitatearen eta Iker ikerketa-zentroaren laguntzarekin. Gazteen hizkera BAM eta inguruan du izenburu eta Biarritz, Baiona eta Angeluko 18 eta 24 urte bitarteko gazteen hizkera aztertu du. Horretarako,... [+]


Gorputz hotsak
“Oso arriskutsua da pentsatzea edonork irakatsi dezakeela zeinu hizkuntza”

Sarean lan egiteko elkar entzutea eta errespetatzea “nahitaezkoa” da Aitor Bedialaunetarentzat (Ondarroa, Bizkaia, 1991). Euskal Gorrak, Pertsona Gorren Elkarteen Euskal Federazioko presidentea zeinu hizkuntzaren kalitatea zaintzearen garrantziaz mintzatu da. Salatu... [+]


2024-09-11 | Maialen Arteaga
Erantzun konplexuen alde

Garai hiper azeleratu eta likido hauetan erantzun sendoek heldulekuak eskaintzen dizkigute. Erraza da krisi garaietan halako premisa bati heldu eta zure egitea, bandera altxatzeraino. Inguruan gertatzen ari den guztia ulertzeko erantzunak behar dituzu, erantzun azkarrak; eta... [+]


2024-09-11 | ARGIA
Euskararen aldeko ekintzengatik zigortu du Gorka Torre Baionako auzitegiak

Euskaraz deklaratzea ukatu dio epaileak, eta erabaki du ez parte hartzea bere aurkako epaiketan. Auzitegi kanpoan babesa ematera joandako hamarnaka euskaltzaleren aurrean desobedientziarako deia egin du Torrek. Guztira 3.268 euro ordaintzera zigortu dute.


Eguneraketa berriak daude