EHUko informatikari euskaldunen IXA taldeak orain arte osatutako euskarazko hitz-corpus handiena bildu du, prozesatu du Hitz zentroaren partaidetzarekin (eta Meta enpresaren laguntzarekin ere), eta berrerabilpenerako prestatu du zenbait formatutan. Creative Commons lizentziekin jarri dituzte erabilgarri materialak, EusCrawl izenarekin.
Guztira 12.5 milioi dokumentu eta 423 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da. Corpusa bi formatu ezberdinetan dago eskuragarri: JSONL eta TXT. Hau da helbidea: http://ixa.ehu.eus/euscrawl/
Zenbait iturritan dute jatorria testuek, eta horien arabera da berrerabilgarri edukia lizentzia batekin edo bestearekinb: Cc-by-sa lizentzia librearekin eskuratu da edukia Wikipediatik, Berriatik eta Argiatik. Beste murrizketa batzyk dituzte Hitza batzuen edukiek, edo Bilbo Hiria Irratitik eskuratuek.
Zertarako erabili ahal izango da EusCraweleko korpus handi hori? Adimen artifizialean oinarritutako hizkuntza-ereduen teknologian izango du aplikazioa. IXA taldeak azaldu duen bezala, "Hizkuntza-ereduak testu kopuru handiak erabiliz entrenatzen dira, eta, testua irakurriaz, gai dira hizkuntzaren egitura ikasi eta testu berriak sortzeko. Gaur egungo hizkuntzaren prozesamenduko aplikazioen muinean aurki ditzakegu hizkuntza-ereduak, dela bilaketa eta galderen erantzunean, itzulpen automatikoan, ahotsaren ezagutzan edo elkarrizketa-sistema zein txatbotetan. Labur esateko, hizkuntza-ereduak dira hizkuntzaren inguruan egiten diren aplikazio gehienen motorra, eta testuak dira motor horren gasolina".
Hizkuntza-eredu onak eraikitzeko behar den testu kopurua oso handia da. Ingelesa bezalako hizkuntzetarako testuak aurkitzea ez da arazoa; baina hala ere, kopurun horiek bildu egin behar dira, eta horrela zientzialariak lanak hartu dituzte Colossal Clean Crawled Corpus (C4) izeneko corpusa sortzeko aidbidez, 156.000 milioi hitz dituena.
EusCrawl konparazioan, txikia da, baina nonbait hasi behar. Gainera, euskararen kasuan egon dira testu-masa handiak sortuta, baina kalitatearen aldetik ez omen guztiz fidagarriak: Google eta Meta-AI (lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 (1.000 milioi hitz) eta CC100 (416 milioi hitz) corpusak dira.
Izatez, EusCrawl horiek baino txikiagoa izan arren, erabili dute jada eratorritako beste produktu batzuk sortzeko ere: IXAkoek EusCrawl-ekin entrenatutako bi hizkuntza-eredu sortu dituzte, horietako bat egun euskararako dagoen eredurik handiena, 355 Milioi parametrokoa.
Era berean IXAkoek jakinarazi dute EusCrawl erabiliko delaBigScience proiektuan, helburu bezala hizkuntza-eredu eleaniztun eta erraldoi librea eraikitzea duen proiektua, horretarako bost milioi konputazio-ordu erabiliz. BigScience-ren sortuko den hizkuntza-ereduak euskaraz ere jakingo du.
EusCrawl Interneten argitaratu da, eta IXA taldeko bost lagunek egindako lan gisa ere aurkeztu da, paper akademiko batean. EHUko IXA taldearen emaitza dela esan daiteke, baina Meta enpresak ere (Facebook zenak) parte hartu du lanean, IXAn zein Metan zubi egiten duen Mikel Artetxe informatikariaren bidez. Paperra sinatzen dute halaber Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre eta Aitor Soroak.
EusCrawli buruzko informazio gehiago, Unibertsitatea.net-en.
Askotan gertatu izan zait etxetik lanbroari so egon ostean, blai bukatuko dudala jakin arren, aterkirik ez hartzea. Zergatik ote? Beharbada, aterkia hartzeko gogorik eza? Beharbada, bustiko ez naizen itxaropena? Kontuak kontu, ondorioa beti berbera izan da. Esaerak dio, euri... [+]
Gogoan daukat, 16 urterekin, Bergarako epaitegi aurrean egindako euskararen aldeko elkarretaratze batean identifikatu ninduela Ertzaintzak lehen aldiz. Euskal Herrian epaitegiak euskalduntzeko aldarria zilegi zela pentsatzen genuen, baina, orduan ere, faltako zen baimenen bat,... [+]
Azaroaren 26an eta 27an, Langune Euskal Herriko Hizkuntza Industrien Elkarteak eta FUEN Federal Union of European Nationalities erakundeak antolatuta, ‘Hizkuntzen irabazia. Benefits of language industry in the economy’ kongresua egingo da Donostiako Kursaalean. Han... [+]
Lup izeneko gailuak testuak ahots bihurtzen ditu adimen artifizialari esker. Hainbat hizkuntza bihurtzeko gaitasuna dauka. Teknologia gutxiko gailua da, hain zuzen aurrerapen teknologikoetatik urrun dagoen jendeari balio diezaion. Ikusmen arazoak dituztenentzat sortu eta... [+]
Bi irakasle eta ikerlarik inkesta jarri dute sarean, euskarazko esamolde batzuen inguruko datuak biltzeko. Bost minutu hartuko dizu betetzeak baina adi, bi galdetegi daude, egun bakoitian jaio bazara 1A betetzeko eskatzen dizute, eta egun bikoitian jaioa bazara 1B delakoa.
Euskarari Puzka azken kanpainan 16.000 saski saldu dituzte, eta euskararen alde lan egiten duten elkarteentzat bideratuko zaie lortutako etekina.
Andoni Urrestarazu Landazabal Araiako herrian 1902ko uztailaren 16an jaio zen eta 1993ko azaroaren 21ean hil zen Gasteizen. 31 urte bete dira jadanik eta bere izena eta izana aitortzeko une aproposa dela deritzot, ez baita ongi ezagutzen utzitako ondarea. Umandi, bere herriko... [+]
Lehenengo aldiz “euskararen aldarriak hedatzeko” azoka antolatu dute euskararen biziberritzean lan egiten duten zortzi elkartek. Euskararen egunean irekiko da azoka eta abenduko beste hiru egunetan ere egongo da zabalik.
“Ibiliz ikasten da ibiltzen, eta kantuan kantatzen”. Horixe izan da aste honetako ikasgaietako bat C2ko taldeetan. Helburua ez zen abesten edo oinez ikastea, gerundioa behar bezala erabiltzea baizik. Zer pentsatua eman dit jarduerak, eta irakasten nola ikasten dugun... [+]
Aldarrikapen historikoa da euskara doan ikasteko eskubidea. Gaur egun, gori-gori dago gaia. Bi urrats esanguratsu eman berri ditu HABE Helduen Alfabetatze eta Berreuskalduntzerako Erakundeak C1 maila gainditu nahi duten gazteentzat eta A1 mailakoentzat. Hala, diru kopuru... [+]
Euskararen biziraupena ez da euskaldunok politikaren partidan jokatzen dugun arazo bakarra, baina bai, euskalduntasunaren elementu bereizgarriena den neurrian, gure egoera gehien islatzen duena. Beste esparru batzuetan hainbeste ageri ez dena oso ongi erakusten du. Hasteko,... [+]
Hizkuntzen irabazia kongresua izango da azaroaren 26an eta 27an Donostian. Arlo digitalean inglesaren erabilera aregotzen ari den garaietan, kongresuak euskara bezalako hizkuntza gutxituek tokiko ekonomiari egiten dioten ekarpena agerian utzi nahi du.
GUKA Bilboko euskaltzaleen mugimenduak euskararen aldeko ekintza esanguratsua burutu du astearte arratsaldean Deustuko metro geltokian, Bilbon euskaraz bizitzeko oztopoak eta aukerak irudikatzeko.
Baionan eskaini dute prentsaurrekoa Euskal Konfederazioak eta Euskalgintzaren Kontseiluak, beste behin ere euskararen egoera larria salatzeko. "Borondate politikoa" ukanez gero, larrialdi linguistikoa gainditu daitekeela argi utzi dute.
Agorrilaren 27an igorri nizuen gutunean, irailaren 10eko auzian euskaraz deklaratzeko asmoa nuela adierazi nizuen. Auzi honen hastapenean, epaile nagusiari euskaraz zekienez galdegin nion. Gutxiespenarekin ezetz erantzun zidan. Orduan, nere gutuna eskuratu zuenez frantsesez... [+]