Traduït automàticament del basc, la traducció pot contenir errors. Més informació. Elhuyarren itzultzaile automatikoaren logoa

EusCrawl, corpus gegant de paraules en basca

  • El grup d'informàtics euskaldunes IXA de la UPV/EHU ha recopilat el corpus de paraules en basc més gran elaborat fins ara, ho ha processat amb la participació del centre hitz (i amb la col·laboració de l'empresa Meta) i l'ha preparat per a la seva reutilització en diferents formats. Els materials estan disponibles sota llicències Creative Commons, sota el nom d'EusCrawl.
Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

24 de març de 2022 - 09:10
Zarata mediatikoz beteriko garai nahasiotan, merkatu logiketatik urrun eta irakurleengandik gertu dagoen kazetaritza beharrezkoa dela uste baduzu, ARGIA bultzatzera animatu nahi zaitugu. Geroz eta gehiago gara, jarrai dezagun txikitik eragiten.

En total, s'han elaborat 12.5 milions de documents i 423 milions de paraules, que han estat extrets a través de l'absorció de documents (crawl en anglès). El corpus està disponible en dos formats diferents: JSONL i TXT. L'adreça és http://ixa.ehu.eus/euscrawl/

Els textos tenen el seu origen en diverses fonts, depenent de les quals el contingut és reutilitzable amb l'una o l'altra llicència: El contingut s'ha obtingut amb la llicència lliure Cc-by-sa de Wikipedia, Berria i Argia. Altres retallades inclouen els continguts d'Hitza, o els de Bilbo Hiria Irratia.

Per a què es podrà utilitzar aquest gran corpus d'EusCrawel? La seva aplicació se centrarà en la tecnologia de models lingüístics basats en la intel·ligència artificial. Tal com ha explicat el grup IXA, "els models lingüístics s'entrenen amb un gran nombre de textos i, llegint el text, són capaços d'aprendre l'estructura de la llengua i de crear nous textos. Els models lingüístics es poden trobar en el nucli de les aplicacions de processament del llenguatge actual, tant en la cerca i resposta a preguntes, com en la traducció automàtica, en el reconeixement de veu o en el sistema de diàleg i en els xats. En definitiva, els models lingüístics són el motor de la majoria de les aplicacions que es realitzen entorn de la llengua i els textos són la gasolina d'aquest motor".

El nombre de textos necessaris per a construir bons models lingüístics és molt elevat. Trobar textos per a llengües com l'anglès no és un problema; però encara així, és necessari recopilar aquestes quantitats, i així els científics han pres part en la creació d'un corpus anomenat Colossal Clean Crawled Corpus (C4), amb 156.000 milions de paraules.

EusCrawl és petit en comparació, però ha de començar en algun lloc. A més, en el cas del basc han existit grans masses de textos, però no referent a la qualitat han estat totalment fiables: Google i Meta-AI (abans Facebook) són corpus de mC4 (1.000 milions de paraules) i CC100 (416 milions de paraules) que s'han descarregat automàticament d'Internet i identificat amb el programa d'idiomes dels documents.

De fet, encara que EusCrawl és menor que aquests, ja ho han utilitzat per a crear altres productes derivats: Els d'IXA han creat dos models lingüístics entrenats amb EusCrawl, un dels quals és el model més gran per al basc en l'actualitat, amb 355 milions de paràmetres.

Així mateix, des d'IXA han informat que EusCrawl s'utilitzarà en el projecte BigScience, que té com a objectiu construir un model lingüístic multilingüe i gegant lliure, utilitzant per a això cinc milions d'hores de computació. El model lingüístic que es crearà en BigScience també coneixerà el basc.

EusCrawl s'ha publicat en Internet i també s'ha presentat com un treball realitzat per cinc persones del grup IXA, en un paper acadèmic. Es pot dir que és el resultat del grup IXA de la UPV/EHU, però també ha participat l'empresa Meta (antiga Facebook), a través de l'informàtic Mikel Artetxe, que fa de pont en IXA i Fiquin. També signen al paper Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre i Aitor Soroa.

Més informació sobre EusCrawl en Unibertsitatea.net.


T'interessa pel canal: Euskara
Boira

Moltes vegades, després de mirar les boires des de la meva casa, m'ha ocorregut no agafar paraigua, encara que sàpiga que acabaré de xopar. Per què serà? Tal vegada no li ve de gust agafar el paraigua? Potser amb l'esperança que no em mulli? Malgrat tot, la conclusió ha... [+]


Per a viure en basc, la República del Basc

Record que amb 16 anys, l'Ertzaintza em va identificar per primera vegada en una concentració a favor del basc davant els jutjats de Bergara. Crèiem que a Euskal Herria era legítim el clam per l'euskaldunización dels tribunals, però també llavors faltaria algun permís,... [+]


2024-11-22 | ARGIA
Director de Langune Lohitzune Txarola
“Langune vol reivindicar el pes econòmic i estratègic de les llengües minoritzades”
Els dies 26 i 27 de novembre, organitzat per Langune, l'Associació d'Indústries de la Llengua del País Basc i FUEN Federal Union of European Nationalities, se celebrarà la jornada ‘El guany de les llengües. El congrés ‘Benefits of language industry in the economy’... [+]

Llancen un dispositiu intel·ligent de butxaca que converteix els textos en basc en veu
Un dispositiu anomenat Lup converteix els textos en veu gràcies a la intel·ligència artificial. Té la capacitat de transformar-se en diversos idiomes. Es tracta d'un dispositiu de baixa tecnologia que serveix a persones allunyades dels avanços tecnològics. Es tracta d'un... [+]

2024-11-22 | Sustatu
Ajuda'ns a valorar les expressions en basca en aquest qüestionari en línia
Dos professors i investigadors han penjat una enquesta en la xarxa que recull dades sobre algunes de les expressions en basca que s'estan recollint. Et prendrà 5 minuts d'emplenar però atent, hi ha dos qüestionaris, si has nascut en un dia imparell et demanen que emplenis la 1a... [+]

2024-11-22 | Ahotsa.info
A través de les cistelles, Errigora farà la major aportació a la cultura basca de Navarra: 230.000 euros
En l'última campanya Puzka s'han venut més de 16.000 cistelles, i el benefici obtingut es destinarà a les associacions que treballen a favor del basc.

Nom i existència d'Umandi

Andoni Urrestarazu Landazabal va néixer en la localitat d'Araia el 16 de juliol de 1902 i va morir a Vitòria el 21 de novembre de 1993. Ja s'han complert 31 anys i crec que és el moment de reconèixer el seu nom i ser, ja que no es coneix bé el llegat que va deixar. Umandi va... [+]


2024-11-20 | Leire Ibar
Baiona organitza un mercat euskaldun de Nadal
Per primera vegada, vuit associacions que treballen en la revitalització del basc han organitzat una fira per a “difondre les reivindicacions del basc ”.La fira s'obrirà el dia del basc i estarà oberta altres tres dies de desembre.

Eines i formació

“S'aprèn caminant i cantant”. Aquesta ha estat una de les assignatures d'aquesta setmana en els grups de C2. No es tractava d'aprendre a cantar o a peu, sinó d'utilitzar correctament el futur. L'activitat m'ha donat què pensar i m'he preguntat com aprenem a ensenyar. He sentit a... [+]


Aprendre basc gratis
Passos, encara collons
El dret a aprendre basc gratis és una reivindicació històrica. Avui dia, el tema està roent. L'Institut d'Alfabetització i Reeuskaldunización d'Adults (HABE) ha fet dos passos significatius per als joves que volen superar el nivell C1 i per als de nivell A1. Així, els... [+]

Crida a l'euskalgintza apolítica

La supervivència del basc no és l'únic problema que els bascos juguem en la partida política, però sí, com a element més característic de l'euskaldunización, el que més reflecteix la nostra situació. Mostra molt bé el que no apareix tant en altres àmbits. En primer... [+]


2024-11-18 | Leire Ibar
El congrés que se celebrarà en Donostia-Sant Sebastià tractarà sobre la presència de les llengües minoritàries en l'entorn digital
El guanyador de les llengües serà un congrés els dies 26 i 27 de novembre en Donostia-Sant Sebastià. En un moment en el qual l'ús de l'anglès s'està palpant en l'àmbit digital, el congrés vol posar de manifest la contribució de les llengües minoritàries com el basc a... [+]

2024-11-14 | Uriola.eus
El moviment euskaltzale de Bilbao repassa els reptes de viure en basc en les escales mecàniques del metre
El moviment euskaltzale de Bilbao GUKA ha realitzat aquest dimarts a la tarda una acció a favor del basc en l'estació de metro de Deusto.

El basc pregunta "recursos legals i econòmics" per a fer front a l'emergència lingüística
La Confederació Basca i el Consell Basc d'Euskalgintza han ofert una roda de premsa en Baiona per a denunciar, una vegada més, la greu situació del basc. En aquest sentit, han deixat clar que, si hi ha "voluntat política", es pot superar l'emergència lingüística del basc.

2024-11-11 | Gorka Torre
“Justizia euskaraz eta euskaraz justizia”
Baionako epaileei bigarren gutuna

Agorrilaren 27an igorri nizuen gutunean, irailaren 10eko auzian euskaraz deklaratzeko asmoa nuela adierazi nizuen. Auzi honen hastapenean, epaile nagusiari euskaraz zekienez galdegin nion. Gutxiespenarekin ezetz erantzun zidan. Orduan, nere gutuna eskuratu zuenez frantsesez... [+]


Eguneraketa berriak daude