Traduït automàticament del basc, la traducció pot contenir errors. Més informació. Elhuyarren itzultzaile automatikoaren logoa

EusCrawl, corpus gegant de paraules en basca

  • El grup d'informàtics euskaldunes IXA de la UPV/EHU ha recopilat el corpus de paraules en basc més gran elaborat fins ara, ho ha processat amb la participació del centre hitz (i amb la col·laboració de l'empresa Meta) i l'ha preparat per a la seva reutilització en diferents formats. Els materials estan disponibles sota llicències Creative Commons, sota el nom d'EusCrawl.
Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

24 de març de 2022 - 09:10

En total, s'han elaborat 12.5 milions de documents i 423 milions de paraules, que han estat extrets a través de l'absorció de documents (crawl en anglès). El corpus està disponible en dos formats diferents: JSONL i TXT. L'adreça és http://ixa.ehu.eus/euscrawl/

Els textos tenen el seu origen en diverses fonts, depenent de les quals el contingut és reutilitzable amb l'una o l'altra llicència: El contingut s'ha obtingut amb la llicència lliure Cc-by-sa de Wikipedia, Berria i Argia. Altres retallades inclouen els continguts d'Hitza, o els de Bilbo Hiria Irratia.

Per a què es podrà utilitzar aquest gran corpus d'EusCrawel? La seva aplicació se centrarà en la tecnologia de models lingüístics basats en la intel·ligència artificial. Tal com ha explicat el grup IXA, "els models lingüístics s'entrenen amb un gran nombre de textos i, llegint el text, són capaços d'aprendre l'estructura de la llengua i de crear nous textos. Els models lingüístics es poden trobar en el nucli de les aplicacions de processament del llenguatge actual, tant en la cerca i resposta a preguntes, com en la traducció automàtica, en el reconeixement de veu o en el sistema de diàleg i en els xats. En definitiva, els models lingüístics són el motor de la majoria de les aplicacions que es realitzen entorn de la llengua i els textos són la gasolina d'aquest motor".

El nombre de textos necessaris per a construir bons models lingüístics és molt elevat. Trobar textos per a llengües com l'anglès no és un problema; però encara així, és necessari recopilar aquestes quantitats, i així els científics han pres part en la creació d'un corpus anomenat Colossal Clean Crawled Corpus (C4), amb 156.000 milions de paraules.

EusCrawl és petit en comparació, però ha de començar en algun lloc. A més, en el cas del basc han existit grans masses de textos, però no referent a la qualitat han estat totalment fiables: Google i Meta-AI (abans Facebook) són corpus de mC4 (1.000 milions de paraules) i CC100 (416 milions de paraules) que s'han descarregat automàticament d'Internet i identificat amb el programa d'idiomes dels documents.

De fet, encara que EusCrawl és menor que aquests, ja ho han utilitzat per a crear altres productes derivats: Els d'IXA han creat dos models lingüístics entrenats amb EusCrawl, un dels quals és el model més gran per al basc en l'actualitat, amb 355 milions de paràmetres.

Així mateix, des d'IXA han informat que EusCrawl s'utilitzarà en el projecte BigScience, que té com a objectiu construir un model lingüístic multilingüe i gegant lliure, utilitzant per a això cinc milions d'hores de computació. El model lingüístic que es crearà en BigScience també coneixerà el basc.

EusCrawl s'ha publicat en Internet i també s'ha presentat com un treball realitzat per cinc persones del grup IXA, en un paper acadèmic. Es pot dir que és el resultat del grup IXA de la UPV/EHU, però també ha participat l'empresa Meta (antiga Facebook), a través de l'informàtic Mikel Artetxe, que fa de pont en IXA i Fiquin. També signen al paper Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre i Aitor Soroa.

Més informació sobre EusCrawl en Unibertsitatea.net.


Més llegits
Utilitzant Matomo
Azoka
T'interessa pel canal: Euskara
'Dona'ls d'aquí, dona'ls basc', és el lema que utilitzarà el Govern de Navarra en la campanya de promoció del basc
Especialment, es fa una crida a les famílies amb nens i nenes en edat adulta. Perquè volem el millor per als nostres fills, seria ampliar les possibilitats de futur. "És una invitació a optar pel multilingüisme, perquè donar basc és unir", ha dit la consellera de Basca, Ana... [+]

A la recerca del millor bot
En els últims anys, el desenvolupament de la Intel·ligència Artificial (IA) ha tingut una influència notable en la situació de les llengües minoritzades. Els principals models desenvolupats per les grans tecnologies, com el ChatGPT, s'entrenen en les principals llengües,... [+]

2025-02-10 | Amanda Verrone
Descolonitzar la terra del País Basc:
El basc és agroecològic
Així hem posat fi al grup de treball sobre la descolonització, en el marc de les trobades “materialitzant ecofeminismes a Euskal Herria” celebrats el mes de novembre passat en Arraia-Maeztu (Àlaba). Va ser refugi de diverses expressions de la defensa del territori, granja... [+]

Agressió contra els perfils lingüístics dels policies locals en Donostia, Astigarraga i Usurbil
L'Ajuntament de Donostia-Sant Sebastià va interposar un recurs al setembre de 2024, després que al gener d'aquest mateix any els jutges anul·lessin el perfil lingüístic B2. El Tribunal Superior de Justícia del País Basc no tramitarà el recurs en considerar que "no existeix... [+]

2025-02-07 | Euskal Irratiak
Ximun Fuchs
"Els insults bascos ens són inhumans, perquè no siguem invàlids emocionals"
L'empresa Le Tampographe Sardon ha posat a la venda un precinte de 24 ultratges. Disponible en la Xarxa. L'actor Ximun Fuchs ha estat l'encarregat de realitzar la selecció, ja que els insults són "una eina de treball".

Declaració de la Comissió de Basca d'EITB
Mitjançant aquest escrit, la Comissió de Basca d'EITB i els òrgans sotasignats volen expressar la seva preocupació i rebuig pels processos de selecció que s'han posat en marxa en els últims mesos per als llocs d'adreça d'EITB, ja que s'ha subestimat la demanda de coneixement... [+]

Euskal Herrian Euskaraz convoca una manifestació nacional per al 6 d'abril en Baiona
La manifestació tindrà lloc a les 11.30 hores en el Palau de Justícia de la capital navarresa. El moviment ha fet una crida a favor dels drets dels bascos i en solidaritat amb els imputats. Els processaments van dur a terme una pintada en el Tribunal de Justícia de Baiona el... [+]

Julen Goldarazena, 'Flako Fonki'. Xakea eta jotak
“Ez dakit euskara hobetu dudan edo lotsa galdu, baina horrek oso pozik jartzen nau”

Aurretik bistaz ezagutzen banuen ere, musikaren munduak hurbildu gaitu Julen Goldarazena eta biok. Segituan ezagutu nuen Flako Chill Mafiak erakusten zuen irudi horretatik harago eta horrek baldintzatu dizkit, hein handi batean, proiektuarekiko harremana eta iritzia. Lauzpabost... [+]


Judimendi: A ereduko ikastetxe estigmatizatua D ereduko auzo-eskola bilakatzen

Eskola segregatua izan da Gasteizko Judimendi ikastetxe publikoa, hiri guztiko ikasleak hartu ditu, jatorri atzerritarreko familien seme-alabak. Baina A hizkuntza eredutik D eredura igarotzeaz gain, auzoak eskola bere sentitzeko eta auzoko familiak erakartzeko egindako... [+]


2025-02-04 | Euskal Irratiak
Euskara hutsezko haurtzain-etxea irekiko dute Aiherran

Nafarroa Beherean, Aiherrako 'Beltzegitea' etxean kokatuko da Eguzkilore haurtzain-etxe berria. Euskara, natura eta motrizitate librea oinarri harturik, heldu den apirilean hasiko dira zerbitzua eskaintzen.


El moviment Sorionekua crida a complir els ponts de Navarra per al 10 de maig a favor del basc
Amb la construcció de "ponts de futur", han subratllat que "en aquests temps convulsos" s'han d'escoltar en veu alta les reivindicacions a favor del basc: "És hora de donar un tractament, un lloc, al basc", ha afegit.

Amb l'objectiu d'augmentar l'ús del basc en Zestoa, el temps lliure és gratuït per a nens i nenes amb pocs recursos
En Zestoa (Guipúscoa), a partir de setembre de 2024, els nens i joves amb escassos recursos econòmics poden optar a una de les cinc activitats culturals i esportives, en la qual podran participar gratuïtament. L'Ajuntament ha renovat la normativa de subvencions en considerar... [+]

Pamplona unificarà els locals de l'associació Laba i el bar Windsor
D'aquesta manera, donaran estabilitat i solidesa al projecte que ha portat al basc i a la cultura basca al cor de la ciutat.

Retiren les sancions als ertzaines dels donostiarres condemnats per parlar en basc
El Govern Basc ha retirat les multes als ciutadans de Donostia-Sant Sebastià que van ser condemnats per parlar en basc als ertzaines. Manex Ratlla i Amaia Abendaño, tres ciutadans anònims, han confirmat a aquest mitjà de comunicació que els han retirat les multes que els... [+]

Eguneraketa berriak daude