Traduït automàticament del basc, la traducció pot contenir errors. Més informació. Elhuyarren itzultzaile automatikoaren logoa

EusCrawl, corpus gegant de paraules en basca

  • El grup d'informàtics euskaldunes IXA de la UPV/EHU ha recopilat el corpus de paraules en basc més gran elaborat fins ara, ho ha processat amb la participació del centre hitz (i amb la col·laboració de l'empresa Meta) i l'ha preparat per a la seva reutilització en diferents formats. Els materials estan disponibles sota llicències Creative Commons, sota el nom d'EusCrawl.
Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

24 de març de 2022 - 09:10

En total, s'han elaborat 12.5 milions de documents i 423 milions de paraules, que han estat extrets a través de l'absorció de documents (crawl en anglès). El corpus està disponible en dos formats diferents: JSONL i TXT. L'adreça és http://ixa.ehu.eus/euscrawl/

Els textos tenen el seu origen en diverses fonts, depenent de les quals el contingut és reutilitzable amb l'una o l'altra llicència: El contingut s'ha obtingut amb la llicència lliure Cc-by-sa de Wikipedia, Berria i Argia. Altres retallades inclouen els continguts d'Hitza, o els de Bilbo Hiria Irratia.

Per a què es podrà utilitzar aquest gran corpus d'EusCrawel? La seva aplicació se centrarà en la tecnologia de models lingüístics basats en la intel·ligència artificial. Tal com ha explicat el grup IXA, "els models lingüístics s'entrenen amb un gran nombre de textos i, llegint el text, són capaços d'aprendre l'estructura de la llengua i de crear nous textos. Els models lingüístics es poden trobar en el nucli de les aplicacions de processament del llenguatge actual, tant en la cerca i resposta a preguntes, com en la traducció automàtica, en el reconeixement de veu o en el sistema de diàleg i en els xats. En definitiva, els models lingüístics són el motor de la majoria de les aplicacions que es realitzen entorn de la llengua i els textos són la gasolina d'aquest motor".

El nombre de textos necessaris per a construir bons models lingüístics és molt elevat. Trobar textos per a llengües com l'anglès no és un problema; però encara així, és necessari recopilar aquestes quantitats, i així els científics han pres part en la creació d'un corpus anomenat Colossal Clean Crawled Corpus (C4), amb 156.000 milions de paraules.

EusCrawl és petit en comparació, però ha de començar en algun lloc. A més, en el cas del basc han existit grans masses de textos, però no referent a la qualitat han estat totalment fiables: Google i Meta-AI (abans Facebook) són corpus de mC4 (1.000 milions de paraules) i CC100 (416 milions de paraules) que s'han descarregat automàticament d'Internet i identificat amb el programa d'idiomes dels documents.

De fet, encara que EusCrawl és menor que aquests, ja ho han utilitzat per a crear altres productes derivats: Els d'IXA han creat dos models lingüístics entrenats amb EusCrawl, un dels quals és el model més gran per al basc en l'actualitat, amb 355 milions de paràmetres.

Així mateix, des d'IXA han informat que EusCrawl s'utilitzarà en el projecte BigScience, que té com a objectiu construir un model lingüístic multilingüe i gegant lliure, utilitzant per a això cinc milions d'hores de computació. El model lingüístic que es crearà en BigScience també coneixerà el basc.

EusCrawl s'ha publicat en Internet i també s'ha presentat com un treball realitzat per cinc persones del grup IXA, en un paper acadèmic. Es pot dir que és el resultat del grup IXA de la UPV/EHU, però també ha participat l'empresa Meta (antiga Facebook), a través de l'informàtic Mikel Artetxe, que fa de pont en IXA i Fiquin. També signen al paper Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre i Aitor Soroa.

Més informació sobre EusCrawl en Unibertsitatea.net.


T'interessa pel canal: Euskara
La 42 edició de Sarako Idazleen Biltzarra ha reunit nombrosos escriptors i lectors bascos
Els lectors que han acudit a l'exposició han tingut dos dies d'activitats: una fira de llibres, espectacles, tallers i taules rodones, entre altres. La coordinadora, Maider Elcano, considera que la força del Congrés radica en el fet que és "un espai obert" que dona cabuda a... [+]

ERNAI ha expressat la seva intenció de "iniciar un nou impuls nacional" en el Gazte Topagune celebrat en Berriozar
ERNAI ha dit que ha reunit a més de 3.000 persones entre el dijous i el diumenge, en una trobada multitudinària. L'acte polític principal de les jornades s'ha celebrat aquest dissabte, amb la paraula de la portaveu de l'organització juvenil, Amaiur Egurrola. El punt de trobada... [+]

2025-04-22 | Aiaraldea
El Consell Basc del Basc d'Aiaraldea farà nous passos per a aconseguir unes festes euskaldunes
El Consell d'Euskalgintza d'Aiaraldea, en col·laboració amb els Ajuntaments i associacions, ha posat en marxa una nova dinàmica Gora Aiaraldeko Jai Euskaldunak. L'objectiu és fomentar la presència i l'ús del basc en el context de les festes. Enguany volen seguir el camí... [+]

2025-04-22 | Euskal Irratiak
Brebetaren zientzietako froga euskaraz egiten ahalko da, sare pribatu zein publikoan

Antton Kurutxarri, Euskararen Erakunde Publikoko presidente ordearen hitzetan, Jean Marc Huart Bordeleko Akademiako errektore berriak euskararen gaia "ondo menderatzen du"


Berwick i nosaltres

Potser no saps qui és Donald Berwick, o per què ho esmento en el títol d'aquest article. El mateix ocorre, evidentment, amb la majoria de les persones que participen en el Pacte Sanitari en curs. No saben què és el Triple Objectiu de Berwick, i menys encara l'Objectiu... [+]


2025-04-16 | Haritz Arabaolaza
Idioma

És important utilitzar correctament un idioma? Fins a quin punt és necessari dominar la gramàtica o tenir un ampli diccionari? Sempre he escoltat la importància de la llengua, però després de posar-me a pensar, he arribat a una conclusió. Pensar sovint comporta això;... [+]


2025-04-16 | Rober Gutiérrez
Destreses

Al llarg de la seva trajectòria acadèmica, adolescents i joves rebran en més d'una ocasió orientació acadèmica i/o professional per a aquells estudis que els resultin d'utilitat. Cal oferir-los lideratge, perquè solen estar plens de dubtes cada vegada que han de prendre... [+]


Iñaki Bakero (Erriberan Euskaraz)
“Batzuek ez gaituzte hemen nahi, baina bagaude”

Maiatzaren 17an Erriberako lehenengo Euskararen Eguna eginen da Arguedasen, sortu berri den eta eskualdeko hamaika elkarte eta eragile biltzen dituen Erriberan Euskaraz sareak antolatuta


Aitonita i ortologia

Ansorena´tar Joseba Eneko.

Si a qualsevol se li pregunta què és orto, respondrà de matinada, potser el mosqueter amic de D´Artagnan o el culet. Però el prefix orto- és correcte i l'utilitzem amb freqüència: ortodòxia, ortopèdia, ortodòncia... Llavors (el que ve cal... [+]


Goiatz Urkijo, coordinadora d'Euskaraldia
"No són contradictoris l'esforç i la il·lusió de participar en Euskaraldia"
Hem estat en vespres de la quarta edició d'Euskaraldia amb Goiatz Urkijo. En la tercera es va notar la humiliació; la segona es va produir en plena pandèmia i no va ajudar molt. L'objectiu és que enguany sigui més popular i il·lusionant. De moment estan satisfets amb el... [+]

Per l'educació en basca, no més sessions d'anglès

Hem hagut de sofrir un altre atac contra la nostra llengua de la mà del Departament d'Educació del Govern de Navarra, que ens ha obligat a fer un canvi en el programa PAI contra el basc. En els últims anys, per imperatiu legal, els nous centres del model D han hagut d'introduir... [+]


Anàlisi
Micròfons en teatres

"Demana el teu torn i t'acompanyarem", ha dit el digne i animat locutor d'estudis Arnold al jove corresponsal que recorre els carrers de la capital biscaïna. El presentador s'ha dirigit immediatament als oients, que no han trigat a respondre. "Mentrestant, anem a Pamplona...". Allí... [+]


El 10 de maig la iniciativa Sorionekua recorrerà ponts i portes per a reivindicar que el basc és de tots els navarresos
Al matí, Sorionekua omplirà de gent els ponts més emblemàtics de Navarra. A la tarda, han convocat una mobilització ciutadana des del parc Kostarapea de Pamplona fins al parc de la Taconera del Casc Vell.

El Suprem anul·la que els ajuntaments actuïn expressament en basc
El Tribunal Superior de Justícia del País Basc va dictar en 2023 sentència contra diversos articles de la llei municipal basca en matèria de basca, que ara ha estat ratificada pel Suprem. El Govern Basc no ha presentat a temps el recurs que, si és el cas, hagués pogut... [+]

Eguneraketa berriak daude