En total, s'han elaborat 12.5 milions de documents i 423 milions de paraules, que han estat extrets a través de l'absorció de documents (crawl en anglès). El corpus està disponible en dos formats diferents: JSONL i TXT. L'adreça és http://ixa.ehu.eus/euscrawl/
Els textos tenen el seu origen en diverses fonts, depenent de les quals el contingut és reutilitzable amb l'una o l'altra llicència: El contingut s'ha obtingut amb la llicència lliure Cc-by-sa de Wikipedia, Berria i Argia. Altres retallades inclouen els continguts d'Hitza, o els de Bilbo Hiria Irratia.
Per a què es podrà utilitzar aquest gran corpus d'EusCrawel? La seva aplicació se centrarà en la tecnologia de models lingüístics basats en la intel·ligència artificial. Tal com ha explicat el grup IXA, "els models lingüístics s'entrenen amb un gran nombre de textos i, llegint el text, són capaços d'aprendre l'estructura de la llengua i de crear nous textos. Els models lingüístics es poden trobar en el nucli de les aplicacions de processament del llenguatge actual, tant en la cerca i resposta a preguntes, com en la traducció automàtica, en el reconeixement de veu o en el sistema de diàleg i en els xats. En definitiva, els models lingüístics són el motor de la majoria de les aplicacions que es realitzen entorn de la llengua i els textos són la gasolina d'aquest motor".
El nombre de textos necessaris per a construir bons models lingüístics és molt elevat. Trobar textos per a llengües com l'anglès no és un problema; però encara així, és necessari recopilar aquestes quantitats, i així els científics han pres part en la creació d'un corpus anomenat Colossal Clean Crawled Corpus (C4), amb 156.000 milions de paraules.
EusCrawl és petit en comparació, però ha de començar en algun lloc. A més, en el cas del basc han existit grans masses de textos, però no referent a la qualitat han estat totalment fiables: Google i Meta-AI (abans Facebook) són corpus de mC4 (1.000 milions de paraules) i CC100 (416 milions de paraules) que s'han descarregat automàticament d'Internet i identificat amb el programa d'idiomes dels documents.
De fet, encara que EusCrawl és menor que aquests, ja ho han utilitzat per a crear altres productes derivats: Els d'IXA han creat dos models lingüístics entrenats amb EusCrawl, un dels quals és el model més gran per al basc en l'actualitat, amb 355 milions de paràmetres.
Així mateix, des d'IXA han informat que EusCrawl s'utilitzarà en el projecte BigScience, que té com a objectiu construir un model lingüístic multilingüe i gegant lliure, utilitzant per a això cinc milions d'hores de computació. El model lingüístic que es crearà en BigScience també coneixerà el basc.
EusCrawl s'ha publicat en Internet i també s'ha presentat com un treball realitzat per cinc persones del grup IXA, en un paper acadèmic. Es pot dir que és el resultat del grup IXA de la UPV/EHU, però també ha participat l'empresa Meta (antiga Facebook), a través de l'informàtic Mikel Artetxe, que fa de pont en IXA i Fiquin. També signen al paper Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre i Aitor Soroa.
Més informació sobre EusCrawl en Unibertsitatea.net.
Moltes vegades, després de mirar les boires des de la meva casa, m'ha ocorregut no agafar paraigua, encara que sàpiga que acabaré de xopar. Per què serà? Tal vegada no li ve de gust agafar el paraigua? Potser amb l'esperança que no em mulli? Malgrat tot, la conclusió ha... [+]
Record que amb 16 anys, l'Ertzaintza em va identificar per primera vegada en una concentració a favor del basc davant els jutjats de Bergara. Crèiem que a Euskal Herria era legítim el clam per l'euskaldunización dels tribunals, però també llavors faltaria algun permís,... [+]
Andoni Urrestarazu Landazabal va néixer en la localitat d'Araia el 16 de juliol de 1902 i va morir a Vitòria el 21 de novembre de 1993. Ja s'han complert 31 anys i crec que és el moment de reconèixer el seu nom i ser, ja que no es coneix bé el llegat que va deixar. Umandi va... [+]
“S'aprèn caminant i cantant”. Aquesta ha estat una de les assignatures d'aquesta setmana en els grups de C2. No es tractava d'aprendre a cantar o a peu, sinó d'utilitzar correctament el futur. L'activitat m'ha donat què pensar i m'he preguntat com aprenem a ensenyar. He sentit a... [+]
La supervivència del basc no és l'únic problema que els bascos juguem en la partida política, però sí, com a element més característic de l'euskaldunización, el que més reflecteix la nostra situació. Mostra molt bé el que no apareix tant en altres àmbits. En primer... [+]
Agorrilaren 27an igorri nizuen gutunean, irailaren 10eko auzian euskaraz deklaratzeko asmoa nuela adierazi nizuen. Auzi honen hastapenean, epaile nagusiari euskaraz zekienez galdegin nion. Gutxiespenarekin ezetz erantzun zidan. Orduan, nere gutuna eskuratu zuenez frantsesez... [+]