En total, s'han elaborat 12.5 milions de documents i 423 milions de paraules, que han estat extrets a través de l'absorció de documents (crawl en anglès). El corpus està disponible en dos formats diferents: JSONL i TXT. L'adreça és http://ixa.ehu.eus/euscrawl/
Els textos tenen el seu origen en diverses fonts, depenent de les quals el contingut és reutilitzable amb l'una o l'altra llicència: El contingut s'ha obtingut amb la llicència lliure Cc-by-sa de Wikipedia, Berria i Argia. Altres retallades inclouen els continguts d'Hitza, o els de Bilbo Hiria Irratia.
Per a què es podrà utilitzar aquest gran corpus d'EusCrawel? La seva aplicació se centrarà en la tecnologia de models lingüístics basats en la intel·ligència artificial. Tal com ha explicat el grup IXA, "els models lingüístics s'entrenen amb un gran nombre de textos i, llegint el text, són capaços d'aprendre l'estructura de la llengua i de crear nous textos. Els models lingüístics es poden trobar en el nucli de les aplicacions de processament del llenguatge actual, tant en la cerca i resposta a preguntes, com en la traducció automàtica, en el reconeixement de veu o en el sistema de diàleg i en els xats. En definitiva, els models lingüístics són el motor de la majoria de les aplicacions que es realitzen entorn de la llengua i els textos són la gasolina d'aquest motor".
El nombre de textos necessaris per a construir bons models lingüístics és molt elevat. Trobar textos per a llengües com l'anglès no és un problema; però encara així, és necessari recopilar aquestes quantitats, i així els científics han pres part en la creació d'un corpus anomenat Colossal Clean Crawled Corpus (C4), amb 156.000 milions de paraules.
EusCrawl és petit en comparació, però ha de començar en algun lloc. A més, en el cas del basc han existit grans masses de textos, però no referent a la qualitat han estat totalment fiables: Google i Meta-AI (abans Facebook) són corpus de mC4 (1.000 milions de paraules) i CC100 (416 milions de paraules) que s'han descarregat automàticament d'Internet i identificat amb el programa d'idiomes dels documents.
De fet, encara que EusCrawl és menor que aquests, ja ho han utilitzat per a crear altres productes derivats: Els d'IXA han creat dos models lingüístics entrenats amb EusCrawl, un dels quals és el model més gran per al basc en l'actualitat, amb 355 milions de paràmetres.
Així mateix, des d'IXA han informat que EusCrawl s'utilitzarà en el projecte BigScience, que té com a objectiu construir un model lingüístic multilingüe i gegant lliure, utilitzant per a això cinc milions d'hores de computació. El model lingüístic que es crearà en BigScience també coneixerà el basc.
EusCrawl s'ha publicat en Internet i també s'ha presentat com un treball realitzat per cinc persones del grup IXA, en un paper acadèmic. Es pot dir que és el resultat del grup IXA de la UPV/EHU, però també ha participat l'empresa Meta (antiga Facebook), a través de l'informàtic Mikel Artetxe, que fa de pont en IXA i Fiquin. També signen al paper Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre i Aitor Soroa.
Més informació sobre EusCrawl en Unibertsitatea.net.
Antton Kurutxarri, Euskararen Erakunde Publikoko presidente ordearen hitzetan, Jean Marc Huart Bordeleko Akademiako errektore berriak euskararen gaia "ondo menderatzen du"
Potser no saps qui és Donald Berwick, o per què ho esmento en el títol d'aquest article. El mateix ocorre, evidentment, amb la majoria de les persones que participen en el Pacte Sanitari en curs. No saben què és el Triple Objectiu de Berwick, i menys encara l'Objectiu... [+]
És important utilitzar correctament un idioma? Fins a quin punt és necessari dominar la gramàtica o tenir un ampli diccionari? Sempre he escoltat la importància de la llengua, però després de posar-me a pensar, he arribat a una conclusió. Pensar sovint comporta això;... [+]
Al llarg de la seva trajectòria acadèmica, adolescents i joves rebran en més d'una ocasió orientació acadèmica i/o professional per a aquells estudis que els resultin d'utilitat. Cal oferir-los lideratge, perquè solen estar plens de dubtes cada vegada que han de prendre... [+]
Maiatzaren 17an Erriberako lehenengo Euskararen Eguna eginen da Arguedasen, sortu berri den eta eskualdeko hamaika elkarte eta eragile biltzen dituen Erriberan Euskaraz sareak antolatuta
Ansorena´tar Joseba Eneko.
Si a qualsevol se li pregunta què és orto, respondrà de matinada, potser el mosqueter amic de D´Artagnan o el culet. Però el prefix orto- és correcte i l'utilitzem amb freqüència: ortodòxia, ortopèdia, ortodòncia... Llavors (el que ve cal... [+]
Hem hagut de sofrir un altre atac contra la nostra llengua de la mà del Departament d'Educació del Govern de Navarra, que ens ha obligat a fer un canvi en el programa PAI contra el basc. En els últims anys, per imperatiu legal, els nous centres del model D han hagut d'introduir... [+]
"Demana el teu torn i t'acompanyarem", ha dit el digne i animat locutor d'estudis Arnold al jove corresponsal que recorre els carrers de la capital biscaïna. El presentador s'ha dirigit immediatament als oients, que no han trigat a respondre. "Mentrestant, anem a Pamplona...". Allí... [+]