En total, elaboráronse 12.5 millóns de documentos e 423 millóns de palabras, que foron extraídos a través da absorción de documentos (crawl en inglés). O corpus está dispoñible en dous formatos diferentes: JSONL e TXT. A dirección é http://ixa.ehu.eus/euscrawl/
Os textos teñen a súa orixe en diversas fontes, dependendo das cales o contido é reutilizable cunha ou outra licenza: O contido obtívose coa licenza libre Cc-by-sa de Wikipedia, Berria e Argia. Outros recortes inclúen os contidos de Hitza, ou os de Bilbo Hiria Irratia.
Para que se poderá utilizar este gran corpus de EusCrawel? A súa aplicación centrarase na tecnoloxía de modelos lingüísticos baseados na intelixencia artificial. Tal e como explicou o grupo IXA, "os modelos lingüísticos adéstranse cun gran número de textos e, lendo o texto, son capaces de aprender a estrutura da lingua e de crear novos textos. Os modelos lingüísticos pódense atopar no núcleo das aplicacións de procesamiento da linguaxe actual, tanto na procura e resposta a preguntas, como na tradución automática, no recoñecemento de voz ou no sistema de diálogo e nos chats. En definitiva, os modelos lingüísticos son o motor da maioría das aplicacións que se realizan ao redor da lingua e os textos son a gasolina deste motor".
O número de textos necesarios para construír bos modelos lingüísticos é moi elevado. Atopar textos para linguas como o inglés non é un problema; pero aínda así, é necesario recompilar esas cantidades, e así os científicos tomaron parte na creación dun corpus chamado Colossal Clean Crawled Corpus (C4), con 156.000 millóns de palabras.
EusCrawl é pequeno en comparación, pero debe empezar nalgún sitio. Ademais, no caso do eúscaro existiron grandes masas de textos, pero non no referente á calidade foron totalmente fiables: Google e Meta-AI (antes Facebook) son corpus de mC4 (1.000 millóns de palabras) e CC100 (416 millóns de palabras) que se descargaron automaticamente de Internet e identificado co programa de idiomas dos documentos.
De feito, aínda que EusCrawl é menor que estes, xa o utilizaron para crear outros produtos derivados: Os de IXA crearon dous modelos lingüísticos adestrados con EusCrawl, un dos cales é o modelo máis grande para o eúscaro na actualidade, con 355 millóns de parámetros.
Así mesmo, desde IXA informaron de que EusCrawl utilizarase no proxecto BigScience, que ten como obxectivo construír un modelo lingüístico multilingüe e xigante libre, utilizando para iso cinco millóns de horas de computación. O modelo lingüístico que se creará en BigScience tamén coñecerá o eúscaro.
EusCrawl publicouse en Internet e tamén se presentou como un traballo realizado por cinco persoas do grupo IXA, nun papel académico. Pódese dicir que é o resultado do grupo IXA da UPV/EHU, pero tamén participou a empresa Meta (antiga Facebook), a través do informático Mikel Artetxe, que fai de ponte en IXA e Metan. Tamén asinan ao papel Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre e Aitor Soroa.
Máis información sobre EusCrawl en Unibertsitatea.net.
Hizkuntzarako ere gurasoak haurrentzako eredu direla kontuan hartuta, euskararen erabilera eta irakaskuntzari buruz sentsibilizatzeko helburua duen hamabostaldia antolatu dute Hendaia, Urruña, Donibane Lohizune eta Ziburuko herriek. Martxoaren 15etik 30era guraso... [+]
Gabonetako argiak pizteko ekitaldia espainolez egin izanak, Irungo euskaldunak haserretzeaz harago, Aski Da! mugimendua abiatu zuen: herriko 40 elkarteren indarrak batuta, Irungo udal gobernuarekin bildu dira orain, alkatea eta Euskara zinegotzia tarteko, herriko eragileak... [+]