En total, elaboráronse 12.5 millóns de documentos e 423 millóns de palabras, que foron extraídos a través da absorción de documentos (crawl en inglés). O corpus está dispoñible en dous formatos diferentes: JSONL e TXT. A dirección é http://ixa.ehu.eus/euscrawl/
Os textos teñen a súa orixe en diversas fontes, dependendo das cales o contido é reutilizable cunha ou outra licenza: O contido obtívose coa licenza libre Cc-by-sa de Wikipedia, Berria e Argia. Outros recortes inclúen os contidos de Hitza, ou os de Bilbo Hiria Irratia.
Para que se poderá utilizar este gran corpus de EusCrawel? A súa aplicación centrarase na tecnoloxía de modelos lingüísticos baseados na intelixencia artificial. Tal e como explicou o grupo IXA, "os modelos lingüísticos adéstranse cun gran número de textos e, lendo o texto, son capaces de aprender a estrutura da lingua e de crear novos textos. Os modelos lingüísticos pódense atopar no núcleo das aplicacións de procesamiento da linguaxe actual, tanto na procura e resposta a preguntas, como na tradución automática, no recoñecemento de voz ou no sistema de diálogo e nos chats. En definitiva, os modelos lingüísticos son o motor da maioría das aplicacións que se realizan ao redor da lingua e os textos son a gasolina deste motor".
O número de textos necesarios para construír bos modelos lingüísticos é moi elevado. Atopar textos para linguas como o inglés non é un problema; pero aínda así, é necesario recompilar esas cantidades, e así os científicos tomaron parte na creación dun corpus chamado Colossal Clean Crawled Corpus (C4), con 156.000 millóns de palabras.
EusCrawl é pequeno en comparación, pero debe empezar nalgún sitio. Ademais, no caso do eúscaro existiron grandes masas de textos, pero non no referente á calidade foron totalmente fiables: Google e Meta-AI (antes Facebook) son corpus de mC4 (1.000 millóns de palabras) e CC100 (416 millóns de palabras) que se descargaron automaticamente de Internet e identificado co programa de idiomas dos documentos.
De feito, aínda que EusCrawl é menor que estes, xa o utilizaron para crear outros produtos derivados: Os de IXA crearon dous modelos lingüísticos adestrados con EusCrawl, un dos cales é o modelo máis grande para o eúscaro na actualidade, con 355 millóns de parámetros.
Así mesmo, desde IXA informaron de que EusCrawl utilizarase no proxecto BigScience, que ten como obxectivo construír un modelo lingüístico multilingüe e xigante libre, utilizando para iso cinco millóns de horas de computación. O modelo lingüístico que se creará en BigScience tamén coñecerá o eúscaro.
EusCrawl publicouse en Internet e tamén se presentou como un traballo realizado por cinco persoas do grupo IXA, nun papel académico. Pódese dicir que é o resultado do grupo IXA da UPV/EHU, pero tamén participou a empresa Meta (antiga Facebook), a través do informático Mikel Artetxe, que fai de ponte en IXA e Metan. Tamén asinan ao papel Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre e Aitor Soroa.
Máis información sobre EusCrawl en Unibertsitatea.net.
Korsikako legebiltzarkideek ezin dute Korsikako Asanblean korsikeraz hitz egin, Bastiako Auzitegiaren 2023ko epai baten arabera. Ebazpen horri helegitea jarri zion Asanbleak, baina debekua berretsi du orain auzitegi berak. Epaiak tokiko beste hizkuntzei eragiten diela ohartarazi... [+]
Moitas veces, despois de mirar as brumas desde a miña casa, ocorreume non coller paraugas, aínda que saiba que vou acabar de empapar. Por que será? Talvez non lle apetece coller o paraugas? Quizá coa esperanza de que non me molle? A pesar de todo, a conclusión foi sempre a... [+]
Recordo que con 16 anos, a Ertzaintza identificoume por primeira vez nunha concentración a favor do eúscaro ante os xulgados de Bergara. Criamos que en Euskal Herria era lexítimo o clamor pola euskaldunización dos tribunais, pero tamén entón faltaría algún permiso,... [+]
Andoni Urrestarazu Landazabal naceu na localidade de Araia o 16 de xullo de 1902 e faleceu en Vitoria o 21 de novembro de 1993. Xa se cumpriron 31 anos e creo que é o momento de recoñecer o seu nome e ser, xa que non se coñece ben o legado que deixou. Umandi utilizou o nome... [+]
“Apréndese andando e cantando”. Esta foi unha das materias desta semana nos grupos de C2. Non se trataba de aprender a cantar ou a pé, senón de utilizar correctamente o futuro. A actividade deume que pensar e pregunteime como aprendemos a ensinar. Ouvín a moitos que... [+]
A supervivencia do eúscaro non é o único problema que os vascos xogamos na partida política, pero si, como elemento máis característico da euskaldunización, o que máis reflicte a nosa situación. Mostra moi ben o que non aparece tanto noutros ámbitos. En primeiro lugar,... [+]