En total, elaboráronse 12.5 millóns de documentos e 423 millóns de palabras, que foron extraídos a través da absorción de documentos (crawl en inglés). O corpus está dispoñible en dous formatos diferentes: JSONL e TXT. A dirección é http://ixa.ehu.eus/euscrawl/
Os textos teñen a súa orixe en diversas fontes, dependendo das cales o contido é reutilizable cunha ou outra licenza: O contido obtívose coa licenza libre Cc-by-sa de Wikipedia, Berria e Argia. Outros recortes inclúen os contidos de Hitza, ou os de Bilbo Hiria Irratia.
Para que se poderá utilizar este gran corpus de EusCrawel? A súa aplicación centrarase na tecnoloxía de modelos lingüísticos baseados na intelixencia artificial. Tal e como explicou o grupo IXA, "os modelos lingüísticos adéstranse cun gran número de textos e, lendo o texto, son capaces de aprender a estrutura da lingua e de crear novos textos. Os modelos lingüísticos pódense atopar no núcleo das aplicacións de procesamiento da linguaxe actual, tanto na procura e resposta a preguntas, como na tradución automática, no recoñecemento de voz ou no sistema de diálogo e nos chats. En definitiva, os modelos lingüísticos son o motor da maioría das aplicacións que se realizan ao redor da lingua e os textos son a gasolina deste motor".
O número de textos necesarios para construír bos modelos lingüísticos é moi elevado. Atopar textos para linguas como o inglés non é un problema; pero aínda así, é necesario recompilar esas cantidades, e así os científicos tomaron parte na creación dun corpus chamado Colossal Clean Crawled Corpus (C4), con 156.000 millóns de palabras.
EusCrawl é pequeno en comparación, pero debe empezar nalgún sitio. Ademais, no caso do eúscaro existiron grandes masas de textos, pero non no referente á calidade foron totalmente fiables: Google e Meta-AI (antes Facebook) son corpus de mC4 (1.000 millóns de palabras) e CC100 (416 millóns de palabras) que se descargaron automaticamente de Internet e identificado co programa de idiomas dos documentos.
De feito, aínda que EusCrawl é menor que estes, xa o utilizaron para crear outros produtos derivados: Os de IXA crearon dous modelos lingüísticos adestrados con EusCrawl, un dos cales é o modelo máis grande para o eúscaro na actualidade, con 355 millóns de parámetros.
Así mesmo, desde IXA informaron de que EusCrawl utilizarase no proxecto BigScience, que ten como obxectivo construír un modelo lingüístico multilingüe e xigante libre, utilizando para iso cinco millóns de horas de computación. O modelo lingüístico que se creará en BigScience tamén coñecerá o eúscaro.
EusCrawl publicouse en Internet e tamén se presentou como un traballo realizado por cinco persoas do grupo IXA, nun papel académico. Pódese dicir que é o resultado do grupo IXA da UPV/EHU, pero tamén participou a empresa Meta (antiga Facebook), a través do informático Mikel Artetxe, que fai de ponte en IXA e Metan. Tamén asinan ao papel Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre e Aitor Soroa.
Máis información sobre EusCrawl en Unibertsitatea.net.
Antton Kurutxarri, Euskararen Erakunde Publikoko presidente ordearen hitzetan, Jean Marc Huart Bordeleko Akademiako errektore berriak euskararen gaia "ondo menderatzen du"
Quizá non saibas quen é Donald Berwick, ou por que o menciono no título deste artigo. O mesmo ocorre, evidentemente, coa maioría das persoas que participan no Pacto Sanitario en curso. Non saben que é o Triplo Obxectivo de Berwick, e menos aínda o Obxectivo Cuádruplo que... [+]
É importante utilizar correctamente un idioma? Até que punto é necesario dominar a gramática ou ter un amplo dicionario? Sempre escoitei a importancia da lingua, pero despois de porme a pensar, cheguei a unha conclusión. Pensar a miúdo leva iso; chegar a unhas... [+]
Ao longo da súa traxectoria académica, adolescentes e mozas recibirán en máis dunha ocasión orientación académica e/ou profesional para aqueles estudos que lles resulten de utilidade. Hai que ofrecerlles liderado, porque adoitan estar cheos de dúbidas cada vez que teñen... [+]
Maiatzaren 17an Erriberako lehenengo Euskararen Eguna eginen da Arguedasen, sortu berri den eta eskualdeko hamaika elkarte eta eragile biltzen dituen Erriberan Euskaraz sareak antolatuta
Ansorena´tar Joseba Eneko.
Si a calquera se lle pregunta que é orto, responderá de madrugada, quizais o mosqueteiro amigo de D´Artagnan ou o culito. Pero o prefixo orto- é correcto e utilizámolo con frecuencia: ortodoxia, ortopedia, ortodoncia... Entón (o que vén hai... [+]
Euskaraldiaren laugarren edizioaren bezperatan egon gara Goiatz Urkijorekin. Hirugarrenean apalaldia sumatu zuten; bigarrena pandemia betean egin izanak ez zuen askorik lagundu. Aurtengoa herrikoiagoa eta ilusionagarriagoa izatea dute helburu. Oraingoz pozik daude tokian tokiko... [+]
Tivemos que sufrir outro ataque contra a nosa lingua da man do Departamento de Educación do Goberno de Navarra, que nos obrigou a facer un cambio no programa PAI contra o eúscaro. Nos últimos anos, por imperativo legal, os novos centros do modelo D tiveron que introducir o... [+]
"Pide a túa quenda e acompañarémosche", dixo o digno e animado locutor de estudos Arnold ao novo correspondente que percorre as rúas da capital biscaíña. O presentador dirixiuse inmediatamente aos oíntes, que non tardaron en responder. "Mentres tanto, imos a Pamplona..."... [+]