Traducido automaticamente do vasco, a tradución pode conter erros. Máis información aquí. Elhuyarren itzultzaile automatikoaren logoa

EusCrawl, corpus xigante de palabras en eúscaro

  • O grupo de informáticos euskaldunes IXA da UPV/EHU recompilou o corpus de palabras en eúscaro máis grande elaborado até agora, procesouno coa participación do centro hitz (e coa colaboración da empresa Meta) e preparouno para a súa reutilización en diferentes formatos. Os materiais están dispoñibles baixo licenzas Creative Commons, baixo o nome de EusCrawl.
Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

24 de marzo de 2022 - 09:10

En total, elaboráronse 12.5 millóns de documentos e 423 millóns de palabras, que foron extraídos a través da absorción de documentos (crawl en inglés). O corpus está dispoñible en dous formatos diferentes: JSONL e TXT. A dirección é http://ixa.ehu.eus/euscrawl/

Os textos teñen a súa orixe en diversas fontes, dependendo das cales o contido é reutilizable cunha ou outra licenza: O contido obtívose coa licenza libre Cc-by-sa de Wikipedia, Berria e Argia. Outros recortes inclúen os contidos de Hitza, ou os de Bilbo Hiria Irratia.

Para que se poderá utilizar este gran corpus de EusCrawel? A súa aplicación centrarase na tecnoloxía de modelos lingüísticos baseados na intelixencia artificial. Tal e como explicou o grupo IXA, "os modelos lingüísticos adéstranse cun gran número de textos e, lendo o texto, son capaces de aprender a estrutura da lingua e de crear novos textos. Os modelos lingüísticos pódense atopar no núcleo das aplicacións de procesamiento da linguaxe actual, tanto na procura e resposta a preguntas, como na tradución automática, no recoñecemento de voz ou no sistema de diálogo e nos chats. En definitiva, os modelos lingüísticos son o motor da maioría das aplicacións que se realizan ao redor da lingua e os textos son a gasolina deste motor".

O número de textos necesarios para construír bos modelos lingüísticos é moi elevado. Atopar textos para linguas como o inglés non é un problema; pero aínda así, é necesario recompilar esas cantidades, e así os científicos tomaron parte na creación dun corpus chamado Colossal Clean Crawled Corpus (C4), con 156.000 millóns de palabras.

EusCrawl é pequeno en comparación, pero debe empezar nalgún sitio. Ademais, no caso do eúscaro existiron grandes masas de textos, pero non no referente á calidade foron totalmente fiables: Google e Meta-AI (antes Facebook) son corpus de mC4 (1.000 millóns de palabras) e CC100 (416 millóns de palabras) que se descargaron automaticamente de Internet e identificado co programa de idiomas dos documentos.

De feito, aínda que EusCrawl é menor que estes, xa o utilizaron para crear outros produtos derivados: Os de IXA crearon dous modelos lingüísticos adestrados con EusCrawl, un dos cales é o modelo máis grande para o eúscaro na actualidade, con 355 millóns de parámetros.

Así mesmo, desde IXA informaron de que EusCrawl utilizarase no proxecto BigScience, que ten como obxectivo construír un modelo lingüístico multilingüe e xigante libre, utilizando para iso cinco millóns de horas de computación. O modelo lingüístico que se creará en BigScience tamén coñecerá o eúscaro.

EusCrawl publicouse en Internet e tamén se presentou como un traballo realizado por cinco persoas do grupo IXA, nun papel académico. Pódese dicir que é o resultado do grupo IXA da UPV/EHU, pero tamén participou a empresa Meta (antiga Facebook), a través do informático Mikel Artetxe, que fai de ponte en IXA e Metan. Tamén asinan ao papel Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre e Aitor Soroa.

Máis información sobre EusCrawl en Unibertsitatea.net.


Interésache pola canle: Euskara
A 42 edición de Sarako Idazleen Biltzarra reuniu a numerosos escritores e lectores vascos
Os lectores que acudiron á exposición tiveron dous días de actividades: unha feira de libros, espectáculos, talleres e mesas redondas, entre outros. A coordinadora, Maider Elcano, considera que a forza do Congreso radica en que é "un espazo aberto" que dá cabida a escritores... [+]

ERNAI expresou a súa intención de "iniciar un novo impulso nacional" no Gazte Topagune celebrado en Berriozar
ERNAI dixo que reuniu a máis de 3.000 persoas entre o xoves e o domingo, nun encontro multitudinario. O acto político principal das xornadas celebrouse este sábado, coa palabra da portavoz da organización xuvenil, Amaiur Egurrola. O punto de encontro finalizou coincidindo... [+]

2025-04-22 | Aiaraldea
O Consello Vasco do Eúscaro de Aiaraldea dará novos pasos para conseguir unhas festas euskaldunes
O Consello de Euskalgintza de Aiaraldea, en colaboración cos Concellos e asociacións, puxo en marcha unha nova dinámica Gora Aiaraldeko Jai Euskaldunak. O obxectivo é fomentar a presenza e o uso do eúscaro no contexto das festas. Este ano queren seguir o camiño iniciado o... [+]

2025-04-22 | Euskal Irratiak
Brebetaren zientzietako froga euskaraz egiten ahalko da, sare pribatu zein publikoan

Antton Kurutxarri, Euskararen Erakunde Publikoko presidente ordearen hitzetan, Jean Marc Huart Bordeleko Akademiako errektore berriak euskararen gaia "ondo menderatzen du"


Berwick e nós

Quizá non saibas quen é Donald Berwick, ou por que o menciono no título deste artigo. O mesmo ocorre, evidentemente, coa maioría das persoas que participan no Pacto Sanitario en curso. Non saben que é o Triplo Obxectivo de Berwick, e menos aínda o Obxectivo Cuádruplo que... [+]


2025-04-16 | Haritz Arabaolaza
Idioma

É importante utilizar correctamente un idioma? Até que punto é necesario dominar a gramática ou ter un amplo dicionario? Sempre escoitei a importancia da lingua, pero despois de porme a pensar, cheguei a unha conclusión. Pensar a miúdo leva iso; chegar a unhas... [+]


2025-04-16 | Rober Gutiérrez
Destrezas

Ao longo da súa traxectoria académica, adolescentes e mozas recibirán en máis dunha ocasión orientación académica e/ou profesional para aqueles estudos que lles resulten de utilidade. Hai que ofrecerlles liderado, porque adoitan estar cheos de dúbidas cada vez que teñen... [+]


Iñaki Bakero (Erriberan Euskaraz)
“Batzuek ez gaituzte hemen nahi, baina bagaude”

Maiatzaren 17an Erriberako lehenengo Euskararen Eguna eginen da Arguedasen, sortu berri den eta eskualdeko hamaika elkarte eta eragile biltzen dituen Erriberan Euskaraz sareak antolatuta


Aitonita e ortología

Ansorena´tar Joseba Eneko.

Si a calquera se lle pregunta que é orto, responderá de madrugada, quizais o mosqueteiro amigo de D´Artagnan ou o culito. Pero o prefixo orto- é correcto e utilizámolo con frecuencia: ortodoxia, ortopedia, ortodoncia... Entón (o que vén hai... [+]


Goiatz Urkijo, Euskaraldiaren koordinatzailea
“Ez dira kontraesankorrak ahalegina eta Euskaraldian ilusioz parte hartzea”

Euskaraldiaren laugarren edizioaren bezperatan egon gara Goiatz Urkijorekin. Hirugarrenean apalaldia sumatu zuten; bigarrena pandemia betean egin izanak ez zuen askorik lagundu. Aurtengoa herrikoiagoa eta ilusionagarriagoa izatea dute helburu. Oraingoz pozik daude tokian tokiko... [+]


Pola educación en eúscaro, non máis sesións de inglés

Tivemos que sufrir outro ataque contra a nosa lingua da man do Departamento de Educación do Goberno de Navarra, que nos obrigou a facer un cambio no programa PAI contra o eúscaro. Nos últimos anos, por imperativo legal, os novos centros do modelo D tiveron que introducir o... [+]


Análise
Micrófonos en teatros

"Pide a túa quenda e acompañarémosche", dixo o digno e animado locutor de estudos Arnold ao novo correspondente que percorre as rúas da capital biscaíña. O presentador dirixiuse inmediatamente aos oíntes, que non tardaron en responder. "Mentres tanto, imos a Pamplona..."... [+]


O 10 de maio a iniciativa Sorionekua percorrerá pontes e portas para reivindicar que o eúscaro é de todos os navarros
Pola mañá, Sorionekua encherá de xente as pontes máis emblemáticas de Navarra. Pola tarde, convocaron unha mobilización cidadá desde o parque Kostarapea de Pamplona até o parque da Taconera da Zona vella.

O Supremo anula que os concellos actúen expresamente en eúscaro
O Tribunal Superior de Xustiza do País Vasco ditou en 2023 sentenza contra varios artigos da lei municipal vasca en materia de eúscaro, que agora foi ratificada polo Supremo. O Goberno Vasco non presentou a tempo o recurso que, no seu caso, puidese interpor contra a sentenza.

Eguneraketa berriak daude