Traducido automaticamente do vasco, a tradución pode conter erros. Máis información aquí. Elhuyarren itzultzaile automatikoaren logoa

EusCrawl, corpus xigante de palabras en eúscaro

  • O grupo de informáticos euskaldunes IXA da UPV/EHU recompilou o corpus de palabras en eúscaro máis grande elaborado até agora, procesouno coa participación do centro hitz (e coa colaboración da empresa Meta) e preparouno para a súa reutilización en diferentes formatos. Os materiais están dispoñibles baixo licenzas Creative Commons, baixo o nome de EusCrawl.
Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

24 de marzo de 2022 - 09:10

En total, elaboráronse 12.5 millóns de documentos e 423 millóns de palabras, que foron extraídos a través da absorción de documentos (crawl en inglés). O corpus está dispoñible en dous formatos diferentes: JSONL e TXT. A dirección é http://ixa.ehu.eus/euscrawl/

Os textos teñen a súa orixe en diversas fontes, dependendo das cales o contido é reutilizable cunha ou outra licenza: O contido obtívose coa licenza libre Cc-by-sa de Wikipedia, Berria e Argia. Outros recortes inclúen os contidos de Hitza, ou os de Bilbo Hiria Irratia.

Para que se poderá utilizar este gran corpus de EusCrawel? A súa aplicación centrarase na tecnoloxía de modelos lingüísticos baseados na intelixencia artificial. Tal e como explicou o grupo IXA, "os modelos lingüísticos adéstranse cun gran número de textos e, lendo o texto, son capaces de aprender a estrutura da lingua e de crear novos textos. Os modelos lingüísticos pódense atopar no núcleo das aplicacións de procesamiento da linguaxe actual, tanto na procura e resposta a preguntas, como na tradución automática, no recoñecemento de voz ou no sistema de diálogo e nos chats. En definitiva, os modelos lingüísticos son o motor da maioría das aplicacións que se realizan ao redor da lingua e os textos son a gasolina deste motor".

O número de textos necesarios para construír bos modelos lingüísticos é moi elevado. Atopar textos para linguas como o inglés non é un problema; pero aínda así, é necesario recompilar esas cantidades, e así os científicos tomaron parte na creación dun corpus chamado Colossal Clean Crawled Corpus (C4), con 156.000 millóns de palabras.

EusCrawl é pequeno en comparación, pero debe empezar nalgún sitio. Ademais, no caso do eúscaro existiron grandes masas de textos, pero non no referente á calidade foron totalmente fiables: Google e Meta-AI (antes Facebook) son corpus de mC4 (1.000 millóns de palabras) e CC100 (416 millóns de palabras) que se descargaron automaticamente de Internet e identificado co programa de idiomas dos documentos.

De feito, aínda que EusCrawl é menor que estes, xa o utilizaron para crear outros produtos derivados: Os de IXA crearon dous modelos lingüísticos adestrados con EusCrawl, un dos cales é o modelo máis grande para o eúscaro na actualidade, con 355 millóns de parámetros.

Así mesmo, desde IXA informaron de que EusCrawl utilizarase no proxecto BigScience, que ten como obxectivo construír un modelo lingüístico multilingüe e xigante libre, utilizando para iso cinco millóns de horas de computación. O modelo lingüístico que se creará en BigScience tamén coñecerá o eúscaro.

EusCrawl publicouse en Internet e tamén se presentou como un traballo realizado por cinco persoas do grupo IXA, nun papel académico. Pódese dicir que é o resultado do grupo IXA da UPV/EHU, pero tamén participou a empresa Meta (antiga Facebook), a través do informático Mikel Artetxe, que fai de ponte en IXA e Metan. Tamén asinan ao papel Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre e Aitor Soroa.

Máis información sobre EusCrawl en Unibertsitatea.net.


Interésache pola canle: Euskara
2025-02-19 | Estitxu Eizagirre
“Aínda que nos manden ao cárcere, aquí vai estar un pobo disposto a defendernos contra as agresións”
Acudimos a Baztan un domingo pola mañá en Ilbeltz. O Sol aínda non iluminou a praza de Lekaroz, onde nos reunimos con Garbiñe Elizegi Narbarte, Itziar Torres Letona e Ernesto Prat Urzainki. Na sombra fai frío e gozamos co primeiro saúdo, con tres compañeiros que levan... [+]

“Está a atacarse a inmersión en eúscaro coa difusión do modelo PAI”
O sindicato STEILAS presentou un recurso contra a orde foral de ampliación de horas de inglés e redución de horas en eúscaro. Denuncian que “a inmersión se está pondo en serio perigo”.

Concentración ante a sede de EITB en Bilbao para esixir a euskaldunización dos postos directivos
"EITB euskalduna, empezando pola dirección!" Baixo a lema 'Xa abonda do guión', o vindeiro martes 25 de febreiro levará a cabo unha concentración convocada polos sindicatos ELA, LAB e ESK de EITB.

UPN de Estella suspende o programa de bertsolarismo escolar
A denuncia foi presentada pola asociación Bagara, que traballa na promoción do eúscaro en Terra Estella: "Poténciase a capacidade creativa e trabállase o pensamento crítico, todo iso desde un punto de vista lúdico, baseado no goce".

2025-02-18 | Mara Altuna Díaz
Scott Zuñiga, tiktoker euskaltzale de Estados Unidos:
“Falar continuamente é o meu superpoder para aprender euskera, máis aló da vergoña”
Ten 44 anos, é nai mexicana e pai de familia escocesa. Naceu en Novo México, creceu en Utah, e coñeceu o eúscaro hai vinte anos, cando alguén lle dixo que tiña un apelido euskaldun mentres estudaba Cine en Cádiz e que era director de cine. Desde hai dous anos vive en... [+]

2025-02-18 | Antxeta Irratia
Hendaia, Urruña, Donibane Lohizune eta Ziburuko herriek hamabostaldia antolatu dute euskararen erabilera hauspotzeko

Hizkuntzarako ere gurasoak haurrentzako eredu direla kontuan hartuta, euskararen erabilera eta irakaskuntzari buruz sentsibilizatzeko helburua duen hamabostaldia antolatu dute Hendaia, Urruña, Donibane Lohizune eta Ziburuko herriek. Martxoaren 15etik 30era guraso... [+]


Laba de Pamplona, un pequeno saúdo para volver con forzas renovadas en setembro
Este sábado pecharase o hostal Laba na praza do Castelo de Pamplona e, curiosamente, celebrarase o peche cunha festa de todo o día, porque o adeus non é definitivo: O bar Windsor de Laba, á beira, está en obras, e como moi tarde en setembro volverá abrir as súas portas.

2025-02-14 | Sustatu
Investigación Itzulinguru: Como afecto ao eúscaro a tradución automática avanzada?
O Cluster de Sociolingüística, en colaboración con diversas entidades e no traballo desenvolvido por Asier Amezaga, Eduardo Apodaka e Asier Basurto, publicou os resultados do proxecto Itzulinguru. Os tradutores neuronais (tradutores automáticos de última xeración que... [+]

Denuncian a “inxerencia do poder xudicial” en San Sebastián polo caso das peticións de eúscaro dos policías locais
O Tribunal Superior de Xustiza do País Vasco (TSJPV) rexeitou en xaneiro de 2010 a convocatoria de dúas prazas de axente da Policía Local co perfil de eúscaro B2, ao considerar que pedir eúscaro podía ser "discriminatorio". A través das concentracións, a Comisión de... [+]

Aski Da mugimendua Irungo Udalarekin bildu da: hizkuntza politika berri baten lehen urratsak?

Gabonetako argiak pizteko ekitaldia espainolez egin izanak, Irungo euskaldunak haserretzeaz harago, Aski Da! mugimendua abiatu zuen: herriko 40 elkarteren indarrak batuta, Irungo udal gobernuarekin bildu dira orain, alkatea eta Euskara zinegotzia tarteko, herriko eragileak... [+]


'Dálles de aquí, dálles euskera', é a lema que utilizará o Goberno de Navarra na campaña de promoción do eúscaro
En especial, faise un chamamento ás familias con nenos e nenas en idade adulta. Porque queremos o mellor para os nosos fillos, sería ampliar as posibilidades de futuro. "É unha invitación a optar polo multilingüismo, porque dar euskera é unir", dixo a conselleira de... [+]

En busca do mellor chatbot
Nos últimos anos, o desenvolvemento da Intelixencia Artificial (IA) tivo unha influencia notable na situación das linguas minorizadas. Os principais modelos desenvolvidos polas grandes tecnoloxías, como o ChatGPT, adéstranse nas principais linguas, o que leva o risco de que... [+]

2025-02-10 | Amanda Verrone
Descolonizar a terra do País Vasco:
O eúscaro é agroecológico
Así puxemos fin ao grupo de traballo sobre a descolonización, no marco dos encontros “materializando ecofeminismos en Euskal Herria” celebrados o pasado mes de novembro en Arraia-Maeztu (Álava). Foi refuxio de varias expresións da defensa do territorio, criadeiro creollo... [+]

Eguneraketa berriak daude