Traducido automaticamente do vasco, a tradución pode conter erros. Máis información aquí. Elhuyarren itzultzaile automatikoaren logoa

EusCrawl, corpus xigante de palabras en eúscaro

  • O grupo de informáticos euskaldunes IXA da UPV/EHU recompilou o corpus de palabras en eúscaro máis grande elaborado até agora, procesouno coa participación do centro hitz (e coa colaboración da empresa Meta) e preparouno para a súa reutilización en diferentes formatos. Os materiais están dispoñibles baixo licenzas Creative Commons, baixo o nome de EusCrawl.
Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

24 de marzo de 2022 - 09:10
Zarata mediatikoz beteriko garai nahasiotan, merkatu logiketatik urrun eta irakurleengandik gertu dagoen kazetaritza beharrezkoa dela uste baduzu, ARGIA bultzatzera animatu nahi zaitugu. Geroz eta gehiago gara, jarrai dezagun txikitik eragiten.

En total, elaboráronse 12.5 millóns de documentos e 423 millóns de palabras, que foron extraídos a través da absorción de documentos (crawl en inglés). O corpus está dispoñible en dous formatos diferentes: JSONL e TXT. A dirección é http://ixa.ehu.eus/euscrawl/

Os textos teñen a súa orixe en diversas fontes, dependendo das cales o contido é reutilizable cunha ou outra licenza: O contido obtívose coa licenza libre Cc-by-sa de Wikipedia, Berria e Argia. Outros recortes inclúen os contidos de Hitza, ou os de Bilbo Hiria Irratia.

Para que se poderá utilizar este gran corpus de EusCrawel? A súa aplicación centrarase na tecnoloxía de modelos lingüísticos baseados na intelixencia artificial. Tal e como explicou o grupo IXA, "os modelos lingüísticos adéstranse cun gran número de textos e, lendo o texto, son capaces de aprender a estrutura da lingua e de crear novos textos. Os modelos lingüísticos pódense atopar no núcleo das aplicacións de procesamiento da linguaxe actual, tanto na procura e resposta a preguntas, como na tradución automática, no recoñecemento de voz ou no sistema de diálogo e nos chats. En definitiva, os modelos lingüísticos son o motor da maioría das aplicacións que se realizan ao redor da lingua e os textos son a gasolina deste motor".

O número de textos necesarios para construír bos modelos lingüísticos é moi elevado. Atopar textos para linguas como o inglés non é un problema; pero aínda así, é necesario recompilar esas cantidades, e así os científicos tomaron parte na creación dun corpus chamado Colossal Clean Crawled Corpus (C4), con 156.000 millóns de palabras.

EusCrawl é pequeno en comparación, pero debe empezar nalgún sitio. Ademais, no caso do eúscaro existiron grandes masas de textos, pero non no referente á calidade foron totalmente fiables: Google e Meta-AI (antes Facebook) son corpus de mC4 (1.000 millóns de palabras) e CC100 (416 millóns de palabras) que se descargaron automaticamente de Internet e identificado co programa de idiomas dos documentos.

De feito, aínda que EusCrawl é menor que estes, xa o utilizaron para crear outros produtos derivados: Os de IXA crearon dous modelos lingüísticos adestrados con EusCrawl, un dos cales é o modelo máis grande para o eúscaro na actualidade, con 355 millóns de parámetros.

Así mesmo, desde IXA informaron de que EusCrawl utilizarase no proxecto BigScience, que ten como obxectivo construír un modelo lingüístico multilingüe e xigante libre, utilizando para iso cinco millóns de horas de computación. O modelo lingüístico que se creará en BigScience tamén coñecerá o eúscaro.

EusCrawl publicouse en Internet e tamén se presentou como un traballo realizado por cinco persoas do grupo IXA, nun papel académico. Pódese dicir que é o resultado do grupo IXA da UPV/EHU, pero tamén participou a empresa Meta (antiga Facebook), a través do informático Mikel Artetxe, que fai de ponte en IXA e Metan. Tamén asinan ao papel Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre e Aitor Soroa.

Máis información sobre EusCrawl en Unibertsitatea.net.


Interésache pola canle: Euskara
2024-11-27 | Julene Flamarique
O Concello de Barakaldo utiliza "unha lingua que non é o eúscaro" nunha campaña
A asociación de eúscaro Sasiburu denunciou que o Concello de Barakaldo fixo un uso "humillante" do eúscaro. Tras a publicación da denuncia, o Concello borrou a versión en eúscaro da campaña. Sasiburu pediu que se poñan os medios necesarios e a clemencia pública dos... [+]

2024-11-27 | ARGIA
Korsikako Asanblean frantsesa inposatzen jarraitzen dute, korsikera debekatuta

Korsikako legebiltzarkideek ezin dute Korsikako Asanblean korsikeraz hitz egin, Bastiako Auzitegiaren 2023ko epai baten arabera. Ebazpen horri helegitea jarri zion Asanbleak, baina debekua berretsi du orain auzitegi berak. Epaiak tokiko beste hizkuntzei eragiten diela ohartarazi... [+]


Si non sabes como xestionar os idiomas nas reunións, esta guía axudarache
En cantas situacións de comunicación salgue perdedor o eúscaro? Porque o responsable non pensou en como xestionar os idiomas, porque hai resistencias e non hai argumentos preparados para contestalos… O Cluster de Sociolingüística puxo unha guía en Internet... [+]

2024-11-26 | Julene Flamarique
O 11 de decembro celebrarase unha manifestación en todos os barrios de Pamplona para esixir escolas infantís en eúscaro
“Non é posible que teñamos que atravesar toda a cidade para mergullar aos nosos fillos e fillas na lingua de orixe de aquí”, denunciaron moitos pais. Nun vídeo realizado entre moitas familias, denunciaron que as prazas en eúscaro tamén son "moi escasas".

2024-11-25 | Leire Ibar
C.V. do País Vasco Organizan hikadromo na Feira de Durango
Unha das novidades da Feira de Durango será o punto de encontro dos hikalaris que creou o grupo ZirHika. O obxectivo é que Hika fale e divírtase, o 7 de decembro no colexio Landako.

Néboa

Moitas veces, despois de mirar as brumas desde a miña casa, ocorreume non coller paraugas, aínda que saiba que vou acabar de empapar. Por que será? Talvez non lle apetece coller o paraugas? Quizá coa esperanza de que non me molle? A pesar de todo, a conclusión foi sempre a... [+]


Para vivir en eúscaro, a República do Euskera

Recordo que con 16 anos, a Ertzaintza identificoume por primeira vez nunha concentración a favor do eúscaro ante os xulgados de Bergara. Criamos que en Euskal Herria era lexítimo o clamor pola euskaldunización dos tribunais, pero tamén entón faltaría algún permiso,... [+]


2024-11-22 | ARGIA
Director de Langune Lohitzune Txarola
“Langune quere reivindicar o peso económico e estratéxico das linguas minorizadas”
Os días 26 e 27 de novembro, organizado por Langune, a Asociación de Industrias da Lingua do País Vasco e FUEN Federal Union of European Nationalities, celebrarase a xornada ‘A ganancia das linguas. O congreso ‘Benefits of language industry in the economy’ terá lugar... [+]

Lanzan un dispositivo intelixente de peto que converte os textos en eúscaro en voz
Un dispositivo chamado Lup converte os textos en voz grazas á intelixencia artificial. Ten a capacidade de transformarse en varios idiomas. Trátase dun dispositivo de baixa tecnoloxía que serve a persoas afastadas dos avances tecnolóxicos. Trátase dun proxecto creado e... [+]

2024-11-22 | Ahotsa.info
A través das cestas, Errigora fará a maior achega á cultura vasca de Navarra: 230.000 euros
Na última campaña Puzka vendéronse máis de 16.000 cestas, e o beneficio obtido destinarase ás asociacións que traballan a favor do eúscaro.

2024-11-22 | Sustatu
Axúdanos a valorar as expresións en eúscaro neste cuestionario online
Dous profesores e investigadores colgaron unha enquisa na rede que recolle datos sobre algunhas das expresións en eúscaro que se están recollendo. Tomarache 5 minutos de encher pero atento, hai dous cuestionarios, si naciches nun día impar pídenche que enchas a 1ª A e si... [+]

Nome e existencia de Umandi

Andoni Urrestarazu Landazabal naceu na localidade de Araia o 16 de xullo de 1902 e faleceu en Vitoria o 21 de novembro de 1993. Xa se cumpriron 31 anos e creo que é o momento de recoñecer o seu nome e ser, xa que non se coñece ben o legado que deixou. Umandi utilizou o nome... [+]


2024-11-20 | Leire Ibar
Baiona organiza un mercado euskaldun de Nadal
Por primeira vez, oito asociacións que traballan na revitalización do eúscaro organizaron unha feira para “difundir as reivindicacións do eúscaro ”.A feira abrirase o día do eúscaro e estará aberta outro tres días de decembro.

Ferramentas e formación

“Apréndese andando e cantando”. Esta foi unha das materias desta semana nos grupos de C2. Non se trataba de aprender a cantar ou a pé, senón de utilizar correctamente o futuro. A actividade deume que pensar e pregunteime como aprendemos a ensinar. Ouvín a moitos que... [+]


Chamamento á euskalgintza apolítica

A supervivencia do eúscaro non é o único problema que os vascos xogamos na partida política, pero si, como elemento máis característico da euskaldunización, o que máis reflicte a nosa situación. Mostra moi ben o que non aparece tanto noutros ámbitos. En primeiro lugar,... [+]


Eguneraketa berriak daude