Traducido automaticamente do vasco, a tradución pode conter erros. Máis información aquí. Elhuyarren itzultzaile automatikoaren logoa

EusCrawl, corpus xigante de palabras en eúscaro

  • O grupo de informáticos euskaldunes IXA da UPV/EHU recompilou o corpus de palabras en eúscaro máis grande elaborado até agora, procesouno coa participación do centro hitz (e coa colaboración da empresa Meta) e preparouno para a súa reutilización en diferentes formatos. Os materiais están dispoñibles baixo licenzas Creative Commons, baixo o nome de EusCrawl.
Artikulu hau CC BY-SA 3.0 lizentziari esker ekarri dugu.

24 de marzo de 2022 - 09:10

En total, elaboráronse 12.5 millóns de documentos e 423 millóns de palabras, que foron extraídos a través da absorción de documentos (crawl en inglés). O corpus está dispoñible en dous formatos diferentes: JSONL e TXT. A dirección é http://ixa.ehu.eus/euscrawl/

Os textos teñen a súa orixe en diversas fontes, dependendo das cales o contido é reutilizable cunha ou outra licenza: O contido obtívose coa licenza libre Cc-by-sa de Wikipedia, Berria e Argia. Outros recortes inclúen os contidos de Hitza, ou os de Bilbo Hiria Irratia.

Para que se poderá utilizar este gran corpus de EusCrawel? A súa aplicación centrarase na tecnoloxía de modelos lingüísticos baseados na intelixencia artificial. Tal e como explicou o grupo IXA, "os modelos lingüísticos adéstranse cun gran número de textos e, lendo o texto, son capaces de aprender a estrutura da lingua e de crear novos textos. Os modelos lingüísticos pódense atopar no núcleo das aplicacións de procesamiento da linguaxe actual, tanto na procura e resposta a preguntas, como na tradución automática, no recoñecemento de voz ou no sistema de diálogo e nos chats. En definitiva, os modelos lingüísticos son o motor da maioría das aplicacións que se realizan ao redor da lingua e os textos son a gasolina deste motor".

O número de textos necesarios para construír bos modelos lingüísticos é moi elevado. Atopar textos para linguas como o inglés non é un problema; pero aínda así, é necesario recompilar esas cantidades, e así os científicos tomaron parte na creación dun corpus chamado Colossal Clean Crawled Corpus (C4), con 156.000 millóns de palabras.

EusCrawl é pequeno en comparación, pero debe empezar nalgún sitio. Ademais, no caso do eúscaro existiron grandes masas de textos, pero non no referente á calidade foron totalmente fiables: Google e Meta-AI (antes Facebook) son corpus de mC4 (1.000 millóns de palabras) e CC100 (416 millóns de palabras) que se descargaron automaticamente de Internet e identificado co programa de idiomas dos documentos.

De feito, aínda que EusCrawl é menor que estes, xa o utilizaron para crear outros produtos derivados: Os de IXA crearon dous modelos lingüísticos adestrados con EusCrawl, un dos cales é o modelo máis grande para o eúscaro na actualidade, con 355 millóns de parámetros.

Así mesmo, desde IXA informaron de que EusCrawl utilizarase no proxecto BigScience, que ten como obxectivo construír un modelo lingüístico multilingüe e xigante libre, utilizando para iso cinco millóns de horas de computación. O modelo lingüístico que se creará en BigScience tamén coñecerá o eúscaro.

EusCrawl publicouse en Internet e tamén se presentou como un traballo realizado por cinco persoas do grupo IXA, nun papel académico. Pódese dicir que é o resultado do grupo IXA da UPV/EHU, pero tamén participou a empresa Meta (antiga Facebook), a través do informático Mikel Artetxe, que fai de ponte en IXA e Metan. Tamén asinan ao papel Itziar Aldabe, Rodrigo Agerri, Olatz Perez de Viñaspre e Aitor Soroa.

Máis información sobre EusCrawl en Unibertsitatea.net.


Interésache pola canle: Euskara
2024-10-17 | UEU
Manex Agirre Arriolabengoa
"Os vascos temos moito que facer e empoderarnos"
"Escola de Empoderamiento para Euskaldunes. Organizouse en Vitoria-Gasteiz a escola "Traballos para deixar de ser unha oración subordinada" dentro da programación de Izaskun Arrue Kulturgunea (IAK) e coa colaboración de UEU. O dinamizador da escola é Manex Agirre... [+]

Ainhoa Lasa Agirre, consultora
"Os mozos queren falar de eúscaro"
Ainhoa Lasa Agirre (Lovaina, Flandria, 1976) é membro da cooperativa Emun. Nos cursos de verán da UEU, en xullo coñecémolo falando da educación sociolingüística. Leva unha ducia de anos realizando intervencións nas aulas dos mozos de 4º da ESO. Trátase de proxectos... [+]

Popuerza

Os domingos de setembro é costume subir a Ernio, bailar en Zelatun e comer chourizo morro, ou algo así. O peor tempo non fai falta xente. Este ano, cando os meus amigos se marchaban máis temperán e eu atrasábame, subía só, atopándome coas cuadrillas que baixaban. A... [+]


Anbroxi Burguburu. Un simple agricultor (din)
"Hai uns anos, Santa Grazirat era euskaldun a estas alturas"
É o libro de Txomin Peillen, Animismua Zuberoan (Haranburu, 1983). As súas historias trouxéronnos a Urdatx ou Santa Grazi. Entre outras, as historias do último oso falecido, xa que neste caso non se trata dunha historia. Na pousada do pobo pregúntannos, ensínannos unha... [+]

2024-10-15 | Sustatu
A Escola de Empoderamiento en Vitoria-Gasteiz, seguindo os exemplos do feminismo, para o eúscaro
Izaskun Arrue Kulturgunea de Vitoria-Gasteiz (IAK) e UEU porán en marcha a Escola de Empoderamiento para Euskaldunes, co obxectivo de empoderar aos vascos e vascas e, en consecuencia, transformar a sociedade. A charla de presentación será o 30 de outubro, a cargo de Garikoitz... [+]

2024-10-14 | Leire Ibar
O Euskalgintza de Vitoria-Gasteiz organizará un programa de todo o día o 19 de outubro
O 19 de xaneiro celebrarase na capital alavesa a iniciativa “Vitoria-Gasteiz, a cidade do eúscaro”. O programa das doce horas estará composto por diversas actividades que se realizarán en eúscaro. O obxectivo da iniciativa é que "o eúscaro sexa o protagonista" da ... [+]

Benvidos ás xornadas Euskararen Mundura
“Ser vasco é unha opción, pero hai que dar paso a esa opción”
Como necesita a acollida que facemos aos novos cidadáns vascos? Como coser alianzas para o proceso de normalización e revitalización do eúscaro? Nas xornadas Ongi etorri Euskararen Mundura de Vitoria-Gasteiz, organizadas polo Consello da Euskalgintza, abordáronse os retos... [+]

2024-10-11 | ARGIA
Os centros escolares de Hernani únense para impulsar o uso do eúscaro e a cultura vasca
Os centros educativos están preocupados porque nas súas escolas o uso do eúscaro e a transmisión da cultura vasca están a retardarse. Realizaron un proceso de reflexión dun ano e presentaron a plataforma Gu geok. Presentaron un decálogo para dar un salto nestes centros.

2024-10-11 | Cira Crespo
Ongi etorri Euskararen Mundura jardunaldiak
“Ederra litzateke euskaraz kalean ikastea”

Euskalgintzaren Kontseiluak antolatutako "Ongi etorri Euskararen Mundura" jardunaldiak izan dira Gasteizen ostegunean eta ostiralean. Egun bi bete-beteak,  eta mahai gainean Euskararen normalizazio prozesuan euskal herritar berriak integratzeari buruzko praktikak... [+]


2024-10-11 | Sustatu
Máis que nostalxia: Cando Son Goku empezou en eúscaro
A semana pasada cumpríronse 35 anos da primeira vez que Son Goku falou en eúscaro. O 4 de outubro de 1989 estreouse en ETB1 a emisión da Bóla do Dragón (que arrincou en Xapón en 1984) e realizarase un acto conmemorativo en San Sebastián o 20 de outubro, domingo, coa... [+]

2024-10-10 | Leire Ibar
Rexeitada a proposta de EH Bildu para analizar si respéctanse os dereitos lingüísticos na Administración de Xustiza
O PNV e o PSE aprobaron este xoves no Parlamento de Vitoria-Gasteiz unha emenda que pide "avanzar na euskaldunización da Xustiza", pero non propuxeron medidas concretas, segundo denunciou EH Bildu.

2024-10-09 | Ula Iruretagoiena
Territorio e arquitectura
Euskal Herria

Edurne Azkarate dixo no alto desde o micro do escenario que o cine vasco ten pouco eúscaro na celebración do Festival de Cine de San Sebastián. A frase retumba pola súa veracidade. Na escena da arquitectura pódese repetir o mesmo lema e estou seguro de que noutras tantas... [+]


2024-10-09 | Iñigo Satrustegi
Asociación Laba de Pamplona
Estalou a erupción en euskera
Cafetarías, puntos de encontro, centros culturais, tendas e moito máis, sempre tendo como eixo o eúscaro. Laba de Pamplona/Iruña abriu as súas portas hai dous anos e medio. Pero o proxecto vén por diante. Fixemos un repaso retrospectivo cos compañeiros: retos e problemas... [+]

Eguneraketa berriak daude