argia.eus
INPRIMATU
Umap morre, acabouse o almacén en eúscaro de Twitter
  • O almacén da actividade en eúscaro de Umap Twitter comezou a funcionar en outubro de 2010 da man de CodeSyntax. En 2023 morre. Elon Muskiz asasinou a pesar de que non sabe o que somos e quen somos. Umap serviu de base para diversos servizos, realizou durante varios anos rankings e coleccións de txiolaris, medios de comunicación e traoles en eúscaro; serviu para realizar estudos sociolingüísticos, serviu para engadir automaticamente noticias comentadas en Sustatu, serviu de base para identificar os vídeos máis compartidos en eúscaro... Todos estes servizos morreron tamén.
Sustatu 2023ko ekainaren 30

O buscador de paxaros Umap comezou a súa andaina en outubro de 2010. Traballou durante doce anos e medio e foi o grupo de piollos que reuniu 77.132.,076. Algo menos da metade, 28.618.588 en eúscaro, de 27.019 usuarios.

Arquivo da entrevista en eúscaro

Os tweets en eúscaro que ano tras ano detectamos e analizado foron:

Ano Cantidade

----------------------

2007 -> 1.375

2008 -> 2.816

2009 -> 20.009

2010> 51.105

2011 -> 181.516

2012> 849.758

2013 -> 2.328.085

2014 -> 2.712.375

2015> 2.809.217

2016 -> 2.791.263

2017> 2.761.630

2018> 2.525.394

2019 -> 2.536.645

2020 -> 3.111.935

2021 -> 2.727.630

2022 -> 2.280.831

2023 -> 927.057

Aínda que Umap empezo en 2010, na base de datos tamén hai tweets anteriores. Como? cando se detecta un novo usuario, un método para decidir si era euskaldun ou non, consistiu en pedir 200 tweets atrás e comprobar si neles había euskera. O historial dalgúns usuarios dos primeiros anos xa chegaba así, neses 200 tweets. Estas recollidas e clasificacións foron sempre programadas.

Cada ano analizamos o uso do eúscaro con estes datos, publicando informes. Realizouse o reconto de traoles, o reconto e análise das URL máis compartidas (análises de fontes).

Seguimento do intercambio de información e noticias

Da análise de enlácelos ou URL despregados en Txio, inventouse un novo servizo: o informativo automático, que se integrou en Sustatun en agosto de 2012, e que posteriormente foi renombrado da Rede. Isto funcionaba así:

  • Mediante umap, había enlaces nos txios en eúscaro, analizar enlaces.
  • Adquirir parte do seu contido, o que se chama un snippet cunha captura de imaxes, e iso tamén se decidiu en eúscaro.
  • Cando un determinado enlace supere un número mínimo de tweets e un algoritmo de importancia, publicar automaticamente en Sustatun.
  • Entre eles, algúns, revisados polo editor, levar a superficie.

Así, analizáronse 7.334.784 enlaces, baseados en 24.901.637 tweets en eúscaro. Delas, 32.247 noticias pasaron a publicar a Sustatu, ano tras ano da seguinte maneira:

Ano Cantidade

---------------------

2012> 1.135

2013 -> 4.155

2014 -> 3.836

2015 -> 3.962

2016 -> 4.275

2017> 4.119

2018 -> 2.904

2019 -> 1.792

2020 -> 2.704

2022 -> 1.344

2021 -> 1.754

2023 -> 267

Cada unha destas noticias ten engadidas como se comentaron os usuarios para ver as cadeas de tweets.

Toda unha era de vídeos compartidos

Como ampliación do servizo anterior, con Umap tamén vimos que os vídeos estaban cada vez máis presentes nos contidos compartidos, en enlácelos. Así, comezamos a realizar unha recollida no vídeo de Youtube (xa que esta plataforma tiña un API axeitado, a diferenza doutros) e en xaneiro de 2017 lanzamos o servizo TBX.eus.

Así se detectaron e analizaron case 50.000 vídeos, determinando que tiñan contido en eúscaro, que logo superaban uns parámetros de supervisión / compartición que ían ao arquivo e que se organizaban segundo o ranking dos máis inspeccionados. Hai 36.727 vídeos así gardados no arquivo de TBX entre 2017 e 2023. Por exemplo, en xullo do ano pasado, que foi o máis visto en eúscaro en Youtube? Leste.

Coa parada de Umap en marzo de 2023 tamén se detivo, o que pasa é que seguiu cargando automaticamente o contido dalgunhas canles de Youtube... Pero sen complementos sociais, sen datos compartidos, teremos que repensar tamén a continuidade deste servizo.

Seguimento

A parada produciuse o 14 de marzo de 2023, cando Twitter pechou os seus APIs abertas. Os últimos trucos interesantes do día están conxelados na portada de Umap ese día.

Desde entón traballamos en CodeSyntax en varios estudos técnicos. As novas condicións API, de pago, merecían esforzo? Chegamos a unha conclusión negativa. Nas novas condicións da API de Twitter, necesitariamos unha conta Prol para poder seguir facendo o que fixemos todos os días durante 12 anos, cunha tarifa de 5.000 dólares mensuais.

Si por razóns académicas, por exemplo, xustificásemos unha petición para volver traballar, iso tamén sería inútil. En xuño reducíronse os APIs académicos e Twitter ofreceu o mesmo aos científicos sociais e recolectores de datos que o usaban: Tarifa 5.000 dólares.

70 millóns de tweets reunidos, 33.000 noticias en eúscaro comentadas, 36.000 vídeos clasificados por ranking e datas... Merece a pena gardalas? Si, sen dúbida, ben como base de datos grosa para arquivos futuros, ben como ferramenta de consulta, aínda que Umap e TBX.eus pecháronse ou conxelado, comprometémonos/comprometémosnos a gardar o seu contido. En diante tentaremos organizalo ben.

Mentres tanto, no caso de Sustatu, Twitter dificultou aínda máis as cousas desde a parada de marzo: nas últimas semanas desactivaron o sistema de envío automático de tweets e a forma de login para os usuarios. Tamén teremos que resolvelas.

Twitter, foi bonito durante todo o tempo e non foi un traballo inútil. Don Elon, vaiche á porra.