argia.eus
INPRIMATU
Google Translate: 24 idiomes més amb un nou model
  • Google Translate incorpora 24 idiomes al seu sistema automàtic de traducció. Hi ha llengües com el guaraní, l'aimara, el bambara o l'ewe de Ghana que el colonialisme va aixafar però no va matar.
Sustatu 2022ko maiatzaren 16a

Tècnicament ha marcat una nova fita amb aquest increment de Google, tal com s'ha explicat en aquesta nota. La capacitat de traducció d'aquestes llengües s'ha aconseguit a través de l'ús de Zero-Shot Machine Translation, basat en la intel·ligència artificial, i es caracteritza pel funcionament d'aquest sistema sense l'ús de corpus bilingües. És a dir, Google (diuen) ha aconseguit construir el model d'aquest idioma usant només textos aymara i habilitar-lo per a traduccions.

Ens ha semblat que aquest model té relació amb el treball i la tesi de l'informàtic basc Mikel Artetxe (Traducció automàtica no supervisada), on va desenvolupar un procediment de traducció automàtica per a les llengües minoritàries sense corpus bilingües. Artetxe treballa ara en la branca d'intel·ligència artificial de Facebook-Meta, no en Google.

Hem provat, traduint un text de l'anunci de Google al llenguatge aimara, i després al basc. Aquí tens les imatges de pantalla:

Una frase ha quedat una mica especial en basca, "si vols ajudar a ajudar a la nit en la pròxima actualització...", però, en fi, tant.

Hem vist que els nous idiomes ja estan en https://translate.google.es/, però no en la finestra inferior de Translate integrada en la pàgina principal del cercador. Els idiomes afegits són:

Aquí estan els nous idiomes que ha afegit Google Translate:

  • Assam, 25 milions de parlants a l'Índia.
  • Aimara, 2 milions de parlants, principalment a Bolívia.
  • Bambara, 14 milions de parlants a Mali i el Senegal.
  • Bhojpuri, 50 milions de parlants a l'Índia, Nepal i la diàspora.
  • Maldivera o Dhivehi, 300.000 parlants, llengua nacional de les Maldives.
  • Dogri, 3 milions de parlants a l'Índia i el Pakistan.
  • Ewe, 7 milions de parlants a Togo i Ghana.
  • Guaraní, 7 milions de parlants, llengua indígena i nacional de Paraguai.
  • Ilocano, 10 milions de parlants en el nord de Filipines.
  • Konkanera, 2 milions de parlants, a l'Índia, als voltants de Goa.
  • La criatura criolla, llengua principal de Sierra Leone.
  • Kurduera (variant de Sorani), 15 milions de parlants a l'Iraq i l'Iran.
  • Lingal, 45 milions de parlants, llengua principal del Congo, que parla també als països veïns.
  • Luganda, 20 milions de parlants a Uganda i Ruanda.
  • L'amor, 34 milions de parlants a l'Índia.
  • Manipurera, 2 milions de parlants a l'Índia.
  • Mizo, 830.000 parlants a l'Índia.
  • 37 milions de parlants a Etiòpia i Kenya.
  • Quítxua, 10 milions de parlants al Perú, als Andes en general i en la diàspora.
  • Sanscrítico, antiga llengua clàssica de l'Índia (el seu "llatí"), que pot contenir fins a 20.000 parlants.
  • Sepedi o pediera, 14 milions de parlants a Sud-àfrica.
  • Tigrinya, 8 milions de parlants a Eritrea i Etiòpia.
  • Tsonga, 7 milions de parlants a Sud-àfrica i països veïns.
  • Twi, 11 milions de parlants a Ghana.

El basc porta 12 anys en Google Translate, que va ser afegit en 2010. Llavors tenia una qualitat raonable, però després ha millorat molt, però creiem que eines com Elia.eus o Batua.eus, creades a Euskal Herria, són millors que Google.