Googleren eta Facebooken adimen artifizialeko tresnak entrenatzeko erabilitako datu-multzoa aztertu du The Washington Postek, Allen Institute for AI-rekin elkarlanean. Internetetik hartutako milioika edukiren artean gorroto-diskurtsoak bultzatzen dituzten webguneetakoak ere aurkitu dituzte, eta ikusi dute horietako askok iragazkiak gainditzea lortzen dutela.
Manuela Battaglini adituak Eusko Legebiltzarrean egindako agerraldian esan zuen bezala, ChatGPT bezalako txatbotek ez dute ulertzen zer esaten duten, baina pertsonek sortutako testu kantitate izugarriekin elikatuta daudenez, egiantzekoak diruditen esaldiak osatzeko gai dira, nahiz eta askotan akatsak egin eta gezurrak esan.
Adimen artifizialeko tresnak garatzen dituzten enpresek gero eta joera handiagoa dute erabilitako testuen iturburuak ezkutuan gordetzeko. Adibidez, OpenAIk ez du publiko egin zer erabili duen ChatGPTren azken bertsioa sortzeko. Kaxa beltz horien barruan zer dagoen argitzeko asmoz, The Washington Postek Googleren C4 datu-multzoa aztertu du.
Googleren C4 bilduma erraldoia 15 milioi webgunetatik hartutako testuz osatua dago. Datu-multzoa osatzeko erabilitako webguneen artean denetik aurkitu dute: negozio eta enpresen webguneak (%16), teknologiari buruzkoak (%15), hedabideenak (%13), artea eta entretenimenduak (%11), zientzia eta osasuna (%9), eta abar. Hartutako eduki kopuruaren sailkapenaren lehen hiru postuetan daude mundu osoko patenteen testuak biltzen dituen patents.google.com, Wikipedia entziklopedia librea eta harpidetza bidezko scribd.com liburutegia.
Zerrendan daude baita ere, eskuin muturreko albiste eta iritziak zabaltzen dituzten webguneak, arrazakeria edo transfobia bultzatzen dutenak, immigrazioaren aurkakoak, konspirazio teoriak zabaltzen dituztenak… Kasu batzuetan, posizio oso nabarmenetan gainera: AEBetako eskuin muturreko Breitbart webgunea 159.a da, adibidez. Googlek adimen artifiziala elikatzeko erabili aurretik hainbat iragazki aplikatzen dizkio saretik lortutako testu-sortari, baina hala ere, eduki horietako askok babes neurriak gainditzea lortzen dute, Washington Postek egiaztatu ahal izan duenez. Horrelako edukiekin entrenatutako adimen artifizialeko tresnak jarrera baztertzaile eta gorrotozkoak erreproduzituko ditu.
C4 datu-sorta erabili zuen Googlek bere adimen artifizialeko T5 eredua entrenatzeko . T5 ez da multinazionalaren Bard txatbotean erabiltzen, baina Bloomberg-ek argitaratu duenez, Barden inguruan ere zalantza etikoak agertu dituzte Googleren langileek, “gezurti patologiko” bat delako eta bere gomendioekin pertsonen bizitzak arriskuan jarri ditzakeelako. Facebookek ere erabili zuen C4 datu-sortaren zati bat, 2023ko otsailean ChatGPTri aurre egiteko asmoz aurkeztu zuten LLaMa hizkuntza-eredu handia entrenatzeko.
The Washington Postek aukera ematen du C4 datu-multzo elikatzeko erabilitako webguneen URLen zerrendan bilaketak egiteko. Allen Institutuaren webgunean testuetan bilaketa aurreratuak ere egin daitezke.
Tresna horiek erabiliz, egiaztatu daiteke Euskal Herriko hainbat webgunetatik ere hartu dituztela edukiak C4 datu-multzoa osatzeko. Batzuk aipatzeagatik, euskarazko Wikipedia, hainbat hedabideren albisteak, besteak beste ARGIA, Berria eta Naizenak, Euskal Herriko erakunde publiko askoren webguneak…
Fedibertsoko parte den mastodon.eus sare sozial librea ere badago zerrendan. Bertol erabiltzaileak galdetzen duen bezala “eta hau guztia legezkoa da?”.
Albistearen irudi nagusia: Mike MacKenzie (CC BY 2.0)