V majhni vasi tri ure jugozahodno od indijskega mesta Bangalore, ki jo obdajajo riževa in arašidova polja, Preethi P. v svojem enosobnem domu na mirni ulici v Agari sedi na stolčku ob šivalnem stroju. Običajno ure in ure popravlja ali šiva oblačila, za svoje delo pa v povprečju zasluži manj kot 1 dolar na dan. Danes prebira stavek v svojem maternem jeziku kannada v aplikaciji na telefonu. Na kratko se ustavi, nato pa prebere drugega.
Preethi, ki ima eno samo ime, kot je v regiji običajno, je med 70 delavci, ki jih je v Agari in sosednjih vaseh najelo zagonsko podjetje Karya za zbiranje besedilnih, glasovnih in slikovnih podatkov v indijskih maternih jezikih. Je del obsežne in nevidne svetovne delovne sile, ki deluje v državah, kot so Indija, Kenija in Filipini, ki zbira in označuje podatke, na katere se pri ustvarjanju ustreznih odzivov zanašajo klepetalni boti in virtualni pomočniki z umetno inteligenco. Za razliko od mnogih drugih podatkovnih izvajalcev pa Preethi za svoje delo dobi dobro plačilo, vsaj po lokalnih standardih.
Po treh dneh dela s Karyo je Preethi zaslužila 4.500 rupij (54 dolarjev), kar je več kot štirikrat toliko, kot 22-letna srednješolka običajno zasluži kot krojačica v celem mesecu. Denar je po njenih besedah zadostoval za odplačilo mesečnega obroka posojila, ki ga je najela za delno popravilo razpadajočih blatnih sten svojega doma, ki jih je skrbno prepleskala s pisanimi sariji. "Vse, kar potrebujem, sta telefon in internet."
Preberi še
Začetni vložki so glavna ovira pri implementaciji umetne inteligence
Samorazvijajoči se sistemi prinašajo velike prihranke v proizvodnih procesih.
03.11.2023
Bo Slovenija znala izkoristiti potenciale umetne inteligence?
Slovenska majhnost je lahko celo prednost pri razvoju tehnologij umetne inteligence.
20.10.2023
Rekordna investicija Microsofta v Avstraliji, tudi v kibernetsko varnost
Pri pobudi za kibernetsko varnost bo Microsoft sodeloval tudi z avstralsko obveščevalno agencijo Signals Directorate.
24.10.2023
Družba Karya je bila ustanovljena leta 2021, pred razmahom ChatGPT, vendar je letošnje navdušenje nad generativno umetno inteligenco le še povečalo nenasitno povpraševanje tehnoloških podjetij po podatkih. Samo v Indiji naj bi bilo do leta 2030 po podatkih Nasscoma, državnega trgovinskega organa za tehnološko industrijo, skoraj milijon delavcev za anotacijo podatkov. Karya se od drugih ponudnikov podatkov razlikuje po tem, da svojim izvajalcem - večinoma ženskam v podeželskih skupnostih - ponuja kar 20-krat višjo minimalno plačo, obljublja pa, da bodo pripravili kakovostnejše podatke v indijskem jeziku, za katere bodo tehnološka podjetja plačala več.
Družba Karya je bila ustanovljena leta 2021, pred razmahom ChatGPT.
"Velika tehnološka podjetja vsako leto porabijo milijarde dolarjev za zbiranje podatkov za usposabljanje za svoje modele umetne inteligence in strojnega učenja," je v intervjuju za Bloomberg povedal Manu Chopra, 27-letni računalniški inženir, izobražen na Stanfordu, ki stoji za zagonskim podjetjem. "Slabo plačilo za takšno delo je industrijska napaka."
Če so nizke plače napaka v industriji, je za to delno odgovorna tudi Silicijeva dolina. Tehnološka podjetja že leta prenašajo naloge, kot sta označevanje podatkov in moderiranje vsebine, na cenejše izvajalce v tujini. Zdaj pa se nekatera najbolj znana imena Silicijeve doline obračajo na podjetje Karya, da bi rešila enega največjih izzivov za svoje izdelke umetne inteligence: iskanje visokokakovostnih podatkov za izdelavo orodij, ki lahko bolje služijo milijardam potencialnih uporabnikov, ki ne govorijo angleško. Ta partnerstva bi lahko pomenila močan premik v ekonomiki podatkovne industrije in odnosu Silicijeve doline s ponudniki podatkov.
Družba Microsoft je družbo Karya uporabila za pridobivanje lokalnih govornih podatkov za svoje izdelke umetne inteligence. Fundacija Billa in Melinde Gates sodeluje s podjetjem Karya, da bi zmanjšala pristranskost glede na spol v podatkih, ki se uporabljajo za velike jezikovne modele, tehnologijo, na kateri temeljijo klepetalni boti z umetno inteligenco. Google, ki pripada družbi Alphabet, se pri zbiranju govornih podatkov v 85 indijskih okrožjih opira na družbo Karya in druge lokalne partnerje. Google načrtuje razširitev na vsako okrožje, da bi vključil večinski jezik ali narečje, ki ga govorijo, in zgradil generativni model umetne inteligence za 125 indijskih jezikov.
Številne storitve umetne inteligence so bile nesorazmerno razvite z internetnimi podatki v angleškem jeziku, kot so članki, knjige in objave v družbenih medijih. Zato ti modeli umetne inteligence slabo predstavljajo raznolikost jezikov uporabnikov interneta v drugih državah, ki do pametnih telefonov in aplikacij, ki jih poganja umetna inteligenca, dostopajo hitreje, kot se učijo angleščine. Skoraj milijarda takšnih potencialnih uporabnikov živi samo v Indiji, saj si vlada prizadeva za uvedbo orodij umetne inteligence na vseh področjih, od zdravstva do izobraževanja in finančnih storitev.
"Indija je prva nezahodna država, v kateri to počnemo, Bard pa testiramo v devetih indijskih jezikih," je dejal Manish Gupta, vodja Googlovih raziskav v Indiji, pri čemer je imel v mislih klepetalnega robota z umetno inteligenco podjetja. "V več kot 70 indijskih jezikih, ki jih govori več kot milijon ljudi, ni bilo nobenega digitalnega korpusa. Problem je tako velik."
Gupta je naštel seznam vprašanj, ki jih morajo podjetja za umetno inteligenco rešiti, da bi lahko služila indijskim uporabnikom interneta: Podatki, ki niso angleški, so zelo slabe kakovosti; v hindujščini in drugih indijskih jezikih ni skoraj nobenih podatkov o pogovorih; digitalizirane vsebine iz knjig in časopisov v indijskih jezikih pa so zelo omejene.
Pri uporabi južnoazijskih jezikov je bilo ugotovljeno, da si nekateri veliki jezikovni modeli izmišljujejo besede in imajo težave z osnovno slovnico. Obstajajo tudi pomisleki, da bi te storitve umetne inteligence lahko odražale bolj izkrivljen pogled na druge kulture. Ključnega pomena je široka zastopanost podatkov za usposabljanje, vključno z neangleškimi podatki, da sistemi umetne inteligence "ne bi utrjevali škodljivih stereotipov, ustvarjali sovražnega govora ali dajali napačnih informacij", je dejal Mehran Sahami, profesor na oddelku za računalništvo na univerzi Stanford.
"Tehnološka podjetja želijo podatke, naglas, vse," je dejal Chopra. "Če zakašljaš, želijo to v govoru, saj predstavlja naravni jezik."
Karya, zagonsko podjetje s socialnim učinkom s sedežem v Bangaloru, ki ga podpirajo nepovratna sredstva, lahko razširi nabor zastopanih jezikov, saj se posebej osredotoča na delavce na podeželskih območjih, ki sicer ne bi bili najeti za takšna opravila. Aplikacija podjetja Karya lahko deluje brez dostopa do interneta in zagotavlja glasovno podporo tistim z omejeno pismenostjo. V Indiji se je v aplikacijo prijavilo več kot 32 000 delavcev, ki so opravili 40 milijonov plačanih digitalnih nalog, kot so prepoznavanje slik, poravnava obrisov, anotacija videoposnetkov in anotacija govora.
Cilj Chopre ni le izboljšati ponudbo podatkov, temveč tudi boj proti revščini. Ustanovitelj podjetja Karya je odraščal v revni soseski Shakur Basti v zahodnem Delhiju. Dobil je štipendijo za študij na elitni šoli, kjer so ga ustrahovali, ker so mu sošolci rekli, da "smrdi po revščini". Chopra je pristal na Stanfordu, kjer je študiral računalništvo, vendar je ugotovil, da sovraži miselnost, s katero se je tam srečal, "kako zaslužiti milijardo dolarjev".
Po diplomi leta 2017 se je začel ukvarjati s svojim dolgoletnim interesom: z uporabo tehnologije za reševanje revščine. "Za vstop v srednji razred Indije je potrebnih le 1 500 dolarjev prihrankov," je dejal Chopra. "Revni pa lahko potrebujejo 200 let, da dosežejo to raven prihrankov."
Izvedel je, da je Microsoft za zbiranje govornih podatkov, čeprav slabe kakovosti, plačeval visoke zneske, s katerimi je oskrboval svoje sisteme in raziskave umetne inteligence. Leta 2017, na primer, čeprav je bilo na voljo 1 milijon ur digitaliziranih govornih podatkov v jeziku marathi, ki se govori v Mumbaju in njegovi zahodnoindijski regiji, je bilo za nakup na voljo le 165 ur. Od takrat je njegovo zagonsko podjetje za Microsoftove storitve umetne inteligence zbralo 10.000 ur govornih podatkov v jeziku marathi, ki so jih brali moški in ženske iz petih različnih regij.
"Tehnološka podjetja želijo podatke, naglas, vse," je dejal Chopra. "Če zakašljaš, želijo to v govoru, saj predstavlja naravni jezik."
Saikat Guha, raziskovalec pri Microsoft Research India, ki se ukvarja z etiko zbiranja podatkov, je dejal, da je vsebino Karya uporabilo tudi za projekt, ki pomaga osebam z okvaro vida pri iskanju zaposlitve. "Kakovost podatkov je veliko boljša kot pri katerem koli drugem viru, ki sem ga uporabil," je dejal Guha. "Če delavce pošteno plačujete, so bolj zavzeti za svoje delo, končni rezultat pa so boljši podatki."
Medtem več kot 30.000 mladih izobraženih žensk sodeluje z organizacijo Karya pri zbiranju "spolno namenskih" podatkovnih nizov, kot je na primer podatek, da zdravnik ali šef ni vedno moškega spola v šestih indijskih jezikih za fundacijo Bill & Melinda Gates. Gre za največje tovrstno prizadevanje v indijskih jezikih, ki bo služilo kot korpus za oblikovanje podatkovnih nizov za zmanjšanje predsodkov, povezanih s spolom v obsežnih jezikovnih modelih (LLMs).
Karya se ne ustavlja pri Indiji. Podjetje je sporočilo, da se pogovarja o prodaji svoje platforme kot storitve organizacijam v Afriki in Južni Ameriki, ki bodo opravljale podobno delo.
Ženske v Yelandurju, še eni vasi jugozahodno od Bangalora, za zdaj nestrpno čakajo na Karyin naslednji projekt: prepisovanje z zvočnega posnetka v kannadščini. Med njimi je 25-letna Shambhavi S., ki je s prejšnjo nalogo zaslužila nekaj tisoč rupij, medtem ko je delala v miru svojega doma, potem ko je skuhala večerjo za svojce in spravila otroke spat.
"Ne vem, kaj je umetna inteligenca, zanjo še nisem slišala," je dejala Shambhavi. "Želim si zaslužiti in izobraziti svoje otroke, da se jo bodo lahko naučili uporabljati."