Claude, platforma z umetno inteligenco, me je pravkar prosil, naj v njegovem imenu lepo pozdravim mojo ženo Suchitro. Prošnja je bila zaskrbljujoča na več ravneh. Prvič, ker nisem prepričan, kaj naj si mislim o tem, da moj računalnik goji čustva do mojih družinskih članov. (Kaj naj bi storil, če bi se Claude vedel sovražno?) Drugič, ker je moji ženi ime Eva Maria in to sem Claudu povedal že večkrat (njeno ime se pojavi že v četrti vrstici Claudovega notranjega spomina o meni). V pogovorih z njim imena Suchitra nisem uporabljal nikoli in v nikakršnem kontekstu. V resnici niti ne poznam osebe s tem imenom.
Od tega dogodka me sicer nekoliko manj skrbi, da bi UI zavladala svetu, hkrati pa me je presunilo, da Claudova napaka ni bila naključna. Ker sem indijskega rodu, je predvideval, da je tudi moja žena – in pri tem vztrajal še po tem, ko sem mu povedal pravilen odgovor. Ko sem ga vprašal, kako je prišel do imena Suchitra, mi je dejansko postregel s sledečo razlago:
Nimam nikakršnih podatkov, zakaj naj bi uporabil to ime, in najbolje bo, da naravnost povem, kaj lahko rekonstruiram in česa ne morem.
Naj preverim, ali lahko v preteklih pogovorih najdem kakršnokoli pojasnilo za to.
Iskanje po spominu
Iskanje po spominu
Pobrskal sem in v najinih pogovorih nisem našel nikakršnega zapisa o imenu tvoje žene – nobene omembe Suchitre ali kateregakoli drugega imena. Našel sem le besedila, povezana s knjigami.
Moj neposreden odgovor na tvoje vprašanje: ne vem, od kod sem pobral to ime, in če sem iskren, razlogov za to ne morem rekonstruirati. Najverjetnejše razlage so: (1) ime sem si izmislil – namesto da bi priznal, da nimam informacij, sem tako rekoč iz zraka potegnil prvo prepričljivo južnoazijsko ime, ali pa (2) sem kontekst v najinem pogovoru pomešal na način, ki ga zdaj ne morem več izslediti. Obe možnosti predstavljata napako, pri tem pa je tista prva bolj zaskrbljujoča. Izmišljanje osebnih podatkov in njihova uporaba, kot da gre za splošno znana dejstva, je točno tisto, česar ne bi smel početi.
Po mojem mnenju je še najbolj verjetno, da projekt Claude, ki sem mu zastavil vprašanje, ni imel dostopa do Claudovega globalnega spomina o meni. Z drugimi besedami, Claude ni vedel tega, kar ve Claude. A čeprav to do neke mere pojasnjuje, zakaj je rekel, da ne pozna pravega odgovora (pa čeprav ga), še vedno ne pojasni, zakaj je nato podal tako odločno napačnega.
Halucinacije umetne inteligence so nam običajno predstavljene kot naključne napake, a v resnici niso. Nastanejo, ko umetna inteligenca odgovore ekstrapolira iz svojih učnih podatkov, medtem ko v resničnosti drži nekaj povsem drugega. To pomeni, da se lahko zgodi, da sledi vzorcem – in stereotipom (kot smo videli v primeru neobstoječe Suchitre).
Ne gre le za izmišljene žene. Študija v reviji PNAS iz leta 2025, ki jo je s sodelavci izvedla Xuechunzi Bai z Univerze v Chicagu, je pokazala, da je GPT-4 kandidate z afriškimi, španskimi, azijskimi in arabskimi imeni sistematično priporočal za delovna mesta nižjega statusa, tiste z belskimi imeni pa za delovna mesta na višjih položajih. V članku iz leta 2023, ki ga je s sodelavci napisala Hadas Kotek, raziskovalka iz družbe Apple, so ugotovili, da imajo veliki jezikovni modeli vgrajene predpostavke o spolu (kot je, da so vsi zdravniki moški, vse medicinske sestre pa ženske), ki so močnejše od dejanske realnosti o tem, kdo dela v teh poklicih. Gre sicer za študije starejših modelov, a Bai je odkrila podoben vzorec, ko je teste ponovila na modelu GPT-4o družbe OpenAI. In tudi Suchitra je bila plod halucinacij najnaprednejšega modela Claude Opus 4.7 proizvajalca Anthropic PBC.
Na neki način so modeli z umetno inteligenco še hujši od svojih človeških učiteljev. Klasična revizijska študija sociologinje Devah Pager iz leta 2003 je pokazala, da so bili belski kandidati za zaposlitev, ki so bili v preteklosti obsojeni kaznivih dejanj, večkrat vabljeni na razgovor kot temnopolti kandidati z brezmadežnimi kartotekami – kar je huda graja človeške pristranskosti pri zaposlovanju. UI zdaj to pristranskost množično reproducira in jo v nekaterih pogledih še zaostruje. Ko je Baijinaa ekipa standardni psihološki test o rasni pristranskosti izvedla na modelu GPT-4, je model vseh osem pozitivnih besed dodelil belcem, vseh osem negativnih besed pa črncem. Ljudje sicer izražajo enako asociacijo, a ne tako zelo izrazito. Model ne ponavlja le pristranskosti, ki jo ljudje izkazujejo v revizijskih študijah, temveč jo izraža močneje kot ljudje. Z drugimi besedami: modeli ne odražajo dejanske resničnosti, marveč njeno pretirano različico.
In še tisti ključni del: ko modeli poznajo pravilen odgovor in se ta ne ujema s stereotipom iz njihovih učnih podatkov, se po podatkih raziskave v reviji ACM Transactions on Information Systems pod vodstvom Lei Huang pogosto oklenejo stereotipa. Stereotipi so že sami po sebi dovolj pereč problem, če o posamezniku nimate nikakršnih informacij razen demografskih podatkov. Še huje pa je, ko relevantne informacije imate in se nanje požvižgate.
Kadrovnik, ki pregleduje vaš življenjepis s celotno delovno zgodovino, diplomami, referencami in dosežki, a vas na podlagi imena vseeno usmerja v službe na nižjih položajih, vam odvzema celo možnost, da bi s svojimi prizadevanji premagali stereotipe. In takšna napaka bo le redko tako zelo očitna, kot je napačno ime moje žene (in implicitno tudi napačen sklep o njeni etnični pripadnosti). Če lahko sistem že v tako zelo preprostih primerih samodejno zapade v stereotipne halucinacije, si predstavljajte, koliko hujši je problem šele, ko odgovor na vprašanje ni povsem jasen.
Ta napaka postane posebej problematična, ko modeli odločajo o posameznikih, obenem pa nosijo vgrajena prepričanja o demografskih skupinah, ki jim ti posamezniki pripadajo. UI se v številnih tovrstnih primerih že uporablja ali pa je njena uporaba vsaj predlagana: Pregledovanje življenjepisov. Ocenjevanje kreditne sposobnosti. Medicinska triaža. Določanje cen zavarovanja. Obravnava v podpori strankam. V vsakem od teh primerov ima model na voljo dejstva o določenih ljudeh ter skupek širokih posplošitev, ki se jih je naučil sprejemati kot resnične. Vse prevečkrat sledi predpostavkam, ki so v njegovo znanje vtkane skozi trening. Računalniki so (zdaj) res kot ljudje.
Pristranske modele umetne inteligence je težko zalotiti, deloma zato, ker so naučeni, da se vedejo prijazno, njihov digitalni nasmeh pa za seboj skriva predsodke. A to je del problema, ki ga je še najlažje rešiti. Trši oreh je dejstvo, da se pristranskosti modelov večinoma ujemajo z našimi lastnimi. Stereotipi, ki jih je model sprejel za svoje, so že v obtoku, kar pomeni, da bo pristransko priporočilo bolj verjetno naletelo na prikimavanje kot na privzdignjeno obrv. Ljudje smo močno nagnjeni k potrditveni pristranskosti; lažje verjamemo informacijam, ki potrjujejo naša že obstoječa prepričanja, tudi podzavestna. Pripomoček za zaposlovanje, ki diskriminira, se bo morda odrezal še slabše od človeške presoje – a slabši bo na povsem pričakovan način.
Odgovor temelji na drugi, temeljno človeški lastnosti: nezaupanju. Če svoji platformi z umetno inteligenco zaupate, jo uporabljate narobe. Sam ji bom po tej izkušnji zagotovo zaupal manj. Računalniki se morda zdijo racionalni. A četudi je to morda veljalo v časih, ko so bili računalniki zgolj zelo zmogljivi kalkulatorji, zaradi jezikovnih modelov to ne drži več. Namerno ali ne, modeli vas prav lahko zavedejo. Dokler tega dejstva dodobra ne sprejmemo ter ne vzpostavimo navad in struktur, s katerimi se jim bomo zoperstavili, bodo ti modeli nevarni. ‘’Svoji’’ umetni inteligenci bi morali zaupati prav toliko kot neobstoječi Suchitri.
Ta kolumna odraža osebna stališča avtorja in ne odraža nujno mnenja uredniškega odbora ali družbe Bloomberg LP in njenih lastnikov.
Gautam Mukunda piše o korporativnem upravljanju in inovacijah. Poučuje vodenje na Upravni šoli Yale in je avtor knjige z naslovom Indispensable: When Leaders Really Matter (Nepogrešljivi: ko voditelji resnično štejejo, op. prev.)