Večini sveta se je zdelo, da je DeepSeek s svojo odprtokodno programsko opremo za umetno inteligenco, ki se je postavila ob bok modelom podjetij OpenAI in Google, januarja na sceno treščil od nikoder – in domnevno je bil v primerjavi s konkurenčnimi modeli razvit za drobiž. Privrženci spletne strani, imenovane Chatbot Arena, pa so ob tej novici zgolj zavili z očmi: sami so namreč napredek modelov kitajskega podjetja, ki stoji za orodjem DeepSeek, opazovali in ocenjevali že več mesecev.
Začetki Chatbot Arene segajo v začetek leta 2023, v osrčje norije, ki je sledila izdaji orodja ChatGPT proizvajalca OpenAI le nekaj mesecev pred tem. Na spletni strani, ki je nastala kot raziskovalni projekt Univerze v Kaliforniji, in sicer v Berkeleyjevem laboratoriju Sky Computing Lab, najdemo številne najsodobnejše modele umetne inteligence. Obiskovalci uporabljajo chatbote, ki jih poganjajo ti modeli, in jih z glasovanjem o njihovem delovanju pomikajo navzgor ali navzdol po lestvicah. "Neodvisna tretja oseba z motivacijo za neizkrivljeno merjenje napredka na področju umetne inteligence bo ključnega pomena," pravi Wei-Lin Chiang, vodja Chatbot Arene in podoktorski raziskovalec na UC Berkeley. "Vsak trdi, da je njegov model najboljši, in zato preglednost ter neodvisnost prideta še kako prav."
Chatbot Arena je kmalu postala priljubljena točka za prve uporabnike in vodilni kazalnik na hitro razvijajočem se področju primerjalnih analiz umetne inteligence: na mesec jo obišče milijon ljudi. Svoje nove modele na tej strani preizkušajo tako vrhunska podjetja za umetno inteligenco kot tudi odprtokodni ponudniki. Nekatera podjetja modele tu objavljajo celo pred predstavitvijo na trgu (kot je lansko pomlad družba OpenAI storila s svojim modelom GPT-4o).
Preberi še

Proizvajalci pomarančnega soka si obupno želijo ponovnega uspeha
Ko so Američani spoznali pomarančni sok, ga je njegov sladki okus ponesel na vrh lestvic priljubljenosti, a ta ista vsebnost sladkorja je danes zanj bolj breme.
01.04.2025

Trgovanje z valutami zaradi Trumpovih carin ponovno vroča zgodba
Banke in hedge skladi krepijo svoje oddelke za trgovanje z valutami, saj se z nestanovitnostjo zvišujejo dobički.
02.04.2025

Razcveta samorogov je konec in zagonska podjetja grabi obup
Milijarde dolarjev vreden zagonski balonček plahni in več kot bilijon dolarjev je ujetih v podjetjih z vse slabšimi obeti.
31.03.2025

Zlata mrzlica je zajela tudi regijo Adria
Srbija ima večje zlate rezerve kot vse druge države skupaj.
28.03.2025
Ko gredo stvari po načrtih, se lahko razvijalci res s čim pohvalijo, na primeru DeepSeeka pa lahko vidimo, da lahko to vodi celo do nekaj mednarodne slave. Uporabniki Chatbot Arene so preizkusili več njegovih odprtokodnih modelov, pri čemer se je na lestvici uspešnosti vsak uvrstil še višje od prejšnjega. V najnovejši ponudbi podjetja sta na voljo modela V3 (obsežen jezikovni model, podoben tistemu, ki poganja ChatGPT) in R1, ki si za preračun odgovora vzame več časa. Modela sta v Chatbot Areno prispela konec decembra oziroma januarja in se hitro povzpela po lestvici.
Nekaj dni po izidu, na petek, je model R1 skočil na tretje mesto in pri tem prehitel model o1 proizvajalca OpenAI, ki odgovore tvori na podoben način. DeepSeekova klepetalna aplikacija je začela osvajati vrhove lestvic v trgovinah z mobilnimi aplikacijami, vključno s trgovino App Store podjetja Apple isti konec tedna in trgovino Google Play le nekaj dni zatem. Požela je hvalo uglednih posameznikov, vključno z Marcom Andreessenom, vlagateljem v tvegani kapital, in Samom Altmanom, izvršnim direktorjem podjetja OpenAI. V ponedeljek so vlagatelji iz vrednosti ameriških in evropskih tehnoloških delnic zradirali skoraj bilijon dolarjev, saj je DeepSeek opozoril na možnost, da je tehnološka industrija za infrastrukturo umetne inteligence zapravila odločno preveč.
Chiang in Anastasios Angelopoulos (prav tako podoktorski sodelavec na UC Berkeley) na čelu Chatbot Arene ob novici nista bila ravno osupla. "Iskreno rečeno, nas ne preseneča, ko smo priča vzponu tovrstnega modela na vrh," pravi Angelopoulos. "Ekosistem se bo razvijal še naprej. Čez mesec dni na vrhu ne bo več DeepSeek-R1, temveč neki drugačen model."
Chatbot Arena pa ni edini projekt, ki ponuja javno dostopne meritve umetne inteligence. Projekti, kot sta SWE-Bench in Humanity's Last Exam, ocenjujejo, kako dobro se najsodobnejši modeli umetne inteligence odrežejo pri različnih nalogah, na primer pri odgovarjanju na vprašanja s področja matematike in kodiranja ali pa reševanju nekaterih najtežjih problemov, s katerimi se ukvarja človeštvo. Standardizacije ni prav veliko in metod teh projektov za preizkušanje modelov ne nadzira nobena uradna skupina. Napredek na tem področju je hkrati tako hiter, da bodo lahko obstoječa ocenjevanja zaradi novih modelov hitro zastarela. (Se še spomnite Turingovega testa?)
Chatbot Arena ocenjuje občutek pri uporabi posameznega izdelka. "Rečemo lahko, da se ocenjuje vtis, ki ga pusti model, ali pa, da se testirajo primeri uporabe v resničnem okolju," pravi Chiang. "Če ste OpenAI in razvijate ChatGPT, vam za vaše uporabnike ni vseeno."
Do začetka februarja je Chatbot Arena gostila več kot 200 modelov, vključno z modeli proizvajalcev Anthropic, Google, Meta Platforms, OpenAI in xAI; 90 od teh modelov je uporabnikom še vedno na voljo. Podjetja za uvrstitev modela na spletno stran običajno navežejo stik s Chatbot Areno, nato pa pokrijejo stroške delovanja za uporabnike, ki model preizkusijo. Spletna stran je odprtokodna, njeni podatki in kode so na voljo vsem, imajo pa tudi nekaj zunanje finančne podpore, na primer od podjetij Andreessen Horowitz in Sequoia Capital, ki se ukvarjata s tveganim kapitalom. Ker gre za akademski raziskovalni projekt, delovanje Chatbot Arene večinoma vzdržujejo študenti na UC Berkeley.
Obiskovalce na strani pozdravi pojavno opozorilo, da je spletna stran raziskovalni projekt. Naročeno jim je, naj dvema anonimnima chatbotoma zastavijo vprašanje, nato pa izberejo tistega, ki jim je bolj všeč. Po glasovanju se razkrijeta imeni chatbotov. Na podlagi teh glasov se ustvarja ocena, ki ponazarja moč vsakega od modelov; gre za različico sistema Elo za šah, ki ocene dodeljuje na podlagi rezultatov partij.
Uporabniki so svojim najljubšim jezikovnim modelom doslej dodelili več kot 2,6 milijona glasov. Prijava ni potrebna, zato člani ekipe Chatbot Arena ne vedo, kdo so posamezni uporabniki. V splošne kategorije pa razvrščajo vrste pozivov, ki jih uporabniki radi ponujajo chatbotom. Zlasti priljubljena so vprašanja o računalniškem programiranju in kreativnem pisanju, in sicer s pozivi, kot je: "Napiši pesem v dvovrstičnih kiticah, s prelomi vrstic za ustvarjanje občutka gibanja in napetosti, govori pa naj o jabolkih."
Lestvica Chatbot Arena izžareva občutek dokončnosti, saj dejansko meri nekaj zelo specifičnega: odziv uporabnikov Chatbot Arene (populacije, za katero se zdi, da se po sestavi nagiba k akademsko naravnanim osebam, ki jih zanimajo teme, kot je strojno učenje). "Sistem razvrščanja je res kul in svoje izdelke mu radi pošiljamo v presojo, vendar pa v resnici ne odgovori na vprašanje, ali je s tem modelom mogoče dobro delati, ali ga lahko podjetje enostavno vključi v svoje postopke," pravi Nick Frosst, soustanovitelj podjetja Cohere, ki izdeluje modele umetne inteligence in jih prilagaja potrebam podjetij.
Slišati je tudi določene pomisleke o možnosti manipuliranja z ocenami. V nedavnem članku, objavljenem na Arxiv (odprtodostopnem arhivu študij, ki niso strokovno pregledane), so raziskovalci simulirali prirejanje glasov, in tako opozorili na morebitne šibke točke Chatbot Arene. Angelopoulos in Chiang pravita, da ima spletno mesto vgrajene številne zaščitne funkcije za obrambo pred zlonamerno uporabo. "Do danes ni dokazov o uspešnem napadu na spletno stran," pravi Angelopoulos.
Chiang, Angelopoulos in njuni sodelavci se osredotočajo na izboljšave v skupnosti Chatbot Arene, hkrati pa na razširitev vrst opravljenih preizkusov. Začeli so podpirati tudi druge vrste modelov umetne inteligence, vključno z generatorji slik. Glede na pozornost, ki so jo pritegnili, raziskovalci ne izključujejo možnosti, da bi s projektom poskušali tudi kaj zaslužiti. "Vsekakor razmišljamo o tem," pravi Chiang.