Kontekst

Pred eksplozijo DeepSeeka je njegov prihod napovedala Chatbot Arena

Vir: Rachel Metz – Bloomberg Businessweek

10. aprila 2025, 15:00

Poznavalci področja umetne inteligence prepoznavajo najbolje delujoče modele

To počnejo s pomočjo sistemov množičnega ocenjevanja

Chatbot Arena je bila predstavljena v začetku leta 2023

Pred eksplozijo DeepSeeka je njegov prihod napovedala Chatbot Arena

Patrik Mollwing za Bloomberg Businessweek

Večini sveta se je zdelo, da je DeepSeek s svojo odprtokodno programsko opremo za umetno inteligenco, ki se je postavila ob bok modelom podjetij OpenAI in Google, januarja na sceno treščil od nikoder – in domnevno je bil v primerjavi s konkurenčnimi modeli razvit za drobiž. Privrženci spletne strani, imenovane Chatbot Arena, pa so ob tej novici zgolj zavili z očmi: sami so namreč napredek modelov kitajskega podjetja, ki stoji za orodjem DeepSeek, opazovali in ocenjevali že več mesecev.

Začetki Chatbot Arene segajo v začetek leta 2023, v osrčje norije, ki je sledila izdaji orodja ChatGPT proizvajalca OpenAI le nekaj mesecev pred tem. Na spletni strani, ki je nastala kot raziskovalni projekt Univerze v Kaliforniji, in sicer v Berkeleyjevem laboratoriju Sky Computing Lab, najdemo številne najsodobnejše modele umetne inteligence. Obiskovalci uporabljajo chatbote, ki jih poganjajo ti modeli, in jih z glasovanjem o njihovem delovanju pomikajo navzgor ali navzdol po lestvicah. "Neodvisna tretja oseba z motivacijo za neizkrivljeno merjenje napredka na področju umetne inteligence bo ključnega pomena," pravi Wei-Lin Chiang, vodja Chatbot Arene in podoktorski raziskovalec na UC Berkeley. "Vsak trdi, da je njegov model najboljši, in zato preglednost ter neodvisnost prideta še kako prav."

Vaše prijave ni bilo mogoče shraniti. Prosimo, poskusite ponovno.

Uspešno ste se prijavili.

Chatbot Arena je kmalu postala priljubljena točka za prve uporabnike in vodilni kazalnik na hitro razvijajočem se področju primerjalnih analiz umetne inteligence: na mesec jo obišče milijon ljudi. Svoje nove modele na tej strani preizkušajo tako vrhunska podjetja za umetno inteligenco kot tudi odprtokodni ponudniki. Nekatera podjetja modele tu objavljajo celo pred predstavitvijo na trgu (kot je lansko pomlad družba OpenAI storila s svojim modelom GPT-4o).

Preberi še

Kontekst

Proizvajalci pomarančnega soka si obupno želijo ponovnega uspeha

Ko so Američani spoznali pomarančni sok, ga je njegov sladki okus ponesel na vrh lestvic priljubljenosti, a ta ista vsebnost sladkorja je danes zanj bolj breme.

01.04.2025

Kontekst

Trgovanje z valutami zaradi Trumpovih carin ponovno vroča zgodba

Banke in hedge skladi krepijo svoje oddelke za trgovanje z valutami, saj se z nestanovitnostjo zvišujejo dobički.

02.04.2025

Kontekst

Razcveta samorogov je konec in zagonska podjetja grabi obup

Milijarde dolarjev vreden zagonski balonček plahni in več kot bilijon dolarjev je ujetih v podjetjih z vse slabšimi obeti.

31.03.2025

Kontekst

Zlata mrzlica je zajela tudi regijo Adria

Srbija ima večje zlate rezerve kot vse druge države skupaj.

28.03.2025

Avtor: Vladimir Nikoloski

Ko gredo stvari po načrtih, se lahko razvijalci res s čim pohvalijo, na primeru DeepSeeka pa lahko vidimo, da lahko to vodi celo do nekaj mednarodne slave. Uporabniki Chatbot Arene so preizkusili več njegovih odprtokodnih modelov, pri čemer se je na lestvici uspešnosti vsak uvrstil še višje od prejšnjega. V najnovejši ponudbi podjetja sta na voljo modela V3 (obsežen jezikovni model, podoben tistemu, ki poganja ChatGPT) in R1, ki si za preračun odgovora vzame več časa. Modela sta v Chatbot Areno prispela konec decembra oziroma januarja in se hitro povzpela po lestvici.

Nekaj dni po izidu, na petek, je model R1 skočil na tretje mesto in pri tem prehitel model o1 proizvajalca OpenAI, ki odgovore tvori na podoben način. DeepSeekova klepetalna aplikacija je začela osvajati vrhove lestvic v trgovinah z mobilnimi aplikacijami, vključno s trgovino App Store podjetja Apple isti konec tedna in trgovino Google Play le nekaj dni zatem. Požela je hvalo uglednih posameznikov, vključno z Marcom Andreessenom, vlagateljem v tvegani kapital, in Samom Altmanom, izvršnim direktorjem podjetja OpenAI. V ponedeljek so vlagatelji iz vrednosti ameriških in evropskih tehnoloških delnic zradirali skoraj bilijon dolarjev, saj je DeepSeek opozoril na možnost, da je tehnološka industrija za infrastrukturo umetne inteligence zapravila odločno preveč.

Chiang in Anastasios Angelopoulos (prav tako podoktorski sodelavec na UC Berkeley) na čelu Chatbot Arene ob novici nista bila ravno osupla. "Iskreno rečeno, nas ne preseneča, ko smo priča vzponu tovrstnega modela na vrh," pravi Angelopoulos. "Ekosistem se bo razvijal še naprej. Čez mesec dni na vrhu ne bo več DeepSeek-R1, temveč neki drugačen model."

Chatbot Arena pa ni edini projekt, ki ponuja javno dostopne meritve umetne inteligence. Projekti, kot sta SWE-Bench in Humanity's Last Exam, ocenjujejo, kako dobro se najsodobnejši modeli umetne inteligence odrežejo pri različnih nalogah, na primer pri odgovarjanju na vprašanja s področja matematike in kodiranja ali pa reševanju nekaterih najtežjih problemov, s katerimi se ukvarja človeštvo. Standardizacije ni prav veliko in metod teh projektov za preizkušanje modelov ne nadzira nobena uradna skupina. Napredek na tem področju je hkrati tako hiter, da bodo lahko obstoječa ocenjevanja zaradi novih modelov hitro zastarela. (Se še spomnite Turingovega testa?)

Chatbot Arena ocenjuje občutek pri uporabi posameznega izdelka. "Rečemo lahko, da se ocenjuje vtis, ki ga pusti model, ali pa, da se testirajo primeri uporabe v resničnem okolju," pravi Chiang. "Če ste OpenAI in razvijate ChatGPT, vam za vaše uporabnike ni vseeno."

Do začetka februarja je Chatbot Arena gostila več kot 200 modelov, vključno z modeli proizvajalcev Anthropic, Google, Meta Platforms, OpenAI in xAI; 90 od teh modelov je uporabnikom še vedno na voljo. Podjetja za uvrstitev modela na spletno stran običajno navežejo stik s Chatbot Areno, nato pa pokrijejo stroške delovanja za uporabnike, ki model preizkusijo. Spletna stran je odprtokodna, njeni podatki in kode so na voljo vsem, imajo pa tudi nekaj zunanje finančne podpore, na primer od podjetij Andreessen Horowitz in Sequoia Capital, ki se ukvarjata s tveganim kapitalom. Ker gre za akademski raziskovalni projekt, delovanje Chatbot Arene večinoma vzdržujejo študenti na UC Berkeley.

Obiskovalce na strani pozdravi pojavno opozorilo, da je spletna stran raziskovalni projekt. Naročeno jim je, naj dvema anonimnima chatbotoma zastavijo vprašanje, nato pa izberejo tistega, ki jim je bolj všeč. Po glasovanju se razkrijeta imeni chatbotov. Na podlagi teh glasov se ustvarja ocena, ki ponazarja moč vsakega od modelov; gre za različico sistema Elo za šah, ki ocene dodeljuje na podlagi rezultatov partij.

Uporabniki so svojim najljubšim jezikovnim modelom doslej dodelili več kot 2,6 milijona glasov. Prijava ni potrebna, zato člani ekipe Chatbot Arena ne vedo, kdo so posamezni uporabniki. V splošne kategorije pa razvrščajo vrste pozivov, ki jih uporabniki radi ponujajo chatbotom. Zlasti priljubljena so vprašanja o računalniškem programiranju in kreativnem pisanju, in sicer s pozivi, kot je: "Napiši pesem v dvovrstičnih kiticah, s prelomi vrstic za ustvarjanje občutka gibanja in napetosti, govori pa naj o jabolkih."

Lestvica Chatbot Arena izžareva občutek dokončnosti, saj dejansko meri nekaj zelo specifičnega: odziv uporabnikov Chatbot Arene (populacije, za katero se zdi, da se po sestavi nagiba k akademsko naravnanim osebam, ki jih zanimajo teme, kot je strojno učenje). "Sistem razvrščanja je res kul in svoje izdelke mu radi pošiljamo v presojo, vendar pa v resnici ne odgovori na vprašanje, ali je s tem modelom mogoče dobro delati, ali ga lahko podjetje enostavno vključi v svoje postopke," pravi Nick Frosst, soustanovitelj podjetja Cohere, ki izdeluje modele umetne inteligence in jih prilagaja potrebam podjetij.

Slišati je tudi določene pomisleke o možnosti manipuliranja z ocenami. V nedavnem članku, objavljenem na Arxiv (odprtodostopnem arhivu študij, ki niso strokovno pregledane), so raziskovalci simulirali prirejanje glasov, in tako opozorili na morebitne šibke točke Chatbot Arene. Angelopoulos in Chiang pravita, da ima spletno mesto vgrajene številne zaščitne funkcije za obrambo pred zlonamerno uporabo. "Do danes ni dokazov o uspešnem napadu na spletno stran," pravi Angelopoulos.

Chiang, Angelopoulos in njuni sodelavci se osredotočajo na izboljšave v skupnosti Chatbot Arene, hkrati pa na razširitev vrst opravljenih preizkusov. Začeli so podpirati tudi druge vrste modelov umetne inteligence, vključno z generatorji slik. Glede na pozornost, ki so jo pritegnili, raziskovalci ne izključujejo možnosti, da bi s projektom poskušali tudi kaj zaslužiti. "Vsekakor razmišljamo o tem," pravi Chiang.

Umetna inteligenca deepseek tehnologija Bloomberg Businessweek Adria

V središču

Orodja, ki prihranijo čas in zmanjšujejo stres: kaj uporabljajo menedžerji

Kako vodilni v panogi uporabljajo orodja, kot sta ChatGPT in Copilot, za učinkovitost.

20.09.2025

Avtor: Igor Petrovski

Kontekst

Zakaj Apple še vedno ni razvozlal umetne inteligence

Po besedah ljudi znotraj podjetja vztrajni neuspehi Appla pri umetni inteligenci ogrožajo vse – od prevlade iPhona do načrtov za robote in druge futuristične izdelke.

18.09.2025

Kontekst

Mogoče je internet vendarle mrtev

Profesor računalništva Phil Menczer razkriva nevarnosti botov umetne inteligence.

14.09.2025

Pod lupo

Umetna inteligenca: Ali Kitajska zmaguje?

Nenaden pojav podjetja DeepSeek ponazarja, kako industrija umetne inteligence v tej državi kljub prizadevanjem ZDA, da bi jo upočasnile, cveti.

20.08.2025

Vse novice iz rubrike Businessweek Adria

Businessweek Adria

Inspiracija

Skrivne evropske destinacije, kamor se umikajo bogataši – ena izmed njih je v Sloveniji

Kje se skrivajo bogataši?

06.10.2025

Inspiracija

Zakaj se odločiti za solo avanturo?

Takšna potovanja so postala simbol osebne svobode in čustvene zrelosti.

05.10.2025

Avtor: Tamara Kostić

Inspiracija

Katalonija med svetovno slavo in neuresničeno neodvisnostjo

Ulice Barcelone se še vedno spominjajo zastav in protestov za neodvisnost.

04.10.2025

Avtor: Rijad Durkić

Inspiracija

Pravi dolce far niente se skriva v peti Italije, Apuliji

Apulija deluje kot dobro varovana skrivnost, še zlasti jeseni, ko so ceste tihe, morje je še vedno toplo, glavni vali turistov pa so že pospravili kopalke in se vrnili na sever.

03.10.2025

Avtor: Marijana Avakumović

Razmišljanja

Evropo čaka 'ledena doba' z Aljaske

Evropa se zaradi trenj med Ameriko in Rusijo sooča z novimi geopolitičnimi izzivi.

02.10.2025

Avtor: Nenad Radičević

vse novice iz rubrike Businessweek Adria

Za nadaljevanje branja se registrirajte. Registrirajte se

Nadaljujte z branjem tako, da izberete eno od spodnjih možnosti.

BREZPLAČEN RAČUN

Preberite ta in še 1 članek (ne velja za PREMIUM članke)

Brezplačno glasilo

Registracija

Naročnina

Neomejen dostop do premium vsebin na vseh 5 portalih

Neomejen dostop do TV in video vsebin

Ekskluzivne zgodbe in analize iz Businessweek Adria

Poglej ponudbe

Aktivirajte še 1 brezplačen članek in nadaljujte z branjem.

Odkleni zdaj

Izkoristili ste 1 brezplačen članek.

Cenimo vaše zanimanje za zanesljive informacije. Aktivirajte še 1 članek brezplačno in nadaljujte z branjem.

Odkleni zdaj

Izkoristite ekskluzivno ponudbo danes! Berite neomejeno za 1 € na teden.

Zagotovite si neomejen dostop še danes

PRIPOROČAMO

PRO PLAN

€65 (€130) na leto Prekličete kadar koli.

PRO PLAN

€5.99 (€11.99)mesečno Prekličete kadar koli.

Nadaljuj

Izkoristite ekskluzivno ponudbo danes! Berite neomejeno za 1 € na teden.

Poglej ponudbe

Vaši tekmeci to že vedo. Boste ostali v temi?

Pridružite se zdaj za samo 5.99 € na mesec!

Poglej ponudbe

Deli novico

Pred eksplozijo DeepSeeka je njegov prihod napovedala Chatbot Arena

Deli novico

Preberi še

Registrirajte se in odklenite 5 člankov!

Nadaljujte z branjem tako, da izberete eno od spodnjih možnosti.

BREZPLAČEN RAČUN

Naročnina

Cenimo vaše zanimanje za zanesljive informacije. Aktivirajte še 1 članek brezplačno in nadaljujte z branjem.

Vaši tekmeci to že vedo. Boste ostali v temi?

Prijavite se

Izberite drugo možnost prijave

Dobrodošli v

Bloomberg Adria

Naročnina

Neophodno je da popunite lične podatke radi dostave Bloomberg Businessweek-a

Registracija

Izberite drugo možnost prijave

Sprememba gesla

Največje število naprav je preseženo. Če ste lastnik računa, kliknite "Pošlji prijavo z e-pošto", da prejmete e-pošto s povezavo za prijavo. Po prijavi boste lahko upravljali s svojimi napravami.

Na vaš naslov je bilo poslano e-poštno sporočilo s povezavo za prijavo.

Zaradi nenavadne dejavnosti smo blokirali vse zahteve te naprave. Poskusite znova kasneje.

Povezava za aktivacijo računa je bila poslana na vaš elektronski naslov!

Račun ni aktiviran!

Povezava za ponastavitev gesla je bila poslana na vaš e-poštni naslov!

Najprej poskrbimo za nastavitve.

Še zadnji korak!

Podari članek