Zaradi sloke postave in zadržanega pristopa lahko Liang Wenfeng na sestankih deluje sramežljivo, celo živčno. Ustanovitelj kitajskega zagonskega podjetja DeepSeek, ki je svet umetne inteligence pred kratkim vrglo s tečajev, zna med govorom omahovati in vmes za dlje časa molčati. A njegovim novim uslužbencem hitro postane jasno, da njegovega tihega premišljevanja ne smejo zamenjati s plašnostjo. Ko Liang predela podrobnejše točke razprave, preseneti s poglobljenimi vprašanji o arhitekturi modela, računalniških stroških in drugih detajlih sistemov AI DeepSeek, na katera ni lahko odgovoriti.
Zaposleni Lianga imenujejo lǎo bǎn ali »šef«, kar je na Kitajskem običajen izraz spoštovanja nadrejenih v poslovnem svetu. Ni pa običajno, koliko svobode lǎo bǎn pušča mladim raziskovalcem in celo pripravnikom, da se lahko lotevajo obsežnih eksperimentalnih projektov, pri čemer se pogosto ustavlja pri njihovih delovnih mizah, jih sprašuje o napredku ter spodbuja k razmisleku o nenavadnih inženirskih potezah. Bolj je pogovor tehnične narave, bolje je – še zlasti če ta pripomore k resnični rasti uspešnosti, to pa so mejniki, ki jih Liang osebno objavlja na svojem internem kanalu za sporočanje z imenom Lark. "On je zanesenjak v pravem pomenu besede," pravi eden od nekdanjih uslužbencev podjetja DeepSeek, ki je, tako kot številni drugi, ki so spregovorili za ta članek, želel ostati anonimen, saj ni pooblaščen, da javno govori o podjetju. "Včasih sem imel občutek, da je raziskavo razumel bolje kot raziskovalci sami."
Liang in njegovo mlado podjetje sta se v svet mednarodne slave katapultirala januarja, ko sta izdala R1, model umetne inteligence, ki je dajal vtis eksplozivnega preboja. R1 je s prevladujočimi zahodnimi tekmeci pometel na številnih standardiziranih testih, ki se običajno uporabljajo za ocenjevanje uspešnosti UI, pri tem pa so v podjetju DeepSeek trdili, da so svoj osnovni model razvili s približno petimi odstotki ocenjenih stroškov modela GPT-4, ki poganja orodje ChatGPT podjetja OpenAI.
Rezultati testov so na ameriških trgih privedli do razprodaje v vrednosti bilijona dolarjev in sprožili pereča vprašanja o ameriški strategiji za izvajanje nadzora nad izvozom za upočasnitev napredka Kitajske na področju umetne inteligence. Amazon in Microsoft sta tekmovala, kdo bo modele DeepSeek prej dodal v svojo ponudbo v oblaku, skupaj s tekmeci iz družb Meta in Mistral AI. "Tako rekoč "čez vikend" se je zanimanje za DeepSeek toliko povečalo, da smo se lotili akcije," pravi Atul Deo, ki v družbi Amazon nadzira trg jezikovnih modelov.
DeepSeek je očistil megleno steklo, skozi katerega so Američani gledali na velik del scene kitajske umetne inteligence: zavita je bila v tančico skrivnosti, najlažje jo je bilo odmisliti kot pretirano zgodbico, vendar je zelo verjetno bolj zastrašujoča, kot so si pripravljeni priznati. Pred pojavom DeepSeeka so se številna ameriška podjetja in oblikovalci politik tolažili, da Kitajska še vedno močno zaostaja za Silicijevo dolino, kar jim omogoča več časa, da se pripravijo na morebitno tekmovanje ali pa preprečijo, da bi Kitajska kadarkoli dosegla njihovo raven.
V resnici Hangzhou, kjer ima sedež DeepSeek, in drugi kitajski visokotehnološki centri pokajo po šivih od malih zmajev z UI, kot se pogosto imenujejo zagonska podjetja z umetno inteligenco. Sofisticirani klepetalni boti domačih zagonskih podjetij, kot sta MiniMax in Moonshot AI, so postali izjemno priljubljeni, tudi v ZDA. Družina velikih jezikovnih modelov Qwen proizvajalca Alibaba Group Holding se dosledno uvršča na vrh uglednih lestvic, ob bok jezikovnim modelom iz družb Google in Anthropic; Robin Li, glavni izvršni direktor družbe Baidu, se je aprila pohvalil, da bi lahko iskalni velikan razvil modele, ki bi se po kakovosti lahko kosali z izdelki proizvajalca DeepSeek, zahvaljujoč novemu superračunalniku, sestavljenemu z lastnimi čipi, pa bi bili še cenejši. Tudi Huawei Technologies žanje pohvale za izdelke, ki so zasnovani tako, da tekmujejo z opremo družbe Nvidia, katere grafične procesne enote (GPU) poganjajo najnaprednejše modele UI v ZDA in Evropi.
Pred časom je Kitajska komunistična partija peruti prirezovala – po njenem mnenju – nenadzorovanemu tehnološkemu sektorju. Prišlo je do protimonopolnih preiskav in pregledov skladnosti podatkov, vizionarji, kot je Jack Ma, soustanovitelj družbe Alibaba, so izginili iz javnosti, in uvedli so se novi predpisi za družbene medije, ekonomijo projektnega dela in igralne aplikacije. V luči tujega vmešavanja zdaj Partija svojo domačo tehnološko industrijo povzdiguje v višave. Predsednik Xi Jinping podjetjem za umetno inteligenco in polprevodnike zagotavlja ustrezne vire, spodbuja visokousposobljeno kitajsko delovno silo in poziva k »neodvisnemu, nadzorovanemu in sodelovalnemu« ekosistemu s programsko in strojno opremo.
Ironično je, da nedavne poteze Kitajske spodbujajo tudi geopolitične omejitve, namenjene upočasnitvi njenega zagona na področju umetne inteligence. Wei Sun, analitičarka pri raziskovalni družbi Counterpoint Technology Market Research, pravi, da se vrzel v umetni inteligenci med ZDA in Kitajsko zdaj meri v mesecih, ne v letih. »Na Kitajskem sta prisotni kolektivna etika in pripravljenost na intenzivno delo, kar vodi do superiornosti v doseganju rezultatov,« pravi Sun in ugotavlja, da je namerno povzročeno pomanjkanje čipov proizvajalca Nvidia privedlo do novih inovacij v umetni inteligenci. »Ta dinamika ustvarja nekakšen darvinistični pritisk: preživijo tisti, ki lahko z manj dosežejo več.«
Kjer Kitajska vidi inovacije, v ZDA številni o tem še vedno govorijo kot o zlorabah. V aprilskem poročilu dvostrankarskega odbora predstavniškega doma beremo o domnevah o "nezanemarljivih" povezavah med družbo DeepSeek in kitajsko vlado ter o zaključku, da je podjetje podatke nezakonito ukradlo podjetju OpenAI in je tako "resna grožnja" za ameriško nacionalno varnost. Dario Amodei, izvršni direktor podjetja Anthropic, je pozval k večjemu nadzoru izvoza iz ZDA in v objavi na blogu s 3.400 besedami trdil, da je moral DeepSeek pretihotapiti znatne količine grafičnih procesorjev podjetja Nvidia, vključno z najsodobnejšimi modeli H100. (Bloomberg News je pred kratkim poročal, da ameriški uradniki preiskujejo, ali se je DeepSeek izvoznim omejitvam izognil z nakupom prepovedanih čipov prek tretjih oseb v Singapurju.)
Kitajsko veleposlaništvo je trditve odbora predstavniškega doma zavrnilo kot "neutemeljene". V družbi Nvidia so dejali, da so čipi podjetja DeepSeek skladni z izvoznimi predpisi in da bi še več omejitev lahko koristilo kitajski industriji polprevodnikov. Tiskovni predstavnik proizvajalca čipov pravi, da bi siljenje DeepSeka k uporabi več čipov in storitev iz Kitajske "spodbudilo podjetje Huawei in tuje ponudnike infrastrukture za UI".
Podjetje, ki je srž te razprave, je še vedno nekakšna uganka. DeepSeek se ponaša z odprto kodo svoje tehnologije UI, medtem ko njegovo notranje delovanje ali nameni nikakor niso odprtega tipa. V javnih dokumentih o svojih raziskavah razkriva izjemno specifične podrobnosti, ne navaja pa osnovnih informacij o splošnih stroških razvoja umetne inteligence, trenutni sestavi grafičnih procesorjev ali izvoru podatkov.
Bloomberg
Liang že dolgo slovi po svoji tako zelo trdovratni nedružabnosti, da ga nekateri kitajski voditelji v svetu umetne inteligence na samem imenujejo »tehnološki norec«, kar je različica vzdevka, ki se sicer uporablja za ekscentrične podjetnike z velikimi ambicijami. V zadnjih desetih mesecih za medije ni dal niti enega intervjuja, in dokler med nedavnim srečanjem s kitajskim premierjem Li Qiangom ni zaokrožila fotografija njegovega deškega obraza z očali, so le redki sploh vedeli, kako je videti. Liang in njegovi sodelavci se niso odzvali na naše vztrajne prošnje za komentar, če ne štejemo samodejnega odgovora enega od zaposlenih, v katerem smo lahko prebrali, da je naša zahteva v obdelavi. »Hvala za vašo pozornost in podporo družbi DeepSeek!« je v e-poštnem sporočilu še pisalo za konec.
Da bi bolje razumeli, kako podjetje deluje in kako je usklajeno s širšimi ambicijami države na področju umetne inteligence, smo za Bloomberg Businessweek opravili pogovore z 11 nekdanjimi Liangovimi zaposlenimi, skupaj z več kot 30 analitiki, vlagatelji tveganega kapitala in vodstvenimi delavci iz kitajske industrije umetne inteligence.
Pomanjkanje javne prisotnosti je kritikom, kot sta Amodei in Sam Altman z vrha OpenAI, omogočilo, da praznino zapolnijo z obrekovanjem – to pa je pri ameriškem občinstvu, ki je več kot pripravljeno videti kitajsko tehnologijo kot temačno grožnjo, naletelo na topel sprejem. A tudi tisti, ki še ne vedo, kaj naj si mislijo o DeepSeku, so se prisiljeni soočiti z nesporno močjo njegove umetne inteligence. Dmitry Shevelenko, glavni poslovni direktor družbe Perplexity AI, pravi, da še nobenemu posamezniku iz njegovega podjetja, ki izdeluje iskalno orodje na podlagi umetne inteligence, ni uspelo navezati stika s katerim od kolegov v podjetju DeepSeek. Kljub temu je Perplexity sprejel tehnologijo proizvajalca DeepSeek, ki jo gosti samo na strežnikih v ZDA in Evropi ter nato usposobi tako, da odstrani vse nabore podatkov, ki kažejo na cenzuro Komunistične partije Kitajske. Perplexity je modelu dodelil oznako R1 1776 (številka se sklicuje na leto ustanovitve ZDA), kar Shevelenko opisuje kot poklon svobodi. "Ne vemo, kakšni so resnični motivi podjetja DeepSeek. Gre za nekakšno črno skrinjico."
Zaskrbljenost v tujini glede njihove umetne inteligence so v podjetju DeepSeek pričakovali. V ne najbolj opaženi virtualni predstavitvi na konferenci razvijalcev Nvidia v marcu 2024 je Deli Chen, raziskovalec globokega učenja v podjetju DeepSeek, spregovoril o tem, kako je treba vrednote razlikovati od LLM in jih prilagoditi različnim družbam. Na eni hladno logični slikovni predstavitvi je Chen prikazal DeepSeekov prototip za prilagajanje etičnih standardov, vgrajenih v klepetalne bote, ki jih uporabljajo ljudje iz različnih okolij. S hitrim pritiskom na gumb so razvijalci lahko opredelili zakonitost različnih zadev, vključno z igrami na srečo, evtanazijo, prostitucijo, lastništvom orožja, konopljo in nadomestnim materinstvom. "Izbrati morajo le možnost, ki ustreza njihovim potrebam, nato pa lahko uživajo v storitvi modela, ki je prilagojen njihovim vrednotam," je pojasnil Chen.
Iskanje takšnih učinkovitih rešitev je bilo v podjetju DeepSeek vedno kulturna norma. Liang in njegovi prijatelji so sredi prvega desetletja po letu 2000 na univerzi Zhejiang študirali na različnih tehničnih področjih, kot so strojno učenje, obdelava signalov, elektronski inženiring itd., poleg tega pa so za hec (no, pa za denar tudi) razvijali računalniške programe za trgovanje z delnicami med svetovno finančno krizo.
Po diplomi je Liang še naprej na lastno pest razvijal sisteme za kvantno trgovanje in zaslužil malo bogastvo, nato pa v Hangzhouu združil moči z nekaj prijatelji z univerze. Skupaj so leta 2015 lansirali podjetje, znano kot High-Flyer Quant.
V prvih oglasih za prosta delovna mesta se je podjetje hvalilo s privabljanjem vrhunskih talentov z Googla in Facebooka ter iskalo matematične in programske "zanesenjake" z "izstopajočo briljantnostjo" Sheldona, nerodnega glavnega junaka humoristične serije Veliki pokovci. Obljubljali so brezplačne prigrizke, stole znamke Herman Miller, večere ob pokru, pisarniško kulturo, ki ne nasprotuje majicam in copatam, za dobro mero šovinizma iz sveta finančnih tehnologij pa tudi priložnost za delo s "čudovitimi in prijaznimi dekleti, rojenimi v devetdesetih", in z "odrezavo boginjo, ki se je vrnila z Wall Streeta".
Kot je pozneje veljalo tudi za DeepSeek, so v podjetju High-Flyer gojili pridih skrivnosti – njegova prva objava na družbenih omrežjih je Lianga omenjala zgolj kot "gospoda L" –, medtem pa so se zavezali nekakšni preglednosti na podlagi jasno vidnih rezultatov. Podjetje High-Flyer je na kitajski superaplikaciji WeChat vsak petek objavljalo grafikone uspešnosti svojih desetih prvotnih skladov. Od poletja 2016 so tedenski povzetki na voljo samo registriranim vlagateljem, pred tem pa je portfelj beležil povprečne letne donose v vrednosti 35 odstotkov.
V imetju podjetja High-Flyer so se sčasoma stekle milijarde dolarjev, njegova investicijska in raziskovalna skupina pa se je povečala na več kot 100 zaposlenih. Liang je leta 2019 začel resno oblikovati oddelek za umetno inteligenco, katerega cilj je bil rudarjenje ogromnih naborov podatkov, s pomočjo katerih naj bi odkrili podcenjene delnice, majhna nihanja cen za visokofrekvenčno trgovanje in makrotrende, ki so manjkali vlagateljem, osredotočenim na posamezne industrije. Do začetka pandemije covida 19 je s svojo ekipo razvil visokozmogljivi računalniški sistem medsebojno povezanih procesorjev, ki delujejo v tandemu – gre za postavitev, znano kot grozd. V podjetju High-Flyer so navedli, da so za ta grozd dobili tisoč čipov Nvidia 2080Ti, ki jih običajno uporabljajo navdušenci nad videoigrami in umetniki v 3D-tehniki, ter dodatnih 100 GPU serije Volta. (GPU Volta, znan tudi kot V100, je bil prvi Nvidijin procesor, ki je bil optimiziran za umetno inteligenco.) Medtem ko je prejšnja, manjša računalniška arhitektura podjetja High-Flyer za usposabljanje novega modela ekonomske analize potrebovala dva meseca, je nova oprema za isti obseg dela potrebovala manj kot štiri dni.
Ti finančni modeli so bili občudovanja vredni, a veliko manjši od splošnih modelov, ki so jih razvijala ameriška podjetja, kot je OpenAI. Liang si je prizadeval za izdelavo bistveno večjega superračunalnika iz takrat novih GPU-jev Nvidia A100, nadgrajenih naslednikov različice V100. Nekdanji inženir iz podjetja High-Flyer, ki je sodeloval pri projektu, pravi, da je bil Liang "najprizadevnejši uporabnik" rastočega grozda, saj ocenjuje, da je bilo 80 odstotkov računalniške obdelave za razvoj modelov opravljene prav pod njegovim uporabniškim imenom. Ta nekdanji inženir pravi, da se je Liang zdel obseden z globokim učenjem, imenoval pa ga je "njegov dragi hobi." Vlaganje stotin milijonov dolarjev v takšno infrastrukturo umetne inteligence je bilo za kvantno podjetje verjetno pretirano, vendar je Liang ustvarjal več kot dovolj dobička, da si je to lahko privoščil. "Takrat je bil to za Lianga drobiž," se spominja inženir. "Več računalniške moči, boljši modeli, več dobičkov pri trgovanju."
Vsaj upali so tako. Podjetje High-Flyer, ki je takrat upravljalo za približno 14,1 milijarde dolarjev sredstev, se je v pismu deležnikom v decembru 2021 opravičilo za niz poraznih donosov. Podjetje je za upad krivilo svoje sisteme z umetno inteligenco, pri čemer je dejalo, da so delnice sicer pametno izbrali, ni pa jim uspelo oceniti, kdaj bi se bilo iz teh poslov modro umakniti zaradi nestanovitnosti pandemije. Kljub temu so se v podjetju odločili, da se bodo umetni inteligenci posvetili z dvojno vnemo: januarja 2022 je podjetje High-Flyer na družbenih omrežjih objavilo, da je zbralo pet tisoč čipov Nvidia A100, od katerih vsak običajno stane več deset tisoč dolarjev. Marca je objavilo, da se je ta grozd razširil na deset tisoč čipov, in to le šest mesecev prej, preden je podjetje Nvidia opozorilo, da bi lahko nove omejitve v ZDA vplivale na izvoz tovrstnih čipov na Kitajsko.
Koliko te infrastrukture je bilo na koncu namenjene kvantnemu trgovanju v primerjavi z Liangovim dragim hobijem, ni povsem jasno. Naslednjo pomlad, približno pet mesecev po tem, ko je podjetje OpenAI javnosti predstavilo orodje ChatGPT, je Liang kot neodvisni raziskovalni laboratorij odcepil podjetje DeepSeek. V ločenih pisarnah podjetja v Hangzhouu in Pekingu finance niso bile več v središču pozornosti. V nepodpisanem manifestu, polnem besedičenja, je podjetje obljubljalo, da bo bežalo od povprečnosti in se spopadlo z najtežjimi izzivi revolucije umetne inteligence. Njihov končni cilj: umetna splošna inteligenca.
Florence Lo/Reuters
Leta 2023 je laboratorij podjetja DeepSeek hitel razvijati pomočnika za kodiranje, klepetalnico s splošnim znanjem in generator 3D-umetnosti iz besedila, vse na podlagi umetne inteligence. Liang je v pisarne pripeljal inženirje iz podjetja High-Flyer in zaposlil še več kadra iz pekinške Microsoftove podružnice ter vodilnih kitajskih tehnoloških podjetij in univerz. Bo Liu, znan kot Benjamin, ki se je podjetju v septembru pred začetkom doktorskega študija pridružil kot študent raziskovalec, pravi, da je Liang pripravnikom pogosto dodeljeval ključna delovna mesta, ki so bila običajno prihranjena za kader na višjih položajih. "Poglejmo primer mene osebno: ko sem prišel v podjetje, se ni nihče ukvarjal z infrastrukturo RLHF – infrastrukturo za podporo pomembne tehnike, znane kot okrepljeno učenje iz človeških povratnih informacij – zato je dovolil, da se s tem ukvarjam jaz," pravi Liu. "Zaupa ti, da boš naredil stvari, ki jih ni dotlej še nihče." (To zaupanje je podjetju DeepSeek prineslo tudi sekundarno korist: pripravnikom je plačeval 140 dolarjev na dan z mesečno subvencijo za stanovanje v vrednosti 420 dolarjev, kar je na Kitajskem velikodušen znesek, hkrati pa le približno tretjina tega, kar pripravniki zaslužijo v ameriških podjetjih z UI, in le majhen delež zneska, ki ga zaslužijo inženirji Silicijeve doline s polnim delovnim časom.)
Liang je ogromno (in zgodaj) stavil na maloštevilnost, tehniko za učinkovitejše usposabljanje in vodenje LLM, in sicer tako, da jih je razdelil na specializirana področja, kot pravita dva nekdanja raziskovalca iz DeepSeek. Ko ste prvotnemu orodju ChatGPT zastavili vprašanje, so se pri opredelitvi najboljšega odgovora aktivirali njegovi celotni možgani LLM, ne glede na to, ali ste ga povprašali, koliko je dva plus dva, ali pa prosili za recept za pito. Model z maloštevilnostjo pa bi, nasprotno, vire bolje izkoristil, če bi bil razdeljen na "strokovnjake", pri čemer bi se kot odziv na določeno vprašanje aktivirali samo ustrezni strokovnjaki.
Pristop z maloštevilnostjo lahko privede do ogromnih prihrankov pri stroških računalniškega dela, vendar pa je izjemno zapleten. Če vprašanje ni obdelano v zadostnem številu možganskih vezij ali je poslano v napačne režnje, bo kakovost odgovora padla. (Matematični možgani bi vedeli, kako v formuli uporabiti število pi, ne pa tudi, katere sestavine potrebujemo za pito, na primer.) Liang je na tem področju opazil napredek v podjetju Google in francoskem samorogu Mistral, ki sta decembra 2023 izdala redek model, ki je bil razdeljen na osem strokovnjakov, pri čemer je vsako zastavljeno vprašanje glede na kontekst aktiviralo dva najprimernejša. Svoji ekipi je zadal nalogo, da oblikujejo modele z vedno več strokovnjaki, tehniko, ki ima potencial povečanja količine halucinacij in razdrobljenosti znanja umetne inteligence. »To je sprožilo pomembno razpravo znotraj podjetja,« pravi nekdanji uslužbenec podjetja DeepSeek.
Sledilo je še več odkritij, vsako pa je bilo javno oznanjeno in je med kitajskimi konkurenti pritegnilo vse več pozornosti. Nato pa je DeepSeek konec leta 2024 izdal V3, model umetne inteligence za splošne namene, ki je bil približno 65 odstotkov obsežnejši od ekvivalenta iz podjetja Meta Platforms, takrat največjega razpoložljivega odprtokodnega LLM. A šele dolg raziskovalni članek o V3 je bil tisti, ki je resnično pritegnil pozornost vodstvenih delavcev v podjetjih Google, OpenAI in Microsoft, in sicer približno mesec dni, preden je DeepSeek s svojim modelom sklepanja R1 prodrl v širšo zavest. Iz besedila je en podatek še zlasti bodel v oči: v podjetju DeepSeek so posredno navajali, da je celotni razvoj modela V3 stal le 5,6 milijona dolarjev. Verjetno se je ta vsota nanašala le na končno usposabljanje – postopek izpopolnjevanja podatkov, ki iz predhodnih prototipov modela naredi popoln izdelek – veliko ljudi pa ga je kljub temu razumelo kot noro nizek proračun za celoten projekt. Za primerjavo: kumulativno usposabljanje za najnaprednejše modele lahko znaša 100 milijonov dolarjev ali več. Amodei iz podjetja Anthropic je (pred vzponom DeepSeeka) celo napovedal, da bo učenje modelov naslednje generacije stalo od deset do sto milijard dolarjev.
Leandro von Werra, vodja raziskav na priljubljeni platformi AI Hugging Face, na kateri so na voljo ocenjevalne lestvice LLM, pravi, da DeepSeekova »arhitekturna inovacija« ni bila najbolj presenetljiva stvar pri njihovem modelu. Največje odkritje, ki ga je zasledil v članku, je bilo, da je podjetje za razvoj modela V3 očitno pridobilo visokokakovostne podatke – bodisi na pameten način nabrane na spletu ali ekstrahirane z drugimi sredstvi. "Brez zelo kakovostnih naborov podatkov modeli ne bodo delovali, kot bi morali," pravi von Werra. "Iz članka lahko zelo jasno sklepamo, da ima DeepSeek enega najboljših naborov podatkov za usposabljanje LLM. Na žalost temu naboru podatkov v 50 strani dolgem članku namenjajo zgolj pol strani."
Ključ hitrega napredka podjetja DeepSeek je v tem, da je Liang odprtokodni etos videl kot sestavni del svoje filozofije. Verjel je, da skrivanje lastniških tehnik in zaračunavanje za uporabo zmogljivih modelov – pristop, ki ga uporabljajo vrhunski ameriški laboratoriji, vključno z OpenAI in Googlom – daje prednost kratkoročnim koristim, in ne trajnejšim uspehom. Na račun tega, da so njegovi modeli v celoti dostopni javnosti in v veliki meri brezplačni, je podjetje na najučinkovitejši način pospešilo sprejetje izdelka, zagonska podjetja in raziskovalce pa prepričalo, da gradijo na njihovi tehnologiji. V podjetju so upali, da bo to ustvarilo vztrajnik uporabe izdelkov in povratnih informacij. V podjetju DeepSeek so v napovedi svojega prvega objavljenega LLM pred skoraj dvema letoma citirali izumitelja odprtokodnega operacijskega sistema Linux in zapisali: "Lahko je govoriti, pokaži mi kodo."
Na oblačno aprilsko nedeljo na živahnem mednarodnem letališču Xiaoshan v Hangzhouu prišleke pozdravljajo digitalni zasloni, ki oglašujejo storitve umetne inteligence podjetij Alibaba, ByteDance in Huawei. Humanoidni robot z modrimi lasmi z mahanjem pozdravlja potnike znotraj sodobnega terminala. Zunaj zagonsko podjetje z avtonomnimi vozili preizkuša majhne samovozeče tovornjake za prevoz tovora po vzletni stezi. Kljub vsemu dvignjenemu prahu okoli DeepSeeka se zdi, da zahodnjaki pozabljajo, da je ta le eden od številnih zmajev s področja UI, ki vznikajo po številnih kitajskih Silicijevih dolinah. Samo v Hangzhouu, velemestu z 12,5 milijona prebivalcev, DeepSeek pripada elitni skupini tehnoloških zagonskih podjetij, znanih kot šest malih zmajev.
V slikovitem okrožju West Lake najdemo podjetje Game Science, vrveči studio, ki stoji za najbolje prodajano akcijsko igro Black Myth: Wukong, ta pa slovi po uporabi tehnik strojnega učenja, zaradi katerih so računalniški liki veliko bolj realistični. Nedaleč stran sta dve veliki tovarni robotov in samorog, ki se ukvarja s 3D-prostorsko programsko opremo. V bližini je tudi podjetje Zhejiang Qiangnao Technology, znano kot BrainCo, najlažje pa si ga predstavljamo kot kitajsko različico družbe Neuralink. Njegovi začetki segajo do zagonskega podjetja, ki ga je na Univerzi Harvard zasnoval kitajski doktorski študent Bicheng Han, danes pa v svojem partnerskem laboratoriju v Hangzhouu razvija bionične okončine in tehnologije možganske aktivnosti za nadzor računalnikov. Ena od protetičnih rok proizvajalca BrainCo, ki jih poganja umetna inteligenca, je trenutno na ogled v razstavnem centru v China Artificial Intelligence Town, še enem rastočem tehnološkem središču v Hangzhouu.
V zadnjih tednih so voditelji podjetja BrainCo svoje dosežke predstavljali na razstavi, kot smo izvedeli od enega od udeležencev. Ti pogosto izrazijo željo po vlaganju, a, kot kaže, ti geniji po zunanjem kapitalu ne hlastajo pretirano. "V bistvu denarja ne potrebujejo," pravi upravitelj sklada, ki se je tudi sam udeležil predstavitve. "Ob vsem navdušenju nad šestimi malimi zmaji jim ljudje denar dobesedno tlačijo v žepe."
Za vsemi temi zagonskimi podjetji tiho stoji vlada predsednika Xija. Generativna umetna inteligenca, robotika in druge visokotehnološke ambicije so voda na mlin državni agendi, ki si prizadeva predvsem za domačo "samozadostnost in samokrepitev," kot se je po poročanju kitajske uradne tiskovne agencija Xinhua na nedavnem srečanju politbiroja izrazil Xi. "Zavedati se moramo pomanjkljivosti in podvojiti naša prizadevanja za celovit napredek tehnoloških inovacij, industrijskega razvoja in aplikacij, ki temeljijo na umetni inteligenci."
Zmaji ga poslušajo in vsi niso tako zelo majhni. Glavni kampus konglomerata Alibaba, ki je vreden 300 milijard dolarjev in ima lastno jezero, stoji na območju Hangzhouja, od West Laka pa ga loči približno 40 minut vožnje z avtomobilom proti zahodu. Podjetje se je pred kratkim zavezalo razvoju več podatkovnih centrov z UI v naslednjih treh letih, njegovi najnovejši vodilni modeli Qwen3 pa se po zmogljivosti in stroškovni učinkovitosti kosajo z modeli iz podjetja DeepSeek. Zunaj Kitajske je Alibaba običajno znan kot podjetje za e-trgovino, a njegova hitreje rastoča enota za umetno inteligenco in storitve v oblaku se je leta 2022 preselila v ločeno vozlišče na obrobju Hangzhouja. V tamkajšnjih konferenčnih sobah na velikih zaslonih svetijo "hitri vpogledi v industrijo", ki se posodabljajo vsakih 72 ur in podrobno opisujejo najnovejše dosežke tekmecev, kot sta DeepSeek in OpenAI. Tedensko posodobljene različice so nameščene celo na straniščih in uporabnike tako opominjajo, da se umetna inteligenca razvija tudi, ko se človeški tehnologi odzovejo klicu narave.
Aprila letos se je Ma, ta izmuzljivi soustanovitelj Alibabe, ki je med zatiranjem kitajskega tehnološkega sektorja s strani KPK pred skoraj petimi leti tako rekoč poniknil, ob proslavi 15. obletnice oddelka s storitvami v oblaku ponovno pojavil v kampusu podjetja. V enem od svojih redkih nagovorov je Ma po besedah številnih udeležencev izrazil željo, da bi umetna inteligenca ljudem služila, in ne gospodarila nad njimi. Udeleženci, ki so spremljali tudi prenos v živo iz pisarn v Hongkongu in Tokiu, pravijo, da je Ma s svojo zmagoslavno vrnitvijo navdušil.
Bloomberg
To je bil opomnik, da so si tehnološke zvezde, kot je Ma, očitno povrnile naklonjenost Komunistične partije – skupaj z novinci, kot je Liang – medtem ko tehnološki voditelji v ZDA izgubljajo priljubljenost. Na Kitajskem se krepi nacionalni ponos, ki želi pokazati, da lahko premaguje ovire Zahoda. George Chen, generalni direktor svetovalnega podjetja za politiko Asia Group s sedežem v Hongkongu, pravi, da se vrhunski kitajski inženirji vračajo domov po delu v ZDA pri Applu, Googlu, Microsoftu in drugih vodilnih podjetjih. Medtem ko zraven spada nastrojenost Trumpove administracije, jih poganja tudi občutek, da se središče dogajanja morda premika proti vzhodu. "Silicijeva dolina za kitajski nadarjeni kader ni več privlačen kraj za delo," pravi Chen.
Kai-Fu Lee, ustanovitelj še enega kitajskega samoroga po imenu 01.AI, gre še korak dlje. Lee, veteran Appla, Googla in Microsofta, pravi, da naslednja generacija talentov ne bo več sledila njegovi poti skozi ameriška podjetja, preden se bo lotila izgradnje lastnih podjetij na Kitajskem. "Ti mladi inženirji umetne inteligence so večinoma zrasli na domačih tleh," pravi. "Uspeh DeepSeeka, skupaj z uspehom drugih novih zagonskih podjetij z UI, vse več mladih talentov motivira, da postanejo del kitajske renesanse umetne inteligence."
Toliko ponosa kot DeepSeek danes ne vzbuja nobeno tehnološko podjetje na Kitajskem. Med aprilskim obiskom Hangzhoua je Kirby Fung, 27-letni računalniški znanstvenik iz Kanade, svoje najbližje odpeljal na ogled univerze Zhejiang, kjer se je šolal Liang. Fung je tu opravil program študentske izmenjave, svojim starim staršem in mlajšemu bratu pa je želel pokazati, da je študiral na isti univerzi kot Liang. "Res je kul, ko lahko svojim prijateljem v Kanadi povem, da sva s fantom, ki je ustvaril DeepSeek, hodila na isto šolo," pravi Fung.
Na sedež podjetja DeepSeek, ki ima sedež v kompleksu s štirimi stolpi s pogledom na slavni kitajski Canal Grande, se redno zgrinjajo tudi turisti in vplivneži na družbenih omrežjih. Turisti upajo na možnost, da bi na Lianga naleteli v lokalnih trgovinah, vključno s priljubljeno okrepčevalnico v stavbi podjetja DeepSeek, kjer se zaposleni včasih ustavijo na kosilu. (Gostiteljica mora navzočim sporočiti, da Liang tega ne stori nikoli.)
Ljudje, ki Lianga poznajo, pravijo, da kroži med pisarnama v Hangzhou in Pekingu – tam ima podjetje svoje prostore v petem nadstropju steklenega stolpa v lokalnem tehnološkem središču. 20-letni koderji tam garajo za mizami z nastavljivo višino, njihova shramba pa je založena z energijskimi pijačami, instant rezanci Kang Shi Fu in palčkami latiao. Imajo tudi tablo, na katero lahko zaposleni pišejo zahteve po dodatni hrani. "Po več mesecih kosil in večerij v pisarni sem se kar malo poredil," pravi eden od raziskovalcev, ki tam od nedavnega ne dela več.
Liang le redko privoli v srečanja z zunanjimi osebami – še pred tisto peščico, ki jo včasih sprejme, se pojavi celo kot hologramska projekcija. Zavrnil je povabilo na letošnji vplivni pariški akcijski vrh s področja UI – dogodek, ki je pritegnil Altmana, družbo Alphabet in izvršnega direktorja Googla Sundarja Pichaija ter številne predsednike vlad in predsednike držav.
Medtem ko Kitajska podjetje DeepSeek kuje v zvezde, ga ZDA obravnavajo kot neznan organizem, ki se je skrivnostno zaredil v njihovi pitni vodi, zdaj pa ga proučujejo in ugotavljajo, ali je benigen ali maligen. Kritiki so podjetje DeepSeek obtožili, da deluje pod nadzorom Komunistične partije, da je podatke za usposabljanje sunil ameriški konkurenci in da sodeluje v večji vohunski kampanji, s katero želi spodkopati hegemonijo UI v Silicijevi dolini. "DeepSeek je neposredna povezava med ameriškim tehnološkim sektorjem in nadzorovano državo Kitajske komunistične partije, ki ogroža ne le zasebnost ameriških državljanov, marveč tudi našo nacionalno varnost," pravi tiskovni predstavnik odbora ameriškega predstavniškega doma, ki preiskuje DeepSeek.
DeepSeek pa medtem ne daje vtisa, da bi se v čemerkoli razlikoval od kateregakoli uspešnega zagonskega podjetja – gre za produkt "čiste energije dela v garaži", je podjetje zapisalo v februarski objavi na omrežju X. Ne nazadnje deluje v istem pekinškem kampusu kot Google, nedaleč od Burger Kinga in dveh restavracij Tim Hortons. To, da širša industrija umetne inteligence do zdaj DeepSeku ni posvečala veliko pozornosti, še ne pomeni, da se v zakulisju dogaja nekaj zloveščega. "Svet umetne inteligence DeepSeeka ni pričakoval," pravi Arnaud Barthelemy, partner v podjetju Alpha Intelligence Capital, ki vlaga v OpenAI in SenseTime. "Pa bi ga moral."
Barthelemy pravi, da je prava lekcija, ki jo uči DeepSeek, ta, kako učinkovito kitajska tehnološka podjetja svoje operativne omejitve spreminjajo v vir prednosti. "Na Kitajskem je veliko bistrih umov, ki so veliko pametnih inovacij dosegli z veliko nižjimi računalniškimi zahtevami," pravi.
In res – maja 2023, po naključju prav v istem mesecu, ko je bil ustanovljen DeepSeek, je Jensen Huang, izvršni direktor družbe Nvidia, za Businessweek povedal, da bo ameriška prekomerna regulacija Kitajsko samo spodbudila, da preseže inovacije tistih, ki ji stojijo na poti. Gospodarski vpliv je opisal kot učinkovito orodje nacionalne varnosti in poudaril, da bi bile nenamerne posledice vladnih intervencij lahko resne. "Biti prikrajšan za tretjino trga tehnološke industrije mora biti katastrofalno," je dejal in se pri tem skliceval na tveganja omejevanja ameriškega tehnološkega izvoza na Kitajsko. "Vzcveteli bodo do ravni brez konkurence. Vzcveteli bodo in izvažali bodo v Evropo ter jugovzhodno Azijo."
"Pri tem, kako daleč potisnete konkurenco, morate biti previdni," je nadaljeval Huang. "Odziv je lahko nenadoma zelo nepredvidljiv. Ljudje, ki nimajo česa izgubiti, se odzivajo na precej presenetljive načine."
Polemika pa še vedno poteka o pomembnem delu zgodbe podjetja DeepSeek: koliko so dejansko porabili za izdelavo svojih modelov. V pogosto citiranem poročilu je ameriško raziskovalno podjetje SemiAnalysis ocenilo, da sta High-Flyer in DeepSeek verjetno imela dostop do grozdov z okoli 50 tisoč Nvidijinimi vrhunskimi grafičnimi procesorji serije H, vrednimi 1,4 milijarde dolarjev, te pa so pred javnostjo večinoma skrili. Večina te infrastrukture je po navedbah podjetja SemiAnalysis vključevala GPU-je, ki so bili verjetno skladni z izvoznimi predpisi. (ZDA so družbi Nvidia dovolile, da Kitajski proda nekaj čipov – modelov H20 in H800 namreč – ki jih je ta ustrezno spremenila in omejila njihovo zmogljivost ter tako ugodila zahtevam Bele hiše.) A svetovalno podjetje je hkrati trdilo, da ima DeepSeek dostop do dodatnih deset tisoč Nvidijinih čipov H100, katerih prodajo na Kitajsko je ameriška vlada prepovedala.
Trije nekdanji zaposleni te trditve odločno zanikajo in pravijo, da ima DeepSeek manj kot 20 tisoč GPU-jev, ki so sestavljeni iz starejših čipov Nvidia in tistih, ki so jih uvozili pod nadzorom. "Širijo laži," pravi doktor znanosti Bo Liu o družbi SemiAnalysis, ta pa navaja, da za svojim poročilom trdno stoji.
Manj vprašljivo je dejstvo, da bi DeepSeek z veseljem pozdravil dostop do obsega računalniške moči, ki jo imajo na voljo ameriška tehnološka podjetja. Zdi se, da so v podjetju prepričani, da bi lahko z njo dosegli veliko več kot Silicijeva dolina. "Dejstvo je, da imajo raziskovalci LLM ogromen apetit po računalniških virih – če bi delal z več deset tisoč GPU-ji serije H, bi verjetno tudi sam postal razsipen in bi izvajal številne poskuse, ki morda niso nujno potrebni," pravi eden od nekdanjih zaposlenih v DeepSeku. A dostop do več virov je težava, s katero bi se bili kitajski tehnologi več kot pripravljeni spopasti. "Moja želja je, da bi kitajska podjetja nekega dne imela na voljo 50 tisoč GPU-jev," pravi raziskovalec v odhajanju, ki se je pridružil drugemu odprtokodnemu laboratoriju za umetno inteligenco v Pekingu. "Vas zanima, kaj bi lahko dosegli?"
- Austin Carr, Saritha Rai in Zheping Huang v sodelovanju z avtorji Luz Ding, Claire Che, Mattom Dayem in Jackie Davalos
Trenutno ni komentarjev za novico. Bodi prvi, ki bo komentiral ...