Kitajski startup DeepSeek je - sodeč po njihovi objavi na spletu - začel manjšo revolucijo v izdelovanju novih modelov učenja za sisteme umetne inteligence (AI). Njihov novi model - DeepSeek-R1 in DeepSeek-R1 Zero - je po poročilu, ki ga je podjetje objavilo na spletu kar 98 odstotkov cenejše od modelov, kot jih razvijajo na zahodu. Za izdelavo naj bi porabili manj kot šest milijonov dolarjev, medtem ko po besedah direktorja Anthropica Daria Amodeia podobni sistemi v tujini stanejo tudi po stokrat več.
Nov model je po ocenah strokovnjakov, skoraj na ravni modelov OpenAI 4o, in boljši recimo od Metinega modela, ki ga razvija. In kar je najbolj nenavadno DeepSeekova koda je odprta, kar pomeni, da si jo v teoriji vsak lahko prisvoji in dopolni po lasnih željah. Zakaj je to DeepSeek naredil, še ni jasno, bo pa to precej pokvarilo teden OpenAI in drugim, ki svojo kodo skrivajo in za uporabo njihovih kapacitet tudi več računajo.
Po obisku OpenAI in DeepSeek vidimo, da je tudi uporaba API in njihovih kapacitet veliko cenejša pri kitajskem ponudniku. Številni uporabniki na X so prav tako zapisali, da so si na lastne računalnike, ki niso ravno vrhunski, naložili lokalne variante DeepSeek (mini) in delujejo. Marc Andreessen, eden najbolj znanih investitorjev v Silicijevi dolini, je dejal:
Preberi še
Krvav začetek trgovanja: Kako nizko lahko pade tehnološki indeks Nasdaq?
Veliki padci cen delnic v Evropi, pričakovani padci ob odprtju trgov v ZDA; Nvidia 11-odstotni upad. Zakaj je kitajski DeepSeek grožnja ameriški prevladi v umetni inteligenci?
27.01.2025
Operator: revolucionarni AI agent OpenAI, ki prevzema nadzor
Operator je najnovejši skrivnostni projekt OpenAI, ki napoveduje preobrat v umetni inteligenci. Ustvarjen je za samostojno reševanje kompleksnih nalog z minimalnim posredovanjem.
22.01.2025
ZDA Slovencem omejujejo uvoz Nvidijinih čipov
Slovenija se sooča z omejitvami pri dostopu do naprednih AI čipov zaradi novih ameriških pravil o izvozu.
20.01.2025
Ambiciozni projekt Stargate povzročil borzno veselico tehnoloških velikanov
Kaj prinaša 500 milijard dolarjev vreden projekt umetne inteligence?
23.01.2025
Kako so Kitajci sploh lahko naredili tako uspešen model? No, če sledimo njihovi objavi ob izidu, so na tretji strani recimo zapisali, da so uporabili zgolj spodbujevalno učenje, brez nadzora, da bi prišli do želenega rezultata. Zelo poenostavljeno to pomeni, da razvijalci niso pregledovali samih postopkov razmišljanja v procesu iskanja rešitve. Tradicionalno pri razvijanju novih LLM modelov so razvijalci vsak korak, ki ga je model potreboval, da je prišel do rešitve "nagradili/kaznovali". Modelu so torej ljudje dali kazen, če se je v korakih/procesu zmotil in nagradili, če je bil korak pravilen, in ga tako vodili do cilja, da je prišel do prave rešitve.
Inovativna (in predvsem hrabra) metoda
DeepSeekova metoda je bila bolj neposredna: model so nagradili le za pravilno rešitev/odgovor, samo postopek pa si je model izbiral sam – in tako zmanjšali število korakov, ki jih je bilo treba nadzorovati. Ampak dejstvo, da je model v 99,9 odstotka nastal samo s spodbujevalnim učenjem, je napredek, ki ga ni mogoče zanikati.
V poročilu navajajo, da ima model težave pri daljših pogovorih, številnih jezikih in da včasih odgovori niso berljivi. O halucinacijah ne govorijo veliko, a priznavajo, da se dogajajo. Ravno zato bodo ta model zdaj dopolnjevali z nekakšnim hibridnim načinom, kjer bodo skozi model reševali predstavljanje in iskanje pravih rešitev - takrat, ko model sam tega ne bo zmogel.
Kako so prišli do računskih kapacitet?
Teden dni od predstavitve novega modela, kar je že in še bo precej vplivalo na delnice tehnoloških podjetij povsod po svetu, je še veliko neznank.
Wall Street Journal je nekoliko natančneje pregledal njihovo oceno, da je ves proces stal samo šest milijonov dolarjev. "DeepSeek je v tehničnem poročilu dejal, da je za usposabljanje svojega modela V3 uporabil več kot dva tisoč čipov Nvidia, v primerjavi z več deset tisoč čipi za usposabljanje modelov podobne velikosti. Nekaj ameriških strokovnjakov za umetno inteligenco je nedavno podvomilo, ali High-Flyer in DeepSeek dostopata do računalniških kapacitet, ki presegajo uradne," so zapisali.
Pa tudi sam startup DeepSeek naj bi po poročanju MiT Tech Review: "Kitajski medij 36Kr ocenjuje, da ima podjetje na zalogi več kot deset tisoč modernih Nvidijinih čipov, Dylan Patel, ustanovitelj raziskovalnega svetovalnega podjetja AI SemiAnalysis, pa ocenjuje, da jih imajo vsaj 50.000." Vse te čipe, tudi Nvidinie H100, naj bi pridobili, preden so sankcije začele res delovati.
Tako da sama cena razvoja novega modela je verjetno precej višja, ampak kitajska podjetja ne želijo razkriti njihovih investicij v zmogljive čipe, saj bi to lahko ogrozilo dodaten priliv, ki je zanje že tako ali tako omejen.
Omejitve zahtevale prilagajanje
"Nadzor izvoza je v bistvu potisnil kitajska podjetja v kot, kjer morajo biti veliko bolj učinkovita s svojimi omejenimi računalniškimi viri," pravi Matt Sheehan, raziskovalec AI pri Fundaciji Carnegie za mednarodni mir. "Verjetno bomo v prihodnosti priča veliki konsolidaciji, povezani s pomanjkanjem računskih kapacitet." Gre za zelo pomembno izjavo. Tudi ustanovitelj DeepSeek Liang Wenfeng je dejal podobno, ko je za kitajske medije dejal, kakšne rešitve iščejo.
In to je za zdaj znano o novem Sputniku. Cena je verjetno veliko višja, kot jo priznava DeepSeek, a je njihova rešitev revolucionarna, saj je prebila nevidni zid počasnega strojnega učenja in predvsem to rešitev ponudilo na voljo celemu svetu.
Sputnik je bil katalizator
"Čeprav moramo še počakati ali se bo DeepSeek dolgoročno izkazal za uporabno in cenejšo alternativo, so začetne skrbi osredotočene na to, ali je cenovna moč ameriških tehnoloških velikanov ogrožena in ali je treba njihove ogromne investicije v AI ponovno oceniti," je dejal Jun Rong Yeap iz IG Asia za Bloomberg.
Uporabniki novega modela so prav tako opazili, da noče odgovarjati na občutljiva politična vprašanja o Kitajski in voditelju Xi Jinpingu. V nekaterih primerih izdelek daje odgovore v skladu z uradno propagando Pekinga, namesto da vključuje perspektivo vladnih kritikov, kot to počne ChatGPT. Na vprašanja o trgu Nebeškega miru tako na DeepSeeku ne boste dobili pravih odgovorov. Ampak, glede na to, da gre za odprtokodno rešitev, se to lahko kadar koli popravi in prilagodi za lokalno okolje.
Kaj pa to pomeni za vse investicije?
Isti teden, kot je DeepSeek predstavil svoj nov model, so v ZDA začeli s projektom Stargate – ki bo zagotovil 500 milijard dolarjev za razvoj novih podatkovnih centrov in centrov za razvoj AI. Če sledimo razvoju AI, bo to zdaj šele šlo v nebesa. Sputnik je v vesolje poletel leta 1957 – samo 12 let kasneje pa smo že pristali na Luni. Če smo mislili, da bo za implementacijo AI v vse kapacitete potrebna še številna leta, so kitajski razvijalci to skrajšali. Najbolje je misel zapisal Jim Fan, eden bolj znanih raziskovalcev Nvidie:
"Številni strokovnjaki so v paniki glede tega, kako lahko DeepSeek uspe s tako majhnim proračunom. Jaz to vidim drugače - z ogromnim nasmehom na obrazu. Zakaj nismo veseli izboljšav v zakonu o skaliranju? DeepSeek je nedvoumen dokaz, da je mogoče ustvariti povečevanje inteligenčnih kapacitet z desetkrat nižjimi stroški, kar pomeni, da bomo dobili desetkrat zmogljivejši AI z računalnikom, ki ga imamo danes ali gradimo za jutri. Preprosta matematika!"
Vse investicije v izgradnjo kapacitet bodo še bolj potrebne, saj bo zdaj lahko veliko držav, ali pa celo EU, zgradil svoje modele AI in jih prilagodil za lastne potrebne za delček razvojne cene. Novodobni Sputnik je tekmo začel, a tisti, ki bo imel največ kapacitet in energije, da jo bo poganjalo, bo zmagovalec.