Microsoft je predstavil BitNet b1.58, nov odprtokodni velik jezikovni model (LLM), optimiziran za učinkovitost namesto velikosti. V industriji, kjer že dolgo prevladujejo vse večji AI modeli, BitNet nakazuje novo fazo konkurence: narediti več z manj. BitNet b1.58 uporablja kombinacijo ternarne kvantizacije uteži (-1, 0, +1) in 8-bitne kvantizacije aktivacij, kar močno zmanjša računske zahteve modela. Namesto običajnih 16-bitnih ali 32-bitnih zapisov z lebdečo vejico BitNet uporablja bolj stisnjene reprezentacije, kar omogoča učinkovito delovanje tudi na osnovni potrošniški strojni opremi.
"Učenje velikih jezikovnih modelov z uporabo nizkoločljivih uteži je pomembna smer za večjo učinkovitost tako pri učenju kot pri izvajanju," je zapisala Microsoftova raziskovalna ekipa na svoji strani na Hugging Face. "Naše delo dokazuje, da lahko 1–2-bitni modeli dosežejo primerljivo zmogljivost s polno natančnimi modeli."
Z okoli dvema milijardama parametrov, izurjenimi na štirih bilijonih besedilnih enot, BitNet b1.58 dosega konkurenčne rezultate ob bistveno manjši porabi pomnilnika in energije. Po Microsoftovih podatkih BitNet porabi do 96 odstotkov manj energije kot tradicionalni modeli enakega razreda.
Preberi še

Nove oblike dela: Zaposleni postajajo 'šefi' agentov AI
Na delovnim mestih so med sodelavci tudi agenti umetne inteligence.
27.04.2025

Nehajte se zahvaljevati ChatGPT-ju. Vaša prijaznost ga stane milijone
Pisanje "prosim" in "hvala" ChatGPT-ju podjetje stane desetine milijonov dolarjev.
25.04.2025

Ko Mark Zuckerberg in Elon Musk urejata promet
Neznani hekerji so na prehodih za pešce zamenjali uradne zvočne ukaze z glasovi znanih tehnoloških milijarderjev.
15.04.2025

Evropa lahko izstopi iz sence Silicijeve doline
Če bo rast sektorja umetne inteligence trpel zaradi carin na aluminij, jeklo in baker, bo ameriška tehnologija morda končno dobila konkurenco.
10.04.2025

Kitajski DeepSeek predstavi novo metodo učenja AI: hitrejše, cenejše, pametnejše
DeepSeek in Tsinghua razvijata AI, ki se med delovanjem sproti izboljšuje.
12.04.2025
Izziv uveljavljenim velikanom
Microsoftova poteza ostro kontrira širšemu trendu največjih razvijalcev umetne inteligence. OpenAI-jev GPT-4, Googlov Gemini 1.5 in Metin Llama 3 se še naprej večajo, s čimer naraščajo tudi zahteve po zmogljivih podatkovnih centrih, GPU-jih in visokih obratovalnih stroških. V primerjavi s tem BitNet deluje na procesorjih s skromnimi zahtevami glede pomnilnika. Testi kažejo, da lahko na prenosniku z Apple M2 čipom deluje že z 0,4 GB RAM-a, kar je le delček v primerjavi z zahtevami običajnih modelov.
Podporna infrastruktura, imenovana bitnet.cpp, je zasnovana za čim večjo optimizacijo procesorske zmogljivosti. Microsoft navaja, da model dosega do 6,17-kratno pospešitev na standardnih x86 procesorjih in zmanjšuje porabo energije med izvajanjem za 82 odstotkov v primerjavi s FP16 modeli.
Ta poudarek na energetski učinkovitosti prihaja v času, ko se povečujejo kritike glede okoljskega odtisa umetne inteligence. Na primer, za učenje GPT-3 je bilo porabljenih več kot 1.287 megavatnih ur električne energije—kar ustreza letni porabi več sto gospodinjstev. BitNetov odtis je zasnovan tako, da je neprimerljivo manjši.
Nova priložnost za razvijajoče trge
Za razvijajoče trge BitNet ponuja več kot le tehnično novost; predstavlja premik k širši dostopnosti umetne inteligence. V regiji, kjer je dostop do vrhunske računalniške infrastrukture omejen, možnost izvajanja naprednih modelov na lokalno dostopni opremi lahko močno pospeši razvoj AI rešitev. Ker je BitNet odprtokoden in objavljen pod licenco MIT, razvijalcem in raziskovalcem omogoča popolno svobodo prilagajanja, brez licenčnih omejitev ali visokih stroškov.
"Takšna dostopnost je ključna za demokratizacijo umetne inteligence," je dejal Linas Beliūnas, strokovnjak za umetno inteligenco, ki je izpostavil BitNetov izid na LinkedInu. "Zdaj za delo z velikimi jezikovnimi modeli ne potrebujete več superračunalnika."
Širši pomen
BitNet ni brez omejitev. Njegova lahka arhitektura lahko težje obvladuje kompleksna logična vprašanja ali ustvarjalne naloge, kjer so obsežnejši modeli boljši. Microsoft priznava, da je BitNet b1.58 predvsem raziskovalni model, namenjen dokazovanju, da je ekstremna kvantizacija možna, in ne nujno popoln nadomestek za vse vrste nalog. Kljub temu so strateške posledice jasne: s porastom regulacije umetne inteligence in vse večjimi stroški delovanja bi lahko postali učinkoviti modeli kmalu nova norma.