„Naujas dirbtinio
intelekto (AI) modelis, kurį išleido mažas Kinijos lyderis, sukrėtė Silicio
slėnį ir pakeitė keletą esminių prielaidų apie AI pažangą.
Dirbtinio intelekto proveržis, siunčiantis
smūgines bangas per akcijų rinkas, gąsdinantis Silicio slėnio gigantus ir
sukeliantis, kvapą gniaužiančią, Amerikos technologinio dominavimo pabaigą,
pasirodė su nekukliu, niūriu pavadinimu: „Skatinti samprotavimo galimybes LLM
per sustiprinimo mokymąsi“.
22 puslapių dokumentas, kurį
praėjusią savaitę išleido mažas kinų A.I. startuolis, pavadintas „DeepSeek“, iš
karto nesugaudė pavojaus varpais. Prireikė kelių dienų, kol mokslininkai
suprato dokumento teiginius ir jame aprašytus padarinius. Bendrovė sukūrė naują
A.I. modelį, pavadintas DeepSeek-R1, sukurtą tyrėjų komandos, kuri teigė
naudojusi nedidelį skaičių antrarūšių A.I. lustų, kad atitiktų pirmaujančių
amerikiečių A.I. modelių konkurentą už nedidelę kainą.
„DeepSeek“ teigė, kad tai padarė, naudodama protingą
inžineriją, pakeisdama nedideles energijos galias. Ir tai padarė Kinijoje,
šalyje, daugelio ekspertų nuomone, tolimoje antroje pasaulinių lenktynių A.I
vietoje.
Kai kurie pramonės
stebėtojai iš pradžių į „DeepSeek“ proveržį reagavo nepatikliai. Žinoma, jie
manė, kad „DeepSeek“ sukčiavo, kad pasiektų R1 rezultatus, arba iškraipė savo skaičius,
kad jų modelis atrodytų įspūdingesnis, nei buvo. Galbūt, Kinijos vyriausybė
skatino propagandą, kad pakenktų Amerikos A.I. dominavimui. Galbūt, „DeepSeek“
slėpė neteisėtų „Nvidia H100“ lustų, uždraustų pagal JAV eksporto kontrolę,
atsargas ir apie tai melavo. Galbūt, R1 iš tikrųjų buvo tik protingi
amerikiečių A.I. modeliai, kurie nelabai atspindėjo tikrosios pažangos kelią.
Galų gale, kai vis daugiau žmonių gilinosi į
DeepSeek-R1 detales, kuris, skirtingai, nei dauguma, pirmaujančių A.I. modelių,
buvo išleistas, kaip atvirojo kodo programinė įranga, leidžianti pašaliniams
asmenims atidžiau ištirti jos vidinį veikimą – jų skepticizmas peraugo į
nerimą.
Ir praėjusios savaitės pabaigoje, kai daugelis
amerikiečių pradėjo naudoti „DeepSeek“ modelius sau, o „DeepSeek“ mobilioji
programa užėmė pirmąją vietą „Apple App Store“, kilo visiška panika.
Skeptiškai vertinu
dramatiškiausias per pastarąsias dienas, pavyzdžiui, vieno Silicio slėnio
investuotojo teiginį, kad „DeepSeek“ yra sudėtingas Kinijos vyriausybės planas
sunaikinti Amerikos technologijų pramonę. Taip pat manau, kad tikėtina, kad
bendrovės biudžetas buvo smarkiai perdėtas arba kad ji atsispyrė nuo Amerikos
A.I. įmonių taip, kaip ji neatskleidė.
Bet aš manau, kad DeepSeek R1
proveržis buvo tikras. Remiantis pokalbiais, kuriuos turėjau su pramonės
atstovais, ir ekspertais, kurie tyrinėjo ir patys išbandė šio straipsnio
išvadas, atrodo, kad kyla abejonių dėl kelių pagrindinių Amerikos technologijų pramonės
prielaidų.
Pirmoji yra prielaida, kad, norint
sukurti pažangiausią A.I. modelį, jums reikia išleisti didžiules pinigų sumas
galingiems lustams ir duomenų centrams.
Sunku pervertinti, kaip ši dogma tapo
pagrindine. Tokios įmonės, kaip „Microsoft“, „Meta“ ir „Google“ jau išleido
dešimtis milijardų dolerių, kurdamos infrastruktūrą, kuri, jų nuomone,
reikalinga naujos kartos A.I. modeliams. Jie planuoja išleisti dešimtis
milijardų daugiau – arba, OpenAI atveju, net 500 milijardų dolerių per bendrą
įmonę su „Oracle“ ir „SoftBank“, apie kurią buvo pranešta praėjusią savaitę.
Atrodo, kad „DeepSeek“ išleido
nedidelę šio pastato R1 dalį.
Mes nežinome tikslios
kainos ir yra daug įspėjimų dėl iki šiol paskelbtų skaičių. Tai beveik
neabejotinai didesni, nei 5,5 milijono dolerių – tiek, kiek bendrovė teigia
išleidusi, mokydama ankstesnį modelį.
Tačiau net jei R1
mokymas kainuotų 10 kartų daugiau, nei teigia „DeepSeek“, ir net jei
atsižvelgsite į kitas išlaidas, kurias jie galėjo neįtraukti, pvz., inžinierių
atlyginimus ar išlaidas už fundamentinius tyrimus, tai vis tiek būtų daug mažiau,
nei amerikiečių A.I. įmonės išleidžia savo pajėgiausiems modeliams sukurti.
Akivaizdi išvada nėra
ta, kad Amerikos technologijų gigantai švaisto savo pinigus. Vis dar brangu
valdyti galingą A.I. modelius, kai jie bus apmokyti, ir yra priežasčių manyti,
kad išleisti šimtus milijardų dolerių vis tiek bus prasminga tokioms įmonėms,
kaip „OpenAI“ ir „Google“, kurios gali sau leisti brangiai mokėti už tai, kad
liktų grupės lydere.
Tačiau „DeepSeek“ proveržis išlaidų
srityje meta iššūkį „kuo didesnis, tuo geriau“ pasakojimui, kuris paskatino
A.I. pastarųjų metų ginklavimosi varžybas, parodydamas, kad santykinai maži
modeliai, tinkamai apmokyti, gali prilygti arba viršyti daug didesnių modelių
našumą.
Tai savo ruožtu reiškia, kad A.I. įmonės gali
pasiekti labai galingų pajėgumų su daug mažesnėmis sąnaudomis investicijų, nei
manyta anksčiau. Ir tai rodo, kad netrukus galime sulaukti investicijų į mažesnius
A.I. startuolius, o Silicio slėnio milžinams – kur kas didesnė konkurencija.
(Dėl milžiniškų modelių rengimo išlaidų iki šiol dažniausiai konkuravo
tarpusavyje.)
Yra ir kitų, labiau techninių
priežasčių, dėl kurių visi Silicio slėnyje atkreipia dėmesį į „DeepSeek“.
Tyrimo dokumente bendrovė atskleidžia kai kurias detales apie tai, kaip iš
tikrųjų buvo pastatytas R1, įskaitant kai kuriuos pažangiausius modelio
distiliavimo būdus. (Iš esmės tai reiškia, kad dideli A.I. modeliai turi būti
suspausti į mažesnius, kad būtų pigiau eksploatuoti, neprarandant našumo.)
„DeepSeek“ taip pat įtraukė detalių,
leidžiančių manyti, kad nebuvo taip sunku, kaip manyta anksčiau, paversti „vanilinį“
A.I. kalbos modelį sudėtingesniu samprotavimo modeliu, papildomai taikant
metodą, žinomą, kaip sustiprinimo mokymasis [1]. (Nesijaudinkite, jei šie
terminai pralekia pro jūsų galvą – svarbu tai, kad AI sistemų, kurias anksčiau
atidžiai saugojo Amerikos technologijų įmonės, tobulinimo metodai dabar yra
internete ir gali būti nemokami.)
Net jei Amerikos technologijų gigantų akcijų
kainos artimiausiomis dienomis atsigaus, „DeepSeek“ sėkmė kelia svarbių
klausimų dėl jų ilgalaikės A.I. strategijos. Jei Kinijos įmonė gali sukurti
pigius atvirojo kodo modelius, atitinkančius brangių amerikietiškų modelių
našumą, kodėl kas nors turėtų mokėti už mūsų? O jei esate Meta – vienintelė JAV
technologijų milžinė, kuri išleidžia savo modelius, kaip nemokamą atvirojo kodo
programinę įrangą – kas trukdo DeepSeek ar kitam startuoliui tiesiog paimti
jūsų modelius, kuriems išleidote milijardus dolerių, ir distiliuoti juos į
mažesnius , pigesnius, modelius, kuriuos jie gali pasiūlyti už centus?
„DeepSeek“ proveržis taip pat sumenkina kai
kurias geopolitines prielaidas, kurias daugelis amerikiečių ekspertų darė apie
Kinijos padėtį A.I. lenktynėse.
Pirma, jis meta iššūkį pasakojimui, kad Kinija
prasmingai atsilieka, kai kalbama apie galingo A.I. modelius. Daugelį metų
daugelis A.I. ekspertų (ir jų klausantys politikos formuotojai) manė, kad JAV
pirmavo mažiausiai kelerius metus ir kad Kinijos įmonėms buvo nepaprastai sunku
greitai nukopijuoti Amerikos technologijų įmonių pažangą.
Tačiau „DeepSeek“ rezultatai rodo, kad Kinija
pažengė į priekį A.I. galimybėse, kurios gali atitikti arba viršyti modelius iš
OpenAI ir kitų Amerikos A.I. ir kad JAV firmų padarytus laimėjimus Kinijos
įmonėms – ar bent vienai Kinijos įmonei – gali būti labai lengva pakartoti per
kelias savaites.
(„The New York Times“
padavė į teismą OpenAI ir jos partnerę „Microsoft“, apkaltindama juos naujienų
turinio, susijusio su AI sistemomis, autorių teisių pažeidimu. „OpenAI“ ir
„Microsoft“ šiuos teiginius atmetė.)
Rezultatai taip pat kelia klausimų,
ar JAV vyriausybė ėmėsi veiksmų, kad apribotų galingo A.I. sistemos mūsų
priešams – būtent eksporto kontrolė, naudojama, siekiant užkirsti kelią, kad
galingi A.I. lustai nepatektų į Kinijos rankas – veikia taip, kaip numatyta, ar
reikia pritaikyti tas taisykles, kad būtų atsižvelgta į naujus, efektyvesnius,
mokymo būdus.
Vis dar nesu tikras,
koks bus visas „DeepSeek“ proveržio poveikis, ar R1 išleidimą laikysime
„Sputnik momentu“ A.I. pramonėje, kaip kai kurie teigė.
Tačiau atrodo
protinga rimtai atsižvelgti į galimybę, kad esame naujoje A.I. eroje dabar –
kad didžiausios ir turtingiausios Amerikos technologijų įmonės nebegali laimėti
pagal nutylėjimą.
Bent jau „DeepSeek“
parodė, kad A.I. ginklavimosi varžybos tikrai vyksta, o po kelerių metų
svaiginančios pažangos vis dar laukia staigmenos. [2]
2. Why DeepSeek Could Change What Silicon Valley Believes About A.I.Roose, Kevin. New York Times (Online) New York Times Company. Jan 28, 2025.