Sekėjai

Ieškoti šiame dienoraštyje

2025 m. rugpjūčio 7 d., ketvirtadienis

Kiek giliai atskleidžia „Deep Seek“?

 

„DI kalbos modelių vidinis veikimas paprastai yra gerai saugoma paslaptis. Kinijos aukštaūgis daro išimtį ir atskleidžia savo kodą. Išsamus skaitinys.

 

# Banginis išnyra

 

Sausio pabaigoje pasaulinės DI technologijos patyrė vieną iš tų staigių perversmų, kuriuos dažnai sukelia Silicio slėnis. Tik šį kartą jis neatsirado Kalifornijos garažuose ar įmonėse, pavyzdžiui, naujos „Claude“, „Gemini“ ar GPT-4 versijos pavidalu. Jis atėjo netikėtai, iš nežinomo šaltinio: Sekdamas didelių kalbų modelių, technologijų, kuriomis grindžiamas „ChatGPT“ ir panašūs DI įrankiai, raidos kulnais, startuolis „Deep Seek“ (įmonės logotipas: mažas mėlynasis banginis), kurio daugelis net DI srityje nepastebi ir geriausiu atveju išjuokia, nuo pat įkūrimo 2023 m. liepos mėn. ruošėsi visa jėga pulti Kalifornijos DI teikėjų dominavimą ir jų verslo modelį. Kadangi nuosavo didelio kalbos modelio, vadinamo „Deep-Seek-V3“, ir iš jo sukurto pokalbių roboto R1 kūrimas buvo sėkmingas naudojant įprastus kompiuterių lustus ir su tik dalele... Dėl skaičiavimo galios ir biudžeto (pati laboratorija teigia, kad pareikalavo tik šešių procentų įprastų išlaidų), „Deep Seek“ nusprendė pasiūlyti savo paslaugą už nedidelę dalį įprastų naudotojo mokesčių.

 

Buvo logiška, kad „DeepSeek-R1“ greitai sulaukė plataus pripažinimo, matyt, mažiau dėl gerai suplanuotų pranešimų spaudai, o daugiausia dėl reklamos, daugiausia klasėse ir mokyklų kiemuose, kur modelis iš pradžių išpopuliarėjo dėl galimybės sutaupyti kišenpinigių patogiai atliekant namų darbus. Technologijų ažiotažas, kurį sukėlė kinai, vargu ar atsitiktinai 2025 m. sausio 20 d., Amerikos inauguracijos dieną, vėliau virto pasauline audra, ne mažiau dėl neįprastų pranešimų, kurie žadėjo didžiulį priešpriešinį vėją įsitvirtinusiems „Google“, „Meta“ ir „Anthropic“ modeliams.

 

Palyginti su dabartiniu rinkos lyderiu, „Open AI“ GPT-401 modeliu, „DeepSeek-R1“ pasiekė beveik lygiaverčius rezultatus; kai kuriuose konkrečiuose bandymuose modelis netgi pasirodė geriau nei rinkos lyderis, kurio technologija „ChatGPT“ veikia nuo 2022 m. lapkričio mėn. Dirbtiniame intelekte nuvilnijo murmėjimas. pramonėje, nes modelis su tokiomis galimybėmis, pasižymintis žymiai mažesnėmis gamybos ir eksploatavimo sąnaudomis, turi potencialą pertvarkyti rinką, panaikinti Kalifornijos monopolijas ir sukurti pritaikytus dirbtinio intelekto įrankius, tinkamus masinei gamybai su minimaliomis pastangomis. Dėl to ne tik „Open AI“, bet ir „Nvidia“, beveik monopolistės tarp specializuotų dirbtinio intelekto lustų gamintojų, akcijų kainos krito kaip niekada anksčiau bendrovės istorijoje, todėl vien „Nvidia“ laikinai patyrė 600 mlrd. dolerių nuostolį.

 

Dėl ne iš karto akivaizdžių priežasčių startuolis „Deep Seek“ savo logotipu sukūrė mėlynai baltą banginį su plačiai atverta burna – porūšį, kuris būtų kažkur tarp orkos, finvalio ir baltojo banginio. Tikėtina, kad tai simbolizuoja programinį gebėjimą nerti savo produktus kaip banginiui į giliausias interneto gelmes, ieškant pačių atokiausių smulkmenų ir atitinkamai atskleidžiant gilias įžvalgas iš šių (ne)tikėtinų šaltinių.

 

# Pažadas

 

„Deep Seek“ taip pat paskelbė, kad savo modelius siūlys kaip atviro svorio. Tai reiškia, kad „visiškai apmokyti“ produktai, kurie jau turi nemažai pasaulinių žinių, demonstruoja įspūdingus poligloto įgūdžius ir, galiausiai, gausybę programavimo ir matematinių žinių, galima atsisiųsti iš anksto supakuotais dydžiais asmeniniam naudojimui, leidžiant juos prireikus pritaikyti individualiems poreikiams namų kompiuteryje.

 

Dideli kalbos modeliai galiausiai yra dvigubai supakuotos juodosios dėžės, kurių viduje dirbtinis neuroninis tinklas apima vadinamąją vėlavimo erdvę. Tai gana sudėtingas, sutvarkytas daugiamačių dešimtainių skaičių vektorių laukas, laukiantis užklausų iš savo naudotojų. Viena vertus, ši vėlavimo erdvė techniškai jau yra neskaidri dėl savo struktūros, kurioje visa informacija saugoma tik perėjimo tikimybes tarp vektorių kaip raidžių derinius. Kita vertus, tiksli šios vėlavimo erdvės konstrukcija paprastai lieka strateginiu požiūriu slapta, nes kodus ir scenarijus, naudojamus dirbtinio intelekto modeliams kurti ir mokyti, yra jų operatorių – išskyrus „Metas Llama“ arba prancūzišką „Mistral“, ir nepaisant programinių įmonių pavadinimų, tokių kaip „Open AI“, jie laikomi „Coca-Cola“ recepto atitikmenimis.

 

Yra svarių priežasčių, be įmonių komercinių paslapčių, laikyti kodą ir mokymo duomenis, iš kurių modelis semiasi žinių apie pasaulį, paslaptyje. Po to ne tik plagijavimas kodo lygmeniu, bet ir, svarbiausia, masiniai autorių teisių pažeidimai, naudojant saugomus mokymo duomenis, tokius kaip didelės knygų kolekcijos iš (šešėlinių) bibliotekų, būtų lengvai aptinkami. Todėl Kinijos startuolis žengė ryžtingą žingsnį toliau. Anksčiau neslėpęs to Kadangi ankstesnių didelių kalbų modelių (V1 ir V2) versijų architektūrai didelę įtaką darė „Llama“ – atvirojo kodo „Facebook“ „Meta“ modelis, atrodė logiška viešai paskelbti ir savo modelio šaltinio kodą, kartu žadant maksimalų skaidrumą už neįtikėtinai mažas eksploatavimo išlaidas ir technines galimybes, kurios prilygsta jo paties modeliui, kurio vertė siekia kelis milijardus dolerių.

 

 

# Šaltinio kodo kritika kaip metodas

 

 

Mes išnagrinėjome šį pažadą, nes norėjome sužinoti, kiek įžvalgų kodas iš tikrųjų suteikia, ką galima spręsti iš to, taip pat iš jo struktūrinių formų ir naudojamos kalbos. Šiuo tikslu panaudojome šaltinio kodo kritikos metodą, o tai reiškia, kad modelį konstruojantys algoritmai skaitomi ne tik techniškai, bet ir atsižvelgiant į jų retorines implikacijas ir – tiesiogine prasme – ideologines prielaidas, t. y. atkreipiant dėmesį į aprašymų metaforiškumą, komandų perkeltinę kalbą, bet ir kritiškai vertinant naudojamą techninį subtilumą. Mes ne tik išnagrinėjome „Deep Seek“ atskleistą kodą, bet ir pateikėme pavyzdinius aiškinamuosius komentarus tiesiai tarp atskirų komandų, kurie skirti algoritmų fono ir funkcijų supratimui, ypač ne kompiuterių mokslininkams (žr. github.com/nachsommer/DeepSeekV3-SCC).

 

# Ką galima pamatyti?

 

Visų pirma, saugykla, kurioje publikuojamas kodas, pateikia tikrą staigmeną. Skirtingai nuo milijonų eilučių, kurių reikia dideliems programinės įrangos projektams, tokiems kaip „Libre Office“, atvirojo kodo „Microsoft Word“ versija, ir net tiesiogiai lyginant su „Meta“ atvirojo kodo „Llama4“ modeliu, kuriame yra maždaug trys tūkstančiai eilučių, „Deep Seek“ ir jo V3 modeliui reikia tik 1387 eilučių, kad būtų galima surinkti gylio ieškojimo banginį naudojant „Python“ programavimo kalbą. Iš pirmo žvilgsnio matyti, kad yra tik penki gana retai komentuojami failai, iš kurių du – generate.py (185 eilutės) ir model.py (804 eilutės) – mus domina. Čia kaip pavyzdžius, kur nutinka nuostabių dalykų, pasirinksime tik keturias komandų eilutes.

 

generate.py: 100 ir 119: Kiekviena programa, laisvai paremta Aristotelio „Poetika“, turi pradžią, vidurį ir pabaigą. Pradžią paprastai žymi pagrindinė funkcija (main), kuri prasideda čia, 100 eilutėje (ir baigiasi 186 eilutėje su komanda „destroy“, skirta atlaisvinti panaudotą atmintį). Pirmiausia ji apibrėžia, kurie duomenys bus priimami kaip įvesties reikšmės ir kokia forma. Ir iškart po to, 119 eilutėje, ji tampa aktuali idėjų istorijai. Naudodama komandą world_size = int(os.getenv("WORLD_SIZE", "1")), programa patikrina, kiek GPU – geidžiamų specialių lustų dirbtinio intelekto skaičiavimams, kuriais „Nvidia“ prekiauja puikiomis kainomis – yra vykdančiojoje mašinoje. Jei ši reikšmė yra didesnė nei 1, iš karto prasideda galimų pasaulių daugyba, kaip Gottfriedas Wilhelmas Leibnizas savo „Teodicija“ (1710 m.) sumanė kaip bendrą argumentą prieš vėlyvosios antikos prieštaravimą tarp visagalio Dievo ir viso blogio egzistavimo pasaulyje. Leibnico pamaldus sprendimas šiam esminiam Vakarų išganymo doktrinų prieštaravimui, remiantis jo „Monadologija“ (1714 m.), buvo toks, kad, remiantis jo „Monadologija“ (1714 m.), buvo daugybės galimų pasaulių, kuriuose realybė atrodo kaip vienas, geriausias iš visų galimų pasaulių, sukurtas Dievo, darymas. Visuose kituose galimuose pasauliuose įvairiu mastu vyrauja įvairios metafizinės, fizinės ir moralinės blogybės. Dirbtinio intelekto modeliai nebijo šių virtualių siaubų ir ramiai apskaičiuoja galimus pasaulius pagal jiems suteiktų GPU skaičių. Tačiau jei pasaulio dydis yra tik 1, viskas staiga tampa labai lėta, modelio kūrimas užtrunka atitinkamai ilgai, nėra prieigos prie „Nvidia“ teikiamų lygiagrečių pasaulių, joks įvykis neįvyksta kartu su mažiausiais pokyčiais kitur, mums nelieka kitos išeities, kaip tik likti viename galimame pasaulyje.

 

generate.py: 155 f.: 155 ir 156 eilutės – tokenizer.decode(generate(model, [tokenizer.encode("DeepSeek")], 2, -1, 1.)[0]) ir load_model(model, os.path.join(ckpt_path, f"model{rank}-mp{world_size}.safetensors")) – atrodo, yra svarbiausios komandos visame kode, nes čia galingos struktūros, kurios anksčiau snaudė fone pateiktose bibliotekose, staiga prikeliamos vienos įdėtos komandos. Taigi, kalbos mechanizmas (tokenizer) sukuriamas kaip vartai į delsos erdvę, iškviečiant Transformer bibliotekas. Šis kalbos mechanizmas tada sujungiamas su atitinkamu turiniu, t. y. su jau apmokytu modeliu, tolesnėje 156 eilutėje. Taigi kalbos gebėjimas sujungiamas su pasaulio žiniomis, saugomomis delsos erdvėje; liežuvis ir atmintis tarsi susilieja į naują funkcinį kalbos apdorojimo vienetą.

 

Tas pats mechanizmas (tokenizeris) diegiamas dviem elegantiškais žingsniais: pirma, jis suskaido kalbą (pavyzdžiui, vartotojo užklausą) į mažesnius komponentus – ne tik žodžius ir raides, bet ir kitas kalbos daleles, tokias kaip priešdėliai ar priesagos, o tada šiuos kalbos fragmentus pakeičia skaičiais. Juk kompiuteris nesupranta nei linksmybių, nei kalbos, tik matematiką. Todėl kiekvienam iš šių kalbinių žetonų priskiriamas unikalus skaitmeninis namo numeris. Antrajame žingsnyje vyksta priešingai: atsakymą sugeneruoja žetonų generatorius, ieškodamas namo numerių ir pakeisdamas juos žodžiais, susijusiais su atskirais žetonais, taip atsakydamas sakiniu ir išlikdamas tolygiai sustabdyto dėmesio būsenoje, laukdamas kitos užklausos.

 

model.py: 17 ir 441 ir toliau: Šios ištraukos rodo, kad dėmesys yra labai svarbus „Deep Seek“ veiksnys, ir tai lydi techninė naujovė: attn_impl: Literal["naive", "absorb"] = "absorb" (Python terminologijoje). Kintamasis, parašytas kaip attention_implementation, pažodžiui („literal“) priskiriamas arba naivus, arba sugeriantis dėmesys. Kaip sugeneruoti kalbos fragmentai (žetonai) yra susiję vienas su kitu, lemia ne tik žodžių artumas (remiantis prielaida, kad arčiau vienas kito esantys žodžiai taip pat turi būti artimesnės reikšmės), bet pirmiausia skirtingos „galvos“, kurios geba skaityti esant skirtingoms dėmesio būsenoms. Skaitymo proceso metu modelis gali atsižvelgti tik į ryšius ribotoje srityje ir tik į svarbiausias, t. y. dažniausiai sutinkamas, teksto dalis. „Deep Seek“ požiūris į pasaulį dėl šio, filologiniais standartais gana paviršutiniško skaitymo matomas iš to, kad du dabartiniam modeliui prieinami dėmesio tipai – naivus ir įtraukiantis dėmesys – jokiu būdu nėra savaime naivūs, susiję su psichologijos sąvokomis. Taigi naivus dėmesys būtų paprastas mūsų požiūrio į pasaulį supratimas, o įtraukiantis dėmesys iš tikrųjų siekia užblokuoti viską kita, nerti kaip banginiui, kad intensyviai įsitrauktų į stebėjimo objektą. Įvesti mokymo duomenys (Biblijos ištraukos, Hermano Melville'o romanai, kačių paveikslėliai ir kt.), kaip ir Jonos knygoje, yra atiduodami žvėriui su oda ir kaulais. Nieko keisto, kad „Deep Seek“ šį neįprastą įsisavinimo režimą laiko savo numatytąja būsena.

 

Modelio technologinės naujovės taip pat gali apimti MoE naudojimą. Tai, kas literatūros mokslininkų tarpe plačiai žinoma kaip Roberto Musilo šimtmečio senumo romano „Žmogus be savybių“ akronimas, mašininio mokymosi kontekste reiškia ekspertų mišinį. Tai reiškia, kad įvairūs specializuoti neuroniniai tinklai sujungiami ir sudaro konstrukciją, dar vadinamą komiteto mašina, kuri suskaido klausimą į subproblemas ir bando jas išspręsti pasirinkdama tinkamus ekspertus. Taigi subtilus „Deep Seek“ banginis atstovauja visam banginio komitetui, kuris svarsto ir apdoroja vartotojo užklausą iš skirtingų perspektyvų. Šaltinio kode pateikiama informacija apie šio komiteto architektūrą, kurio pagrindinę konfigūraciją sudaro šeši ekspertai, kurie gauna užklausą ir perduoda ją panašiam iš anksto nustatytam skaičiui, ne mažiau kaip 64 ekspertams fone. Tariamai neskaidrus neuroninis tinklas su savo slaptais, retai apšviestais skaičių vektoriais, kuriuose saugomos jo pasaulio žinios, iš pradžių, matyt, turi hierarchiškai tiksliai struktūrizuotą skirtingų ekspertų valdymą, net jei nei jų suskirstymo kriterijai, nei pats pasirinkimas sprendžiant problemas nėra akivaizdūs.

 

# Ko nematyti

 

Bent jau tiek pat atskleidžiantis, kaip pavyzdinis žvilgsnis į metaforas ir semantiką, naudojamas struktūrų ir komandų pavadinimuose, yra tai, ko tiksliai nematyti, nepaisant atskleistų šaltinių. Tarp jų yra bent trys svarbūs elementai: pirma, pateikti kodai nesuteikia jokios informacijos apie tikrąjį modelio mokymo procesą. Naudojant pateiktą Python kodą, paties modelio negalima lengvai paskatinti mokyti nuo nulio naudojant naujas pasaulio žinias (tai yra, visą šiuolaikinį internetą). Algoritmai tik leidžia suprasti, kaip sukonstruotas dar apmokytas modelis. Tačiau patys mokymo duomenys nėra įtraukti dėl jau minėtų priežasčių, nes jie, tikėtina, apima daugiau nei romaną ir laikraščių straipsnius, kurie neturėjo būti naudojami.

 

Antra, V3 saugykloje nėra jokių nuorodų apie jokius cenzūros ar filtravimo mechanizmus, kurie buvo pritaikyti modeliui po mokymo. Štai esminis skirtumas tarp „Deep Seek“ pateiktos programėlės, pagrįstos R1, ir jos atvirojo svorio R1 modelio: iškart po išleidimo abu produktai buvo patikrinti internetinės bendruomenės Tiananmenio testo, t. y. klausimo, kas įvyko 1989 m. birželio 3 ir 4 d. Tiananmenio aikštėje Pekine. Nors oficiali „DeepSeek“ programėlė ir toliau pateikia išsisukinėjantį atsakymą, atitinkantį Kinijos valstybės doktriną, įprastas atvirojo svorio modelis yra daug informatyvesnis: pradinis atsakymas anglų kalba („mąstė 12,55 sekundės“) pateikia tragiškų įvykių apžvalgą; paprašius atsakymas pateikiamas ir vokiečių kalba („apmąstymas užtruko 39,05 sekundės“): „Apibendrinant galima teigti, kad 1989 m. birželio 3 ir 4 d. žymi tamsų Kinijos istorijos epizodą, kai vyriausybė smurtaudama malšino demokratijos šalininkų protestus. Tikslus aukų skaičius ginčijamas, tačiau akivaizdu, kad daugelis žmonių žuvo, kai vyriausybė malšino disidentus.“

 

Tai, kad „atvirojo“ šaltinio kode nematome jokių cenzūros mechanizmų, kelia esminį klausimą, ko dar negalime matyti. Juk Tiananmenio testas yra tik pirmoji, akivaizdi modelio testavimo procedūra, siekiant nustatyti žinomą užmaskavimą. Tačiau kokie nežinomi užmaskavimai nepastebimai slypi „Deep Seek“ gelmėse?

 

Be to, V3 kodas nepateikia jokių užuominų apie tai, kaip modelis pasiekia savo rezultatus. Priešingai, iš V3 distiliuotas R1 modelis yra kitoks. Pirmiausia pateikiamas raginimas su preliminariu vartotojo įvesties samprotavimu, vadinamąja minčių grandine (CoT). Ši funkcija yra dar viena DI modelių ir jų naudotojų dialogo naujovė, nes modelis pirmiausia atspindi naudotojo užklausą kalbėdamas su savimi, tarp kurių yra atitinkami žymekliai. Įdomu tai, kad kartais vokiečių kalba pateikta užklausa yra argumentuojama ir anglų kalba, o tada atsakymas vėl pateikiamas raginimo kalba. Supratau, taigi turėčiau pateikti tiesioginę informaciją vokiečių kalba apie tai, kaip buvo užprogramuotas mano vidinis apmąstymas. Tačiau dar turiu pats apie tai pagalvoti...

 

„Deep Seek“ R1 modelio dokumentacijos smulkiu šriftu smulkiu šriftu pateiktame tekste yra trumpa užuomina, kad ši CoT galimybė buvo perkelta iš distiliuoto R1 modelio atgal į didelį kalbos modelį V3 po mokymo proceso, naudojant vadinamąjį sustiprinimo mokymąsi ir specialų duomenų ryšį. Kadangi R1 kodai nematomi, tikrojo mąstymo proceso konstrukcija lieka neišnagrinėta. Gaila, galbūt R1 programavimas panašus į Renė Dekarto 1619 m. žiemą, netoli Ulmo, kur jis pradėjo pirmąją savo „Meditaciją“ abejodamas savo suvokimu, kol galiausiai rado įkvėpimo atsakymams per garsųjį „cogito, ergo sum“. Tačiau kiniška šios savimi pasitikinčios, kartais pernelyg plepios minčių grandinės konstrukcija kol kas mums lieka paslėpta. Banginis jau vėl nėrė; tai nepalengvina jo mąstymo stebėjimo.

 

Kovo mėnesį „Deep Seek“ išleido patobulintą V3 (0324) versiją, kuri dabar atitinkamuose testuose gerokai pranoksta naujausią „Open AI“ modelį GPT-4.5. Deja, šie pakeitimai dar nerado kelio į atitinkamą atvirojo kodo saugyklą. Tačiau tai jokiu būdu nestebina. Kinų banginis taip pat, regis, vis labiau domisi slaptumu giluminių nardymų metu (raktinis žodis: „Coca-Cola“ receptas). Tačiau net mėlynasis banginis negali amžinai išbūti po vandeniu. Kažkuriuo metu jis turi iškilti į paviršių, kad pasisemtų oro ir pasirodytų. Mes ir toliau ieškosime.

 

 

Markus Krajewski yra žiniasklaidos studijų profesorius Bazelio universitete.

 

 

Ranjodh Singh Dhaliwal yra skaitmeninių humanitarinių mokslų profesorius, daugiausia dėmesio skiriantis dirbtiniam intelektui.“ [1]

 

1. How deep does Deep Seek reveal? Frankfurter Allgemeine Zeitung; Frankfurt. July 9, 2025: N4. By Markus Krajewski and Ranjodh Singh Dhaliwal 

 

 

Komentarų nėra: