„Liang Wenfeng yra vienas iš „Nature“ dešimtuko – sąrašo žmonių, kurie 2025 m. formavo mokslą.“
Praėjusių metų sausį Kinijos pranešimas sukrėtė dirbtinio intelekto pasaulį. Įmonė „DeepSeek“ netikėtai išleido savo galingą, bet pigų R1 modelį – akimirksniu parodydama, kad Jungtinės Valstijos dirbtinio intelekto srityje nėra taip toli pažengusios, kaip manė daugelis ekspertų.
Už šio skandalingo pranešimo slypi Liang Wenfeng, 40 metų buvęs finansų analitikas, kuris, kaip manoma, uždirbo milijonus dolerių taikydamas dirbtinio intelekto algoritmus akcijų rinkoje, o 2023 m. gautus pinigus panaudojo „DeepSeek“ įkūrimui Hangdžou mieste. Liang vengia dėmesio ir davė tik keletą interviu Kinijos spaudai (jis atsisakė prašymo kalbėti su „Nature“).
Liang modeliai yra tokie pat atviri, kaip ir slapti. R1 yra „samprotaujantis“ didelis kalbos modelis (LLM), kuris puikiai sprendžia sudėtingas užduotis – pavyzdžiui, matematikoje ir programavime – jas suskaidydamas į... žingsnių. Tai buvo pirmasis tokio pobūdžio modelis, išleistas kaip atvirojo svorio modelis, o tai reiškia, kad modelį galima nemokamai atsisiųsti ir tobulinti, todėl tai buvo palaima tyrėjams, norintiems pritaikyti algoritmus savo sričiai. „DeepSeek“ sėkmė, regis, paskatino kitas Kinijos ir Jungtinių Valstijų bendroves pasekti jos pavyzdžiu ir išleisti savo atviruosius modelius.
Nepaisant to, kad R1 turi daug galimybių, kurios prilygsta geriausiems JAV modeliams, įskaitant tuos, kurie palaiko „ChatGPT“, jo mokymo išlaidos buvo daug mažesnės nei konkuruojančių bendrovių, teigia dirbtinio intelekto ekspertai. Pavyzdžiui, „Meta“ „Llama 3 405B“ modelio mokymo išlaidos buvo daugiau nei dešimt kartų didesnės. „DeepSeek“ siekis užtikrinti skaidrumą apėmė ir R1 kūrimo bei treniravimo detalių paskelbimą, kai rugsėjį modelis tapo pirmuoju svarbiu teisės magistro (LLM) modeliu, kuris buvo peržiūrėtas kolegų (D. Guo ir kt. Nature 645, 633–638; 2025). Išleisdama savo receptą, „DeepSeek“ išmokė kitus dirbtinio intelekto tyrėjus, kaip apmokyti samprotavimo modelį.
Daugeliu atžvilgių, „DeepSeek“ padarė didžiulę įtaką“, – teigia Adina Yakefu, tyrėja bendruomenės dirbtinio intelekto platformoje „Hugging Face“, įsikūrusioje Niujorke.
Dirbtinio intelekto aukštumos toli gražu nepasiekiamos Guangdongo provincijos kaime, kuriame Liangas užaugo dviejų pradinės mokyklos mokytojų šeimoje. Aukštasis išsilavinimas jį nuvedė į prestižinį Džedziango universitetą Hangdžou, kur 2010 m. jis įgijo inžinerijos magistro laipsnį; jo baigiamasis darbas buvo susijęs su algoritmų, skirtų objektams vaizdo įrašuose sekti, kūrimu. Netrukus jis pritaikė savo meilę dirbtiniam intelektui finansų rinkose ir 2015 m. įkūrė rizikos draudimo fondą „High-Flyer“, kuris 2023 m. atsiskyrė nuo „DeepSeek“.
Tuo metu Kinija susidūrė su kliūtimi kurdama teisės magistro (LLM) technikus. JAV eksporto kontrolė neleido Kinijos įmonėms pirkti tam tikrų galingų kompiuterių lustų, vadinamų grafikos procesoriais (GPU), kuriuos gamina JAV lustų gamintojas NVIDIA, ir kurie tinka LLM technikų mokymui. Tačiau Liangas jau buvo gerai aprūpintas. Ankstesnį dešimtmetį jis pirko 10 000 NVIDIA GPU, vedamas smalsumo, kokius tyrimus būtų galima atlikti su... juos. 2023 m. interviu Kinijos žiniasklaidos bendrovei „36Kr“ jis palygino jų pirkinį su pianino pirkimu namams: „Žmogus gali jį sau leisti, ir yra grupė, norinčių juo groti.“
Kaip ir daugelis Vakarų dirbtinio intelekto verslininkų, Liangas siekė sukurti dirbtinį bendrąjį intelektą – dirbtinio intelekto sistemas, tokias pat įgudusias kaip žmonės atliekant kognityvines užduotis, – ir savo įmonę sukūrė remdamasis tuo, sako buvęs „DeepSeek“ tyrėjas Benjaminas Liu. Įmonė samdydama darbuotojus teikia pirmenybę žmogaus potencialui, o ne jo patirties lygiui (vienas „DeepSeek R1“ straipsnio autorius vis dar mokosi vidurinėje mokykloje), ir veikia be jokios hierarchijos, tyrėjams patiems sprendžiant, su kuo dirbti. Sakoma, kad Liangas glaudžiai dalyvauja tyrimuose ir „net tokie praktikantai kaip aš buvo traktuojami kaip etatiniai darbuotojai, turintys prasmingų pareigų“, – sako Liu.
Tyrėjai iš išorės yra sužavėti „DeepSeek“ veikimo. Užuot išnaudojusi jos populiarumą komercinei sėkmei, „nuostabu, kaip „DeepSeek“ išliko pasiryžusi spręsti gana sudėtingas pamatines problemas“ dirbtinio intelekto tyrimuose, sako Kwan Yee Ng, vadovaujantis tarptautiniam dirbtinio intelekto valdymui Pekine įsikūrusioje konsultacinėje įmonėje „Concordia AI“, kuri daugiausia dėmesio skiria dirbtinio intelekto saugumui.
„DeepSeek“ modeliai yra giliai įsitvirtinę Kinijos gyvenime: vietos valdžios institucijos juos naudoja pokalbių robotų linijoms valdyti ir piliečiams padėti. pildo formas, ir dešimtys milijonų žmonių jas kasdien naudoja kaip šalies socialinės žiniasklaidos platformos „WeChat“ dalį. Iš dalies ši tendencija atsirado dėl vyriausybės siekio integruoti dirbtinį intelektą į ekonomiką per įvairias programas – nuo išmaniųjų miestų iki sveikatos priežiūros.
„DeepSeek“ taip pat tapo šalies reputacijos perėjimo simboliu – nuo meistrų mėgdžiotojų iki tikrų novatorių, teigia Liang ir kiti Kinijos tyrėjai. „Pokyčiai yra realūs ir jie spartėja“, – sako Yu Wu, „DeepSeek“ tyrėjas. Dabar pasaulis nekantriai laukia pateikiant kitą įmonės samprotavimo modelį – R2, kuris, kaip gandai, buvo atidėtas dėl techninės įrangos ir mokymo duomenų problemų. Viena gera prielaida yra ta, kad Liango įmonė planuoja nemokamai suteikti R2 pasauliui. „Esame amžinai įsipareigoję atvirojo kodo programoms“, – sako Wu.“ [1]
1. Nature 648, 526 (2025) By Elizabeth Gibney
Komentarų nėra:
Rašyti komentarą