Sekėjai

Ieškoti šiame dienoraštyje

2025 m. vasario 14 d., penktadienis

Kaip „DeepSeek“ sukūrė jo dirbtinį intelektą su mažiau pinigų?


 „Kinijos startuolis panaudojo keletą technologinių gudrybių, įskaitant metodą, vadinamą „ekspertų mišiniu“, kad žymiai sumažintų technologijos kūrimo išlaidas.

 

 Praėjusį mėnesį JAV finansų rinkos smuktelėjo po to, kai Kinijos startuolis „DeepSeek“ pareiškė sukūręs vieną galingiausių pasaulyje dirbtinio intelekto (A.I.) sistemų, naudodamas daug mažiau kompiuterių lustų, nei daugelis ekspertų manė, kad reikia.

 

 A.I. įmonės paprastai moko savo pokalbių robotus, naudodamos superkompiuterius, kuriuose yra 16 000 ar daugiau specializuotų lustų. Tačiau „DeepSeek“ teigė, kad jam reikia tik apie 2 tūkst.

 

 Kaip „DeepSeek“ inžinieriai detalizavo tyrimo dokumente, paskelbtame iškart po Kalėdų, startuolis panaudojo keletą technologinių gudrybių, kad gerokai sumažintų savo sistemos kūrimo išlaidas. Jos inžinieriams prireikė tik apie 6 mln. dolerių neapdorotos skaičiavimo galios, maždaug dešimtadalio to, ką „Meta“ išleido, kurdama naujausią A.I. technologija.

 

 Ką tiksliai padarė „DeepSeek“? Čia yra vadovas.

 

 Kaip pavyksta sukurti A.I. technologijas?

 

 Vadovaujančios A.I. technologijos yra pagrįstos tuo, ką mokslininkai vadina neuroniniais tinklais, matematinėmis sistemomis, kurios mokosi jų įgūdžių, analizuodamos milžiniškus duomenų kiekius.

 

 Pačios galingiausios sistemos praleidžia mėnesius, analizuodamos beveik visą internete esantį anglišką tekstą, taip pat daugybę vaizdų, garsų ir kitos daugialypės terpės. Tam reikia milžiniškos skaičiavimo galios.

 

 Maždaug prieš 15 metų A.I. tyrėjai suprato, kad specializuoti kompiuterių lustai, vadinami grafikos apdorojimo įrenginiais arba GPU, yra veiksmingas būdas atlikti tokią duomenų analizę. Tokios įmonės, kaip Silicio slėnio lustų gamintojas „Nvidia“ iš pradžių sukūrė šiuos lustus, kad būtų galima pateikti kompiuterinių vaizdo žaidimų grafiką. Tačiau GPU taip pat turėjo įgūdžių paleisti matematiką, kuri maitina neuroninius tinklus.

 

 Kai įmonės į savo kompiuterių duomenų centrus įdėjo daugiau GPU, jų A.I. sistemos galėtų analizuoti daugiau duomenų.

 

 Tačiau geriausi GPU kainuoja apie 40 000 dolerių, ir jiems reikia daug elektros energijos. Duomenų siuntimas tarp lustų gali sunaudoti daugiau elektros energijos, nei reikia, kad paleisti pačius lustus.

 

 Kaip „DeepSeek“ sugebėjo sumažinti išlaidas?

 

 Tai padarė su daug dalykų. Visų pirma, tai apėmė metodą, vadinamą „ekspertų mišiniu“.

 

 Įmonės paprastai sukurdavo vieną neuroninį tinklą, kuris išmoko visus internete esančius duomenis. Tai buvo brangu, nes, norint šiuo būdu keliauti tarp GPU lustų, reikėjo didžiulio duomenų kiekio.

 

 Jei vienas lustas mokėsi rašyti eilėraštį, o kitas – rašyti kompiuterinę programą, jiems vis tiek reikėdavo pasikalbėti, kad tik poezija ir programavimas sutaptų.

 

 Ekspertų mišinio metodu mokslininkai bandė išspręsti šią problemą suskaidydami sistemą į daugybę neuroninių tinklų: vieną poezijai, vieną kompiuterių programavimui, biologijai, fizikai ir pan. Tokių mažesnių „ekspertų“ sistemų gali būti 100. Kiekvienas ekspertas gali sutelkti dėmesį į savo sritį.

 

 Daugelis kompanijų kovojo su šiuo metodu, tačiau „DeepSeek“ sugebėjo tai padaryti gerai. Jo gudrybė buvo suporuoti tas mažesnes „ekspertų“ sistemas su „generalistine“ sistema.

 

 Ekspertams vis tiek reikėjo keistis tam tikra informacija, o generalistas, turintis tinkamą, bet ne išsamų kiekvieno dalyko supratimą, galėjo padėti koordinuoti ekspertų sąveiką.

 

 Tai šiek tiek panašu į redaktorių, prižiūrintį naujienų salę, užpildytą specialistų žurnalistais.

 

 O tai efektyviau?

 

 Daug daugiau. Tačiau tai nėra vienintelis dalykas, kurį padarė „DeepSeek“. Ji taip pat įvaldė paprastą gudrybę, apimančią dešimtaines dalis, kurią gali suprasti kiekvienas, prisimenantis savo pradinės mokyklos matematikos pamoką.

 

 Ar su tuo susijusi matematika?

 

 Prisiminkite savo matematikos mokytoją, paaiškinantį pi sąvoką. Pi, taip pat žymimas kaip π, yra skaičius, kuris nesibaigia: 3.14159265358979 …

 

 Galite naudoti π, kad atliktumėte naudingus skaičiavimus, pvz., nustatydami apskritimo perimetrą. Kai atliekate šiuos skaičiavimus, sutrumpinate π iki kelių po kablelio: 3.14. Jei naudosite šį paprastesnį skaičių, gausite gana gerą apskritimo perimetrą.

 

 „DeepSeek“ padarė kažką panašaus, bet daug didesniu mastu, treniruodamas savo A.I. technologija.

 

 Matematika, leidžianti neuroniniam tinklui identifikuoti teksto šablonus, iš tikrųjų yra tik daugyba – jos daug, daug ir daug daug. Kalbame apie kelių mėnesių dauginimą su tūkstančiais kompiuterių lustų.

 

 Paprastai lustai padaugina skaičius, kurie telpa į 16 bitų atminties [1]. Tačiau „DeepSeek“ kiekvieną skaičių suspaudė tik į 8 atminties bitus – pusę vietos. Iš esmės jis sumažino keletą skaičių po kablelio nuo kiekvieno skaičiaus.

 

 Tai reiškė, kad kiekvienas skaičiavimas buvo ne toks tikslus. Bet tai neturėjo reikšmės. Skaičiavimai buvo pakankamai tikslūs, kad būtų sukurtas tikrai galingas neuroninis tinklas.

 

 Ar tai viskas?

 

 Na, jie pridėjo dar vieną triuką.

 

 Suspaudęs kiekvieną skaičių į 8 atminties bitus, „DeepSeek“ padaugindamas pasirinko kitą maršrutą,  sujungdamas tuos skaičius. Nustatydamas atsakymą į kiekvieną daugybos problemą – atlikdamas pagrindinį skaičiavimą, kuris padėtų nuspręsti, kaip veiktų neuroninis tinklas – atsakymas buvo ištemptas per 32 atminties bitus. Kitaip tariant, jame buvo daug daugiau po kablelio. Taip atsakymas buvo tikslesnis.

 

 Taigi, bet kuris vidurinės mokyklos mokinys galėjo tai padaryti?

 

 Na, ne. „DeepSeek“ inžinieriai savo darbe parodė, kad jie taip pat puikiai mokėjo rašyti labai sudėtingą kompiuterio kodą, kuris nurodo GPU, ką daryti. Jie žinojo, kaip iš šių lustų išspausti dar didesnį efektyvumą.

 

 Nedaug žmonių turi tokius įgūdžius. Tačiau rimtose A.I. laboratorijose yra talentingų inžinierių, kurių reikia, kad atitiktų tai, ką padarė „DeepSeek“.

 

 Tai kodėl jie to jau anksčiau už kinus nepadarė?

 

 Kai kurios A.I. laboratorijos jau gali naudoti bent keletą tų pačių gudrybių. Tokios įmonės, kaip OpenAI ne visada atskleidžia, ką daro už uždarų durų.

 

 Tačiau kitus aiškiai nustebino DeepSeek darbas. Padaryti tai, ką padarė startuolis, nėra lengva. Eksperimentas, reikalingas tokiam proveržiui pasiekti, apima milijonus dolerių – jei ne milijardus – elektros energijos.

 

 Kitaip tariant, tai reikalauja didžiulės rizikos.

 

 „Turite įdėti daug pinigų, kad išbandytumėte naujus dalykus – ir dažnai jiems nepavyksta“, – sakė Timas Dettmersas, Sietlo Alleno dirbtinio intelekto instituto tyrėjas, kuris specializuojasi efektyvaus A.I. sistemų ir anksčiau dirbo, kaip A.I. „Meta“ tyrėjas.

 

 „Štai kodėl mes nematome daug naujovių: žmonės bijo prarasti daugybę milijonų vien tam, kad išbandytų tai, kas neveikia“, – pridūrė jis.

 

 Daugelis ekspertų nurodė, kad DeepSeek 6 milijonai dolerių padengė tik tai, ką startuolis išleido, mokydamas galutinę sistemos versiją. Savo darbe „DeepSeek“ inžinieriai teigė, kad prieš galutinį mokymą išleido papildomų lėšų tyrimams ir eksperimentams. Tačiau tas pats pasakytina apie bet kokį pažangiausią A.I. projektą.

 

 „DeepSeek“ eksperimentavo ir tai pasiteisino. Kadangi Kinijos startuolis pasidalijo savo metodais su kitais A.I. tyrėjais, jo technologinės gudrybės yra pasirengusios žymiai sumažinti A.I. kūrimo išlaidas. [2]

 

1. 16 bitų atminties – tai duomenų, kuriuos galima saugoti kompiuteryje, kiekio matavimo vienetas. Tai taip pat yra duomenų magistralės dydis, kuris lemia, kiek duomenų galima apdoroti vienu metu. 16 bitų sistemos yra mažiau galingos, nei 32 bitų sistemos, tačiau jos gali būti ekonomiškesnės ir naudoti mažiau energijos.

2. How Did DeepSeek Build Its A.I. With Less Money? Metz, Cade.  New York Times (Online) New York Times Company. Feb 12, 2025.

Komentarų nėra: