Sekėjai

Ieškoti šiame dienoraštyje

2025 m. vasario 14 d., penktadienis

Kaip „DeepSeek“ sukūrė jo dirbtinį intelektą su mažiau pinigų?


 „Kinijos startuolis panaudojo keletą technologinių gudrybių, įskaitant metodą, vadinamą „ekspertų mišiniu“, kad žymiai sumažintų technologijos kūrimo išlaidas.

 

 Praėjusį mėnesį JAV finansų rinkos smuktelėjo po to, kai Kinijos startuolis „DeepSeek“ pareiškė sukūręs vieną galingiausių pasaulyje dirbtinio intelekto (A.I.) sistemų, naudodamas daug mažiau kompiuterių lustų, nei daugelis ekspertų manė, kad reikia.

 

 A.I. įmonės paprastai moko savo pokalbių robotus, naudodamos superkompiuterius, kuriuose yra 16 000 ar daugiau specializuotų lustų. Tačiau „DeepSeek“ teigė, kad jam reikia tik apie 2 tūkst.

 

 Kaip „DeepSeek“ inžinieriai detalizavo tyrimo dokumente, paskelbtame iškart po Kalėdų, startuolis panaudojo keletą technologinių gudrybių, kad gerokai sumažintų savo sistemos kūrimo išlaidas. Jos inžinieriams prireikė tik apie 6 mln. dolerių neapdorotos skaičiavimo galios, maždaug dešimtadalio to, ką „Meta“ išleido, kurdama naujausią A.I. technologija.

 

 Ką tiksliai padarė „DeepSeek“? Čia yra vadovas.

 

 Kaip pavyksta sukurti A.I. technologijas?

 

 Vadovaujančios A.I. technologijos yra pagrįstos tuo, ką mokslininkai vadina neuroniniais tinklais, matematinėmis sistemomis, kurios mokosi jų įgūdžių, analizuodamos milžiniškus duomenų kiekius.

 

 Pačios galingiausios sistemos praleidžia mėnesius, analizuodamos beveik visą internete esantį anglišką tekstą, taip pat daugybę vaizdų, garsų ir kitos daugialypės terpės. Tam reikia milžiniškos skaičiavimo galios.

 

 Maždaug prieš 15 metų A.I. tyrėjai suprato, kad specializuoti kompiuterių lustai, vadinami grafikos apdorojimo įrenginiais arba GPU, yra veiksmingas būdas atlikti tokią duomenų analizę. Tokios įmonės, kaip Silicio slėnio lustų gamintojas „Nvidia“ iš pradžių sukūrė šiuos lustus, kad būtų galima pateikti kompiuterinių vaizdo žaidimų grafiką. Tačiau GPU taip pat turėjo įgūdžių paleisti matematiką, kuri maitina neuroninius tinklus.

 

 Kai įmonės į savo kompiuterių duomenų centrus įdėjo daugiau GPU, jų A.I. sistemos galėtų analizuoti daugiau duomenų.

 

 Tačiau geriausi GPU kainuoja apie 40 000 dolerių, ir jiems reikia daug elektros energijos. Duomenų siuntimas tarp lustų gali sunaudoti daugiau elektros energijos, nei reikia, kad paleisti pačius lustus.

 

 Kaip „DeepSeek“ sugebėjo sumažinti išlaidas?

 

 Tai padarė su daug dalykų. Visų pirma, tai apėmė metodą, vadinamą „ekspertų mišiniu“.

 

 Įmonės paprastai sukurdavo vieną neuroninį tinklą, kuris išmoko visus internete esančius duomenis. Tai buvo brangu, nes, norint šiuo būdu keliauti tarp GPU lustų, reikėjo didžiulio duomenų kiekio.

 

 Jei vienas lustas mokėsi rašyti eilėraštį, o kitas – rašyti kompiuterinę programą, jiems vis tiek reikėdavo pasikalbėti, kad tik poezija ir programavimas sutaptų.

 

 Ekspertų mišinio metodu mokslininkai bandė išspręsti šią problemą suskaidydami sistemą į daugybę neuroninių tinklų: vieną poezijai, vieną kompiuterių programavimui, biologijai, fizikai ir pan. Tokių mažesnių „ekspertų“ sistemų gali būti 100. Kiekvienas ekspertas gali sutelkti dėmesį į savo sritį.

 

 Daugelis kompanijų kovojo su šiuo metodu, tačiau „DeepSeek“ sugebėjo tai padaryti gerai. Jo gudrybė buvo suporuoti tas mažesnes „ekspertų“ sistemas su „generalistine“ sistema.

 

 Ekspertams vis tiek reikėjo keistis tam tikra informacija, o generalistas, turintis tinkamą, bet ne išsamų kiekvieno dalyko supratimą, galėjo padėti koordinuoti ekspertų sąveiką.

 

 Tai šiek tiek panašu į redaktorių, prižiūrintį naujienų salę, užpildytą specialistų žurnalistais.

 

 O tai efektyviau?

 

 Daug daugiau. Tačiau tai nėra vienintelis dalykas, kurį padarė „DeepSeek“. Ji taip pat įvaldė paprastą gudrybę, apimančią dešimtaines dalis, kurią gali suprasti kiekvienas, prisimenantis savo pradinės mokyklos matematikos pamoką.

 

 Ar su tuo susijusi matematika?

 

 Prisiminkite savo matematikos mokytoją, paaiškinantį pi sąvoką. Pi, taip pat žymimas kaip π, yra skaičius, kuris nesibaigia: 3.14159265358979 …

 

 Galite naudoti π, kad atliktumėte naudingus skaičiavimus, pvz., nustatydami apskritimo perimetrą. Kai atliekate šiuos skaičiavimus, sutrumpinate π iki kelių po kablelio: 3.14. Jei naudosite šį paprastesnį skaičių, gausite gana gerą apskritimo perimetrą.

 

 „DeepSeek“ padarė kažką panašaus, bet daug didesniu mastu, treniruodamas savo A.I. technologija.

 

 Matematika, leidžianti neuroniniam tinklui identifikuoti teksto šablonus, iš tikrųjų yra tik daugyba – jos daug, daug ir daug daug. Kalbame apie kelių mėnesių dauginimą su tūkstančiais kompiuterių lustų.

 

 Paprastai lustai padaugina skaičius, kurie telpa į 16 bitų atminties [1]. Tačiau „DeepSeek“ kiekvieną skaičių suspaudė tik į 8 atminties bitus – pusę vietos. Iš esmės jis sumažino keletą skaičių po kablelio nuo kiekvieno skaičiaus.

 

 Tai reiškė, kad kiekvienas skaičiavimas buvo ne toks tikslus. Bet tai neturėjo reikšmės. Skaičiavimai buvo pakankamai tikslūs, kad būtų sukurtas tikrai galingas neuroninis tinklas.

 

 Ar tai viskas?

 

 Na, jie pridėjo dar vieną triuką.

 

 Suspaudęs kiekvieną skaičių į 8 atminties bitus, „DeepSeek“ padaugindamas pasirinko kitą maršrutą,  sujungdamas tuos skaičius. Nustatydamas atsakymą į kiekvieną daugybos problemą – atlikdamas pagrindinį skaičiavimą, kuris padėtų nuspręsti, kaip veiktų neuroninis tinklas – atsakymas buvo ištemptas per 32 atminties bitus. Kitaip tariant, jame buvo daug daugiau po kablelio. Taip atsakymas buvo tikslesnis.

 

 Taigi, bet kuris vidurinės mokyklos mokinys galėjo tai padaryti?

 

 Na, ne. „DeepSeek“ inžinieriai savo darbe parodė, kad jie taip pat puikiai mokėjo rašyti labai sudėtingą kompiuterio kodą, kuris nurodo GPU, ką daryti. Jie žinojo, kaip iš šių lustų išspausti dar didesnį efektyvumą.

 

 Nedaug žmonių turi tokius įgūdžius. Tačiau rimtose A.I. laboratorijose yra talentingų inžinierių, kurių reikia, kad atitiktų tai, ką padarė „DeepSeek“.

 

 Tai kodėl jie to jau anksčiau už kinus nepadarė?

 

 Kai kurios A.I. laboratorijos jau gali naudoti bent keletą tų pačių gudrybių. Tokios įmonės, kaip OpenAI ne visada atskleidžia, ką daro už uždarų durų.

 

 Tačiau kitus aiškiai nustebino DeepSeek darbas. Padaryti tai, ką padarė startuolis, nėra lengva. Eksperimentas, reikalingas tokiam proveržiui pasiekti, apima milijonus dolerių – jei ne milijardus – elektros energijos.

 

 Kitaip tariant, tai reikalauja didžiulės rizikos.

 

 „Turite įdėti daug pinigų, kad išbandytumėte naujus dalykus – ir dažnai jiems nepavyksta“, – sakė Timas Dettmersas, Sietlo Alleno dirbtinio intelekto instituto tyrėjas, kuris specializuojasi efektyvaus A.I. sistemų ir anksčiau dirbo, kaip A.I. „Meta“ tyrėjas.

 

 „Štai kodėl mes nematome daug naujovių: žmonės bijo prarasti daugybę milijonų vien tam, kad išbandytų tai, kas neveikia“, – pridūrė jis.

 

 Daugelis ekspertų nurodė, kad DeepSeek 6 milijonai dolerių padengė tik tai, ką startuolis išleido, mokydamas galutinę sistemos versiją. Savo darbe „DeepSeek“ inžinieriai teigė, kad prieš galutinį mokymą išleido papildomų lėšų tyrimams ir eksperimentams. Tačiau tas pats pasakytina apie bet kokį pažangiausią A.I. projektą.

 

 „DeepSeek“ eksperimentavo ir tai pasiteisino. Kadangi Kinijos startuolis pasidalijo savo metodais su kitais A.I. tyrėjais, jo technologinės gudrybės yra pasirengusios žymiai sumažinti A.I. kūrimo išlaidas. [2]

 

1. 16 bitų atminties – tai duomenų, kuriuos galima saugoti kompiuteryje, kiekio matavimo vienetas. Tai taip pat yra duomenų magistralės dydis, kuris lemia, kiek duomenų galima apdoroti vienu metu. 16 bitų sistemos yra mažiau galingos, nei 32 bitų sistemos, tačiau jos gali būti ekonomiškesnės ir naudoti mažiau energijos.

2. How Did DeepSeek Build Its A.I. With Less Money? Metz, Cade.  New York Times (Online) New York Times Company. Feb 12, 2025.

2025 m. vasario 13 d., ketvirtadienis

How Did DeepSeek Build Its A.I. With Less Money?


"The Chinese start-up used several technological tricks, including a method called “mixture of experts,” to significantly reduce the cost of building the technology.

Last month, U.S. financial markets tumbled after a Chinese start-up called DeepSeek said it had built one of the world’s most powerful artificial intelligence systems using far fewer computer chips than many experts thought possible.

A.I. companies typically train their chatbots using supercomputers packed with 16,000 specialized chips or more. But DeepSeek said it needed only about 2,000.

As DeepSeek engineers detailed in a research paper published just after Christmas, the start-up used several technological tricks to significantly reduce the cost of building its system. Its engineers needed only about $6 million in raw computing power, roughly one-tenth of what Meta spent in building its latest A.I. technology.

What exactly did DeepSeek do? Here is a guide.

How are A.I. technologies built?

The leading A.I. technologies are based on what scientists call neural networks, mathematical systems that learn their skills by analyzing enormous amounts of data.

The most powerful systems spend months analyzing just about all the English text on the internet as well as many images, sounds and other multimedia. That requires enormous amounts of computing power.

About 15 years ago, A.I. researchers realized that specialized computer chips called graphics processing units, or GPUs, were an effective way of doing this kind of data analysis. Companies like the Silicon Valley chipmaker Nvidia originally designed these chips to render graphics for computer video games. But GPUs also had a knack for running the math that powered neural networks.

As companies packed more GPUs into their computer data centers, their A.I. systems could analyze more data.

But the best GPUs cost around $40,000, and they need huge amounts of electricity. Sending the data between chips can use more electrical power than running the chips themselves.

How was DeepSeek able to reduce costs?

It did many things. Most notably, it embraced a method called “mixture of experts.”

Companies usually created a single neural network that learned all the patterns in all the data on the internet. This was expensive, because it required enormous amounts of data to travel between GPU chips.

If one chip was learning how to write a poem and another was learning how to write a computer program, they still needed to talk to each other, just in case there was some overlap between poetry and programming.

With the mixture of experts method, researchers tried to solve this problem by splitting the system into many neural networks: one for poetry, one for computer programming, one for biology, one for physics and so on. There might be 100 of these smaller “expert” systems. Each expert could concentrate on its particular field.

Many companies have struggled with this method, but DeepSeek was able to do it well. Its trick was to pair those smaller “expert” systems with a “generalist” system.

The experts still needed to trade some information with one another, and the generalist — which had a decent but not detailed understanding of each subject — could help coordinate interactions between the experts.

It is a bit like an editor’s overseeing a newsroom filled with specialist reporters.

And that is more efficient?

Much more. But that is not the only thing DeepSeek did. It also mastered a simple trick involving decimals that anyone who remembers his or her elementary school math class can understand.

There is math involved in this?

Remember your math teacher explaining the concept of pi. Pi, also denoted as π, is a number that never ends: 3.14159265358979 …

You can use π to do useful calculations, like determining the circumference of a circle. When you do those calculations, you shorten π to just a few decimals: 3.14. If you use this simpler number, you get a pretty good estimation of a circle’s circumference.

DeepSeek did something similar — but on a much larger scale — in training its A.I. technology.

The math that allows a neural network to identify patterns in text is really just multiplication — lots and lots and lots of multiplication. We’re talking months of multiplication across thousands of computer chips.

Typically, chips multiply numbers that fit into 16 bits of memory [1]. But DeepSeek squeezed each number into only 8 bits of memory — half the space. In essence, it lopped several decimals from each number.

This meant that each calculation was less accurate. But that didn’t matter. The calculations were accurate enough to produce a really powerful neural network.

That’s it?

Well, they added another trick.

After squeezing each number into 8 bits of memory, DeepSeek took a different route when multiplying those numbers together. When determining the answer to each multiplication problem — making a key calculation that would help decide how the neural network would operate — it stretched the answer across 32 bits of memory. In other words, it kept many more decimals. It made the answer more precise.

So any high school student could have done this?

Well, no. The DeepSeek engineers showed in their paper that they were also very good at writing the very complicated computer code that tells GPUs what to do. They knew how to squeeze even more efficiency out of these chips.

Few people have that kind of skill. But serious A.I. labs have the talented engineers needed to match what DeepSeek has done.

Then why didn’t they do this already?

Some A.I. labs may be using at least some of the same tricks already. Companies like OpenAI do not always reveal what they are doing behind closed doors.

But others were clearly surprised by DeepSeek’s work. Doing what the start-up did is not easy. The experimentation needed to find a breakthrough like this involves millions of dollars — if not billions — in electrical power.

In other words, it requires enormous amounts of risk.

“You have to put a lot of money on the line to try new things — and often, they fail,” said Tim Dettmers, a researcher at the Allen Institute for Artificial Intelligence in Seattle who specializes in building efficient A.I. systems and previously worked as an A.I. researcher at Meta.

“That is why we don’t see much innovation: People are afraid to lose many millions just to try something that doesn’t work,” he added.

Many pundits pointed out that DeepSeek’s $6 million covered only what the start-up spent when training the final version of the system. In their paper, the DeepSeek engineers said they had spent additional funds on research and experimentation before the final training run. But the same is true of any cutting-edge A.I. project.

DeepSeek experimented, and it paid off. Now, because the Chinese start-up has shared its methods with other A.I. researchers, its technological tricks are poised to significantly reduce the cost of building A.I.” [2]

1. 16 bits of memory is a unit of measurement for the amount of data that can be stored in a computer. It's also the size of the data bus, which determines how much data can be processed at once. 16-bit systems are less powerful than 32-bit systems, but they may be more cost-effective and use less power.

2. How Did DeepSeek Build Its A.I. With Less Money? Metz, Cade.  New York Times (Online) New York Times Company. Feb 12, 2025.

Naujoji dirbtinio intelekto banga jau čia

 

 „Neseniai sukurtame meme užfiksuota slegianti, dirbtinio intelekto (AI) sukelta, reakcija: darbuotojas sako: „AI paverčia šį vienintelį tašką ilgu el. laišku, kurį galiu apsimesti, kad parašiau.“ Kitame skydelyje „AI padaro vieną tašką iš ilgo el. laiško, kurį galiu apsimesti, kad perskaitau“.

 

 Juokinga. Tačiau iš tikrųjų vyksta daug daugiau. Tiesiogiai su atsakomybe kyla klausimai apie AI verslo modelį. Šį mėnesį žurnalo antraštėje buvo rašoma: „Niekas nežino, kaip įkainoti AI įrankius“. Kaip tiesa. Ar sujungiate jį kaip „Microsoft Copilot“ ar kaip „Google“ AI apžvalgą, kad būtų rodomas virš žiniatinklio paieškos rezultatų (kuris, matyt, gali būti išjungtas tik jį keikiant)? Ar turėtumėte mokėti 20 dolerių per mėnesį? Arba 200 dolerių, pavyzdžiui, „ChatGPT Pro“? Arba pigiai pasiūlykite atvirojo kodo kinų „DeepSeek“? Tai skiriasi, nes sąskaitos už paskelbtus duomenų centrus ir brangius Nvidia lustus vis kaupiasi.

 

 Kaip praėjusio mėnesio pradžioje perspėjome apie „DeepSeek“, konkurencija yra didžiulė. Kalbant apie atvirojo kodo dirbtinį intelektą, net „OpenAI“ atstovas Samas Altmanas mano, kad „mes atsidūrėme neteisingoje istorijos pusėje“. Tačiau „DeepSeek“ nežymi JAV dominavimo pabaigos. Ne, ne. Vietoj to, tai ženklas, kad prasideda kita AI banga. Mažesnės naudojimo išlaidos puikiai tinka tiems, kurie kuria programas. Tikras produktyvumas nulems kitą erą, nes korporacinė Amerika moka už viską, kas taupo pinigus.

 

 -- Skambučių centrai ir agentai. Ieškote atsakymų internete, bet kartais tereikia pasikalbėti su tikru asmeniu, o tai įmonėms gali kainuoti iki 1 dolerį per minutę, o tai yra didžiulis skausmo taškas. Dažnai patirtis vyksta laužyta anglų kalba su ilgomis pauzėmis, kai agentai ieško tų pačių dalykų, ką padarėte jūs.

 

 „Salesforce“ dabar parduoda paslaugą, vadinamą „Agentforce“, platformą, kuri diegia AI agentus. Šiems naujiems agentams peržiūrėjus jūsų duomenis, klausimų, kuriems reikėjo žmogaus įsikišimo, skaičius sumažėjo perpus. Nors tai daugiausia teksto pagrindu, įsivaizduokite, kad netrukus bus 800 telefono numeris ir balsas, kuriuo kalbate, bus sukurtas dirbtinio intelekto, o ne žmogaus – net nesužinosite. Gal dėl tikroviškumo pridėti šlakelį laužytos anglų kalbos? Atsakymai bus geresni, o santaupos – stulbinančios. Taip, ironiška, kad „Salesforce“ samdo 2000 naujų pardavėjų – žmonių – parduoti šiuos AI įrankius.

 

 -- Gydytojų santraukos. Pavargote nuo to, kad gydytojas išsiblaškęs rašo tekstą per jūsų brangų penkių minučių susitikimą? Nepaisant sveikatos priežiūros privatumo įstatymų, kiekviena gydytojo sąveika gali būti įrašyta, perrašyta ir sugeneruota jūsų sveikatos įrašo susitikimų suvestinė. Netgi atskiri taškai. Nesakykite gydytojams, bet tai gali būti pirmasis žingsnis automatizuotos generacinės diagnostikos link, leidžiančios sutaupyti.

 

 -- Legalūs bigliai. Rinkoje pasirodė keletas teisinių dirbtinio intelekto įrankių, kad padėtų teisininkams, kai jie nagrinėja sutarčių ir teisinio kodekso duomenų bazes. Ar gausime nuolaidą teisiniams mokesčiams? Abejoju, bet nesunku įsivaizduoti naujas dirbtinio intelekto paslaugas, kurios galėtų sudaryti sutartis ar patarti už dešimtadalį kainos.

 

 -- Kompanionai. Galbūt, matėte „Google“ „Gemini Live“ reklamą, kai žmonės kalbasi telefonu. Gana kietas. Taip turėjo būti Alexa ir Siri. Kaip ir dauguma technologijų (vaizdo grotuvai, skaitmeninis vaizdo įrašas), erotinės programos yra linkusios paskatinti ankstyvąją rinką. Jau yra daugybė papildomų pokalbių robotų, įskaitant „Replika AI“, „Character AI“ ir net „ChatGPT“, kurie, nepaisant tam prieštaraujančių taisyklių, yra naudojami, kaip virtualūs meilužiai. Baisu, bet tikra. Toliau įsivaizduokite kompanionus visiems vienišiems žmonėms, ypač pagyvenusiems žmonėms. Po velnių, jie netgi gali naudoti jūsų balsą. Tada ateina generatyvinės terapijos seansai, nors terapeutai spardysis ir rėks.

 

 -- Programinės įrangos kodavimo įrenginiai. „Google“ teigia, kad daugiau, nei 25% jos vidinio šaltinio kodo dabar yra sukurta dirbtinio intelekto. „Salesforce“ paskelbė apie programinės įrangos inžinierių samdymo sustabdymą. „Facebook“ tikisi automatizuoti „vidutinio lygio“ programinės įrangos inžinierius. Netrukus daugės pradedančiųjų įmonių, kuriose dirba daugiau aukšto lygio programinės įrangos architektų, o ne programuotojų. Tai pažanga.

 

 -- Švietimas. Generatyvusis AI jau pasirodė esąs puikus ir nebrangus dėstytojas ir mokytojas. Išskleiskite tai greitai.

 

 -- Grafikos dizaineriai. Teksto raginimas gali sukelti gana gerą vaizdą per kelias sekundes. Šiandien AI gali sukurti net kelis gana tikroviško vaizdo kadrus. Galbūt tai virsta 22 minučių komedijomis ir galiausiai filmais. Vertės pasiūlymas perkeliamas į kūrybingus protus iš studijų.

 

 Kaip atsitiko operatoriams, kasininkams, kelionių agentams ir t. t., prarastas darbo vietas pakeičia naujos ir, geriau apmokamos, darbo vietos kylančiose pramonės šakose. Kiekvieną kartą. Taip, dirbtinis intelektas dabar ryžtingai imasi baltųjų apykaklių, tačiau tai reiškia, kad reikia atlaisvinti kapitalą naujoms technologijoms, kurių dar nėra, finansuoti (prašau, skalbinių sulankstymo robotų). McKinsey prognozuoja, kad „8–9 procentai 2030 m. darbo jėgos paklausos bus naujos profesijos, kurių anksčiau nebuvo“. Galų gale, dirbtinis intelektas leis 25%, o vėliau 50% produktyvių, bet niekada neegzistavusių darbo vietų. Tai viršija el. pašto taškus už 20 dolerių per mėnesį.“ [1]

 

1. Inside View: The New Wave of AI Is Here. Kessler, Andy.  Wall Street Journal, Eastern edition; New York, N.Y.. 10 Feb 2025: A17.