Sekėjai

Ieškoti šiame dienoraštyje

2025 m. sausio 27 d., pirmadienis

Kinijos namų darbo dirbtinis intelektas „DeepSeek“ pritrenkia Silicio slėnį


 „SINGAPŪRAS – Kinijos dirbtinio intelekto (AI) įmonė Silicio slėnį stebina, kaip jos programuotojai beveik prilygo amerikiečių konkurentams, nors naudojo prastesnius lustus.

 

 Remiantis populiariu reitingu, Kinijos bendrovės „DeepSeek“ dirbtinio intelekto modeliai pateko į 10 geriausių pasaulyje, o tai rodo, kad Vašingtono eksporto apribojimai sunkiai blokuoja sparčią Kinijos pažangą.

 

 Sausio 20 d. DeepSeek pristatė R1 – specializuotą modelį, skirtą sudėtingoms problemoms spręsti.

 

 „Deepseek R1“ yra vienas nuostabiausių ir įspūdingiausių proveržių, kokį aš kada nors mačiau“, – penktadienį X poste sakė Silicio slėnio rizikos kapitalistas Marcas Andreessenas, patarinėjęs prezidentui Trumpui.

 

 „DeepSeek“ plėtrai vadovavo Kinijos rizikos draudimo fondo valdytojas Liangas Wenfengas, kuris tapo šalies dirbtinio intelekto skatinimo veidu. Sausio 20 d. Liangas susitiko su Kinijos premjeru ir aptarė, kaip vietinės įmonės galėtų sumažinti atotrūkį nuo JAV.

 

 Specialistai teigė, kad „DeepSeek“ technologija vis dar atsilieka nuo „OpenAI“ ir „Google“. Tačiau ji yra artima varžovė, nepaisant to, kad naudoja mažiau pažangių lustų, o kai kuriais atvejais praleidžia veiksmus, kuriuos JAV kūrėjai laikė esminiais.

 

 „DeepSeek“ teigė, kad vieno iš naujausių modelių mokymas kainavo 5,6 mln. dolerių, palyginti su 100–1 mlrd. dolerių pernai modelio kūrimo sąnaudomis, kurias AI kūrėjo „Anthropic“ vadovas Dario Amodei nurodė.

 

 Barrettas Woodside'as, vienas iš San Francisko AI techninės įrangos įmonės „Positron“ įkūrėjų, sakė, kad jis ir jo kolegos buvo susirūpinę dėl „DeepSeek“. „Tai labai šaunu“, – sakė Woodside'as, nurodydamas „DeepSeek“ atvirojo kodo modelius, kuriuose AI modelio programinės įrangos kodas yra prieinamas nemokamai.

 

 Naujausio „DeepSeek“ pavyzdinio modelio, pavadinto V3, išleisto gruodį, vartotojai pastebėjo, kad jis atsisako atsakyti į jautrius politinius klausimus apie Kiniją ir lyderį Xi Jinpingą. Kai kuriais atvejais produktas pateikia atsakymus pagal oficialią Pekino propagandą, o ne į vyriausybės kritikų požiūrį, kaip tai daro ChatGPT.

 

 „Vienintelis smūgis prieš jį yra tam tikra KLR cenzūra“, – sakė Woodside'as, turėdamas omenyje Kinijos Liaudies Respubliką, tačiau jis teigė, kad tai gali būti pašalinta, nes kiti kūrėjai gali laisvai keisti kodą.

 

 „DeepSeek“ teigė, kad R1 ir V3 veikė geriau, nei pirmaujantys Vakarų modeliai arba beveik taip pat. Nuo šeštadienio jiedu pateko į 10 geriausių „Chatbot Arena“, platformoje, kurią valdo Kalifornijos universiteto Berklis tyrėjai, vertinantys pokalbių robotų našumą. „Google Gemini“ modelis užėmė aukščiausią vietą, o „DeepSeek“ aplenkė „Anthropic“ Claude'ą ir Groką iš Elono Musko xAI.

 

 „DeepSeek“ išaugo iš „High-Flyer“ AI tyrimų padalinio, rizikos draudimo fondo valdytojo, turinčio 8 mlrd. dolerių.

 

 "Kai žmonės priima investicinius sprendimus, tai yra menas, ir jie tai daro tiesiog nuo kelnių sėdynės. Kai kompiuterinės programos priima tokius sprendimus, tai yra mokslas, ir jis turi optimalų sprendimą", - sakė Liangas 2019 m.

 

 1985 m. gimęs Liangas užaugo Guangdongo provincijoje ir specializuojasi mašininio matymo srityje prestižiniame Kinijos Džedziango universitete. Jis su dviem kolegijos draugais įkūrė „High-Flyer“ 2015 m.

 

 Pasak jam artimų žmonių, Liangas labiau mėgsta būti laikomas inžinieriumi, o ne prekybininku. „High-Flyer“ buvo pradininkas Kinijoje, pritaikant gilų mokymąsi kompiuterinėje prekyboje. Ši technika, sukurta pagal žmogaus smegenų modelį, leidžia kompiuteriams analizuoti įvairesnių tipų duomenis.

 

 Nors „DeepSeek“ pavyzdinis modelis yra nemokamas, bendrovė apmokestina vartotojus, kad jie prijungtų jų programas prie „DeepSeek“ modelio ir skaičiavimo infrastruktūros. Pavyzdys yra įmonė, kuri nori pasinaudoti technologija, kad pateiktų AI atsakymus į klientų užklausas.

 

 Praėjusių metų pradžioje „DeepSeek“ sumažino šios paslaugos kainas iki dalies to, ką taiko kiti pardavėjai, todėl Kinijoje kilo kainų kova.

 

 Anthony Poo, Silicio slėnyje įsikūrusio startuolio, naudojančio generatyvųjį dirbtinį intelektą finansinei grąžai prognozuoti, įkūrėjas, sakė, kad jo įmonė rugsėjį perėjo į DeepSeek iš Anthropic's Claude. Testai parodė panašų našumą už maždaug ketvirtadalį išlaidų.

 

 „OpenAI modelis yra geriausias savo našumu, bet mes taip pat nenorime mokėti už mums nereikalingus pajėgumus“, - sakė Poo.

 

 Sausio 20 d. susitikime DeepSeek's Liang Kinijos premjerui Li Qiangui pasakė, kad nors Kinijos įmonės stengėsi pasivyti, Amerikos apribojimai pažangių lustų eksportui į Kiniją vis dar yra kliūtis, pasak žmonių, susipažinusių su susitikimu.

 

 2019 m. „High-Flyer“ pradėjo kurti lustų grupę dirbtinio intelekto tyrimams, iš dalies su lėšomis, gautomis iš jos finansų verslo. Bendrovė teigė vėliau sukūrusi didesnę, maždaug 10 000 „Nvidia“ grafikos apdorojimo įrenginių grupę, kuri gali būti naudojama didelių kalbos modeliams mokymui.

 

 Tik nedaugelis Kinijos įmonių turėjo pakankamai galingą skaičiavimo infrastruktūrą, kad galėtų sukurti tokius modelius iki 2022 m. pabaigos, kai „OpenAI“ išleido „ChatGPT“.

 

 „DeepSeek“ techninėje ataskaitoje teigė, kad naudojo daugiau, nei 2000 „Nvidia“ lustų, kad apmokytų savo V3 modelį, palyginti su dešimtimis tūkstančių kitų panašaus dydžio modelių mokymui.

 

 Keletas JAV AI specialistų neseniai suabejojo, ar „High-Flyer“ ir „DeepSeek“ naudojasi daugiau skaičiavimo galios, nei buvo paskelbta.

 

 Kai kurie išorės tyrinėtojai teigė, kad „DeepSeek“ modeliui trūksta tam tikrų brangiau apmokytų konkurentų galimybių, pavyzdžiui, sekti ilgų pokalbių kontekstą.

 

 Savo naujausiame samprotavimo modelyje, išleistame sausio 20 d., „DeepSeek“ praleido procesą, vadinamą prižiūrimu koregavimu, kurio metu programuotojai naudojasi žmonių ekspertų žiniomis, kad suteiktų modeliui pranašumą. „DeepSeek“ teigė, kad jos modelis, sukurtas sudėtingoms pasaulio problemoms matematikoje ir panašiems iššūkiams spręsti, buvo panašus į „OpenAI“ samprotavimo modelį o1, nors jame buvo praleistas prižiūrimas koregavimas ir dėmesys buvo sutelktas į mokymąsi su sustiprinimu, iš esmės nukreipiamus bandymus ir klaidas.

 

 Jimas Fanas, vyresnysis „Nvidia“ mokslo darbuotojas, „DeepSeek“ dokumente, kuriame pranešama apie rezultatus, gyrė, kaip proveržį. Jis sakė X, kad tai jam priminė ankstesnes novatoriškas AI programas, kurios įvaldė stalo žaidimus, tokius, kaip šachmatai, „nuo nulio, pirmiausia nemėgdžiodami žmonių didmeistrių“.

 

 Zackas Kassas, buvęs OpenAI vadovas, sakė, kad DeepSeek pažanga, nepaisant JAV apribojimų „pabrėžia platesnę pamoką: išteklių apribojimai dažnai skatina kūrybiškumą.“ [1]

 

1. China's Homemade AI Wows Silicon Valley. Huang, Raffaele.  Wall Street Journal, Eastern edition; New York, N.Y.. 27 Jan 2025: B1.

China's Homemade AI „DeepSeek“ Wows Silicon Valley

 

"SINGAPORE -- A Chinese artificial-intelligence company has Silicon Valley marveling at how its programmers nearly matched American rivals despite using inferior chips.

AI models from DeepSeek, the Chinese company, have zoomed to the global top 10 in performance, according to a popular ranking, suggesting Washington's export curbs are having difficulty blocking rapid advances in China.

On Jan. 20, DeepSeek introduced R1, a specialized model designed for complex problem solving.

"Deepseek R1 is one of the most amazing and impressive breakthroughs I've ever seen," Silicon Valley venture capitalist Marc Andreessen, who has been advising President Trump, said in an X post Friday.

DeepSeek's development was led by a Chinese hedge-fund manager, Liang Wenfeng, who has become the face of the country's AI push. On Jan. 20, Liang met China's premier and discussed how homegrown companies could narrow the gap with the U.S.

Specialists said DeepSeek's technology still trails OpenAI's and Google's. But it is a close rival despite using fewer and less-advanced chips, and in some cases skipping steps that U.S. developers considered essential.

DeepSeek said training one of its latest models cost $5.6 million, compared with the range of $100 million to $1 billion cited last year by Dario Amodei, chief executive of the AI developer Anthropic, as the cost of building a model.

Barrett Woodside, co-founder of the San Francisco AI hardware company Positron, said he and his colleagues have been abuzz about DeepSeek. "It's very cool," said Woodside, pointing to DeepSeek's open-source models, in which the software code behind the AI model is made available free.

Users of DeepSeek's latest flagship model, called V3 and released in December, have noticed that it refuses to answer sensitive political questions about China and leader Xi Jinping. In some cases, the product gives responses in line with Beijing's official propaganda rather than including the perspective of government critics, as ChatGPT does.

"The only strike against it is some half-baked PRC censorship," said Woodside, referring to the People's Republic of China, but he said this could be removed, as other developers can freely modify the code.

DeepSeek said R1 and V3 both performed better than or nearly as well as leading Western models. As of Saturday, the two ranked in the top 10 on Chatbot Arena, a platform hosted by University of California, Berkeley, researchers that rates chatbot performance. A Google Gemini model was in the top spot, while DeepSeek bested Anthropic's Claude and Grok from Elon Musk's xAI.

DeepSeek grew out of the AI research unit of High-Flyer, a hedge-fund manager with $8 billion in assets that is known for leveraging AI to trade.

"When humans make investment decisions, it's an art, and they just do it by the seat of their pants. When computer programs make such decisions, it's a science, and it has the optimal solution," said Liang in a 2019 speech.

Born in 1985, Liang grew up in Guangdong province and specialized in machine vision at China's prestigious Zhejiang University. He founded High-Flyer with two college friends in 2015.

Liang prefers to be seen as an engineer rather than a trader, according to people close to him. High-Flyer was a pioneer in China in applying deep learning to computerized trading. The technique, modeled on the human brain, allows computers to analyze more-diverse types of data.

While DeepSeek's flagship model is free, the company charges users to connect their own applications to DeepSeek's model and computing infrastructure. An example is a business that wants to tap the technology to give AI answers to customers' queries.

Early last year, DeepSeek cut its prices for this service to a fraction of what other vendors charged, prompting a price battle in China.

Anthony Poo, co-founder of a Silicon Valley-based startup using generative AI to predict financial returns, said his company moved to DeepSeek from Anthropic's Claude in September. Tests showed similar performance for around one-quarter of the cost.

"OpenAI's model is the best in performance, but we also don't want to pay for capacities we don't need," said Poo.

At their Jan. 20 meeting, DeepSeek's Liang told Chinese Premier Li Qiang that while Chinese companies were working to catch up, American restrictions on the export of advanced chips to China were still a bottleneck, according to people familiar with the meeting.

In 2019, High-Flyer began building a cluster of chips for AI research, in part with funds generated by its finance business. The company has said it later built a bigger cluster of around 10,000 Nvidia graphics-processing units that can be used to train large language models.

Only a handful of companies in China had computing infrastructure powerful enough to develop such models by late 2022, when OpenAI released ChatGPT.

DeepSeek said in a technical report that it used a cluster of more than 2,000 Nvidia chips to train its V3 model, compared with tens of thousands for training other models of similar size. 

A few U.S. AI specialists have recently questioned whether High-Flyer and DeepSeek are accessing computing power beyond what they have announced.

Some external researchers said the DeepSeek model lacks certain capabilities of its more expensively trained rivals, for example in keeping track of the context of long conversations.

For its latest reasoning model, released Jan. 20, DeepSeek skipped a process known as supervised fine-tuning, in which programmers feed in the knowledge of human experts to give the model a head start. DeepSeek said its model, designed to solve tricky world problems in math and similar challenges, was comparable to OpenAI's reasoning model o1 even though it omitted supervised fine-tuning and focused on reinforcement learning -- essentially directed trial and error.

Jim Fan, a senior research scientist at Nvidia, hailed as a breakthrough the DeepSeek paper reporting the results. He said on X it reminded him of earlier pioneering AI programs that mastered board games such as chess "from scratch, without imitating human grandmasters first."

Zack Kass, a former executive at OpenAI, said DeepSeek's advances despite U.S. restrictions "underscore a broader lesson: Resource constraints often fuel creativity."" [1]

1. China's Homemade AI Wows Silicon Valley. Huang, Raffaele.  Wall Street Journal, Eastern edition; New York, N.Y.. 27 Jan 2025: B1.

Du aukštojo mokslo reabilitacijos būdai


 

 "Williamas Galstonas yra teisus: aukštasis mokslas yra įtemptoje vietoje ("Higher Education Is in Trouble", Politics & Ideas, gruodžio 18 d.). Tikėjimas jo veiksmingumu mažėja. Vis daugiau žmonių mano, kad jo išlaidos viršija naudą. Vietoj to, plačiai priimta politika, kuri, kaip tikimasi, turės teigiamą poveikį, buvo neigiama.

 

 Vienas iš pavyzdžių – studentų skatinimas vertinti jų dėstytojus. Užuot padėję dėstytojams tapti geresniais mokytojais, stipriausias jo poveikis buvo pažymių infliacija. Susirūpinę, kad neigiami įvertinimai gali pakenkti jų karjerai, dėstytojai skyrė daugiau A ir B, nei anksčiau.

 

 Padidėjęs pasitikėjimas laikinais, ne visą darbo dieną dirbančiais, instruktoriais taip pat yra apgailėtinas pokytis. Didėjant jų skaičiui, o nepakeičiant išeinančius ar, išėjusius į pensiją, dėstytojus, fakulteto mokslinių tyrimų apimtis mažėja.

 

 Mano karjera aukštojo mokslo srityje man rodo, kad jei tokia politika nebus reformuota, aukštajam mokslui bus sunku susigrąžinti, kažkada turėtą, auksinę aureolę.

 

 Robertas A. Baronas

 

 Edmondas, Okla.“ [1]

 

1.  Two Remedies for Higher Education's Rehabilitation. Wall Street Journal, Eastern edition; New York, N.Y.. 27 Jan 2025: A16.