Sekėjai

Ieškoti šiame dienoraštyje

2024 m. rugsėjo 18 d., trečiadienis

How Biden Let Europe Slip Away


"The Biden administration hasn't been good for the trans-Atlantic alliance. This might seem a surprising claim, given that Joe Biden's team and Kamala Harris's campaign have touted improved U.S.-European ties as their greatest foreign-policy achievement. To be sure, the administration has devoted greater attention to Europe than any other region and shifted U.S. policy toward European Union preferences on a range of issues, from the Iran nuclear deal to the Paris climate accord. But after 3 1/2 years, there is surprisingly little to show in tangible benefits for the U.S.

Take trade diplomacy. Mr. Biden's team insisted it would chart a new course with the EU after tit-for-tat tariff exchanges under Donald Trump. 

What we got instead was an incrementalist approach that has done little to address U.S. concerns about European protectionism while handing regulatory wins to Brussels and failing to create a unified front against Chinese mercantilism.

The centerpiece of the administration's approach was a new entity called the Trade and Technology Council. A brainchild of the European Commission, its nominal purpose was to compartmentalize areas for agreement after years of failed attempts to create a comprehensive trans-Atlantic free-trade agreement. By its very existence, the Trade and Technology Council favored Brussels because it took the EU's longstanding goal of regulatory convergence as a given and framed the agenda as a search for that convergence.

From the earliest meetings, it was apparent this wouldn't be a forum for achieving what is America's, and should be Europe's, top strategic aim in trade -- to end Chinese dumping and foil Beijing's efforts to dominate emerging technologies. Instead, the Trade and Technology Council has focused on scoring easy political wins like shared standards for powering electric vehicles and telecommunication projects in the developing world. Real problems -- such as electric-vehicle subsidies, the EU's new Digital Markets Act, and its carbon tax on U.S. imports -- were pushed to the sidelines.

Where Mr. Biden's commercial diplomacy has produced results, they've tended not to favor U.S. interests. Under the Trade and Technology Council's road map for artificial intelligence, Washington embraced Brussels' "risk-based approach" of placing up-front restrictions on new technologies before they've even been developed. This encumbers American innovators with constraints that Chinese counterparts don't have to worry about.

The administration also agreed to a global minimum tax, long sought by the EU, which penalizes U.S. companies while giving a pass to Chinese state-owned enterprises. 

An EU-U.S. data-privacy framework places new restrictions on U.S. intelligence-gathering while arguably giving Europeans greater protection than American citizens under U.S. law.

The Biden administration punted on the most contentious trade disputes. It negotiated a truce in the fight over aircraft subsidies and implemented a temporary quota system to replace Mr. Trump's tariffs on European steel and aluminum exports. Both are set to expire in early 2025 and will land in the lap of the next president.

Mr. Biden lambasted Mr. Trump for a supposedly soft approach to Russia -- and then sought the equivalent of an Obama-style "reset" with Russia. Mr. Biden waived sanctions on the Nord Stream 2 pipeline, slow-rolled military aid to Ukraine, and pursued a presidential summit with Vladimir Putin while keeping Volodymyr Zelensky at arm's length. These moves, combined with the catastrophic U.S. withdrawal from Afghanistan -- which, as a recent House report found, left European allies high and dry -- probably helped convince Russian leaders that America is not serious in Ukraine.

After the the conflict started, many North Atlantic Treaty Organization allies increased defense spending. But the Biden administration did little to seize the best chance since the Cold War to institutionalize greater European seriousness about security. Germany is backtracking on its pledge without any apparent response from Washington.

Promises by Western European allies to move brigade-sized units to NATO's eastern flank -- so the U.S. can focus more on the Middle East and Asia -- have gone unfulfilled. A recent Center for Strategic and International Studies report found that NATO remains reliant on U.S. nuclear forces to "expel, not repel," an attack.

Energy security is also suffering. The Ukraine conflict was the Biden administration's chance to reorient Europe from Russian gas while boosting U.S. natural-gas exports. While making a show of promoting gas exports to Europe, the administration froze permitting for 17 liquefied natural-gas terminals and introduced domestic tax incentives that encourage the production of wind and solar over fossil fuels. While greenlighting Nord Stream 2, the largest conduit of carbon-emitting gas in modern European history, the administration helped kill the EastMed pipeline, which would have brought Israeli gas to Europe via Cyprus and Greece to alleviate the shortages created by sanctions on Russia.

The administration might say this list doesn't account for the good vibes between Mr. Biden and his European counterparts. But the love affair has mainly been with Brussels, Berlin and, to a lesser extent, Paris. It hasn't applied to the U.K. Mr. Biden halted talks on a U.S.-U.K. free-trade deal, tacitly backed the EU against the U.K. in talks over Northern Ireland, and helped engineer the defeat of London's preferred candidate for the NATO secretary-general job. The administration seemed to go out of its way, at least until the new Labour government was elected, to damage the special relationship.

Tilting toward EU positions hasn't gained the U.S. special favors in Brussels, and new disputes have taken root. EU leaders were incensed that the administration didn't consult them before subsidizing U.S. electric vehicles and other green technologies under the Inflation Reduction Act. As Mario Draghi's recent report to the commission makes clear, the discussion in Brussels now is about how to keep the U.S. from racing ahead in clean technologies. The result is likely to be dueling trans-Atlantic industrial policies that drive up prices across the West and make it harder to combine forces against China.

In trade, defense, energy and industrial policy, the Biden administration has missed opportunities. Mr. Biden's term coincided with a significant increase in Russian activity and Chinese preparation for war, which presented a once-in-a-generation opportunity to galvanize a more unified and capable Western alliance. Instead of capitalizing to improve U.S. and European security and prosperity, the Biden administration pursued near-term bonhomie and neglected policies to address the real dangers facing the West.

---

Mr. Mitchell is a former assistant secretary of state for European and Eurasian affairs and a principal at the Marathon Initiative." [1]

1. How Biden Let Europe Slip Away. A. Wess Mitchell.  Wall Street Journal, Eastern edition; New York, N.Y.. 18 Sep 2024: A.15. 

 

Open AI: o1 yra naujos paradigmos pradžia

 

 

"Naujasis "Open AI" o1 modelis reiškia ryškų lūžį didelių kalbos modelių (LLM) vystyme. Užuot padarius jį kuo greitesnį ir pigesnį, modelis yra optimizuotas sudėtingoms užduotims spręsti. Tai reiškia, kad atsakymai lėtesni ir brangesni.

 

Yra du laikotarpiai, per kuriuos dideli dirbtinio intelekto (AI) kalbų modeliai atima skaičiavimo laiką. Šie LLM gyvavimo ciklo laikotarpiai negali būti labiau skirtingi.

 

Pirmasis laikotarpis yra modelio kūrimas, paprastai vadinamas mokymu. Per šį laiką apdorojant didelius duomenų kiekius, atsiranda vidinės modelių žetonų struktūros. Tai yra pagrindas modeliams atpažinti kalbos modelius ir ryšius bei kurti kalbą.

 

Antrasis laikotarpis yra vadinamas išvada. Iš esmės išvada yra momentas, kai LLM taiko vidines mokymo metu sukurtas struktūras, kad apdorotų įvestį ir, tikimės, sukurtų prasmingą rezultatą.

 

„Įprasti“ LLM: mokymas tampa brangesnis, išvados pigesnės

 

Palyginimas iš klasikinės pramonės: mokymo etapas yra tarsi naujos gamyklos su naujomis gamybos patalpomis projektavimas ir statyba. Išvados – tai gamyba, kuri vyksta šioje gamykloje po sėkmingos statybos, t.y. faktinis gamybinių patalpų panaudojimas.

 

Iki šiol pramonė, tobulindama modelius, sutelkė dėmesį į mokymo etapą. Bėgant metams, tai tapo ilgesnė ir brangesnė procedūra, nes modeliai tapo didesni. Didesni modeliai, turintys daugiau parametrų, t. y. kintamųjų, kuriuos modeliai išmoksta treniruočių metu, paprastai sukuria geresnius, labiau pajėgius modelius.

 

Oficialių duomenų apie mokymo išlaidas nėra.

 

Tačiau ekspertai skaičiuoja, kad Claude 3.5 mokymas kainavo nuo 100 iki 200 milijonų dolerių.

 

Remiantis 2024 m. Stanfordo AI indekso ataskaita, be kita ko, GPT-4 kainavo apie 78 milijonus dolerių. Teigiama, kad „Google“ dabartinio „Gemini 2“ pirmtako „Gemini Ultra“ treniruotė kainavo 191 mln. Dario Amodei, Claude'o kompanijos Anthropic generalinis direktorius, netgi viešai prognozavo, kad mokymo išlaidos vienam modeliui iki 2025 ar 2026 m. gali padidėti iki dešimties milijardų dolerių. Ar šis teiginys bus teisingas, ar tik skirtas atgrasyti potencialius naujus užpuolikus, belieka pamatyti.

 

Tačiau treniruočių tendencija yra aiški: didžiausi ir todėl, dažniausiai, geriausi modeliai tampa didesni, todėl treniruojami brangiau.

 

Didėjančias investicines išlaidas padengia modelių tiekėjai, tačiau jos yra unikalios kiekvienam modeliui ir dėl augančio dydžio vis dažniau sudaro kliūtis patekti į rinką. Tik kelios įmonės gali sau leisti investuoti 100 milijonų dolerių ar daugiau į mokymo modelius. Be kapitalo, jums taip pat reikia prieigos prie retos skaičiavimo galios ir ne mažiau retų specialistų.

 

Šiuo metu Vokietijoje tai darančios įmonės nėra. Europoje vienintelė įmonė, galinti įsitraukti į šį žaidimą, yra Paryžiaus „Mistral“.

 

Brangesnis mokymas automatiškai nereiškia brangesnio naudojimo, t. y. brangesnės išvados. Didesni modeliai iš tiesų reikalauja daug daugiau skaičiavimų tiek treniruojantis, tiek naudojant. Tačiau jau beveik metus pastebime tendenciją tarp pagrindinių modelių tiekėjų, siekiančių, kad jų modeliai būtų pigesni, taigi ir patrauklesni. Ši tendencija prasidėjo nuo 2023 m. lapkričio mėn. GPT-4 Turbo, kuris buvo pirmasis geriausias modelis su mažesnėmis naudojimo sąnaudomis. Nuo tada geriausių modelių naudojimo išlaidos nuolat mažėjo.

 

Tai irgi akivaizdu. Didelės mokymo išlaidos yra našta balansui, tačiau, kaip minėta, jos taip pat suteikia konkurencinių pranašumų. Kita vertus, didelės arba bent jau suvokiamos, kaip didelės išvadų išlaidos neleidžia LLM plisti, kaip produktams.

 

o1: Atidžiau pažvelkite į išvadas

 

o1 daugeliu atžvilgių yra reikšmingas pirmiau aprašytos LLM tendencijos lūžis. Išvados su o1 užtrunka ilgiau. Taigi modelis jaučiasi lėtesnis. Daug lėtesnis. Open AI sužmogina ilgesnį skaičiavimo laiką, vadindamas jį „mąstymu“.

 

Bet kodėl o1 yra lūžis? Pirma, modelis nėra optimizuotas įprastoms, paprastoms, užklausoms, pvz., „perrašykite šį el. laišką profesionalesniu tonu“. „Mąstymo laikas“, kuris dabar yra ilgesnis ir brangesnis, nei kitų modelių, suteikia o1 naujų galimybių. Jis geriau, nei bet kuris kitas modelis, atlieka logines užduotis, tokias, kaip matematika ar programavimas. Tuo pačiu metu jis nėra geresnis ir dažnai netgi blogesnis teksto formulavimo srityje, nei klasikiniai AI LLM, tokie kaip Claude arba GPT-4o.

 

o1 yra pirmasis LLM, kuris gali atlikti sudėtingas užduotis geriau, nei paprastas, net jei vartotojas netyčia įdeda abi užduotis į tą pačią sritį. Jei duosite o1 paprastą užduotį, Open AI įspėja, modelis gali per daug „galvoti“ apie sprendimą ir apsunkinti rezultatą. Visas LLM kraštovaizdis nėra intuityvus, o naudojant o1 ši situacija pablogėja.

 

Antra, o1 reiškia lūžį, nes modelis labai aiškiai parodo, kad priimant ilgesnį išvados laiką, atsiranda naujų galimybių. Iki šiol vienintelė LLM proveržių ašis buvo treniravimo lygis. Ar tai būtų didesnė skaičiavimo galia, daugiau ar geresnių duomenų ar kiti architektūriniai metodai, viskas buvo sutelkta į modelių mokymo ar kūrimo etapą. Naudojant o1, išvados laikas paverčiamas iš erzinančio sąnaudų faktoriaus į galimą naujų požiūrių į kalbos modelius pradininką.

 

Jei vartotojai turės šiek tiek kantrybės. Atrodo, kad maksimalus skaičiavimo laikas tarp įvesties ir sugeneruotos išvesties prieš modelio darbo nutraukimą yra šiek tiek daugiau, nei 3 minutės o1 atveju.

 

„Galvok žingsnis po žingsnio“ kaip pavyzdinė architektūra

 

Bet kodėl o1 turėtų nutraukti veiklą? Kas tiksliai čia vyksta?


Tai atveda mus prie trečiojo aspekto, kodėl o1 reiškia lūžį LLM. LLM iki šiol dirbo griežtai priklausomai nuo kelio. Tai yra, jie analizuoja įvestį ir tada pradeda „nuspėti“, kurie žodžiai, greičiausiai, bus atsakas į įvestį. Dėl šio požiūrio praėjusiais metais atsirado klaidinantis terminas „stochastinė papūga“, kuris ignoravo LLM sudėtingumo lygį ir iš to kylančią produkcijos kokybę. LLM išvesties klaidos kyla dėl nuoseklaus kalbos išvesties kūrimo. Sukūrus žetoną (žodžius ar žodžių dalis), jis nustato, iš kurios pusės gali atsirasti tolesni žetonai.

 

Paprastais žodžiais tariant, tai reiškia, kad jei pasuksite neteisingą posūkį, likusioje išvesties dalyje LLM veiks neteisinga kryptimi. Vartotojai galėjo šiek tiek sušvelninti šią priklausomybę nuo kelių, naudodami keletą raginančių gudrybių. „Apgalvokite savo atsakymą žingsnis po žingsnio“ ir panašus požiūris į minčių grandines stumia LLM linkme, kuri, atrodo, skatina sistemingesnį rezultatą. Tai gali duoti pastebimai geresnių rezultatų. Tačiau, kaip ir modelio dydis, tai tik sumažina problemą, o ne ją pašalina. Dideli modeliai sumažina netikro žetono tikimybę, tačiau ir čia ji neišnyksta.

 

Stochastinės papūgos terminas dar mažiau taikomas o1. Tai pirmas kartas, kai OpenAI peržengė šios nuoseklios kartos išvadą. Open AI nenurodo, kaip tiksliai jie sukūrė o1. Tačiau mes žinome tiek daug: „Semafor“ 2023 m. sausio mėn. pranešė, kad „Open AI“ pasamdė daugiau, nei 1000 programinės įrangos kūrėjų visame pasaulyje, kaip subrangovus, kad suskirstytų kelių etapų programavimo projektus į atskirus etapus. Tikėtina, kad šių pastangų rezultatas bus duomenų rinkiniai, padedantys besimokantiems LLM sukurti modelius, kad būtų galima atlikti kelių etapų užduotis.

 

2023 m. gegužę „Open AI“ paskelbė dokumentą „Patikriname žingsnis po žingsnio“. Jame, be kita ko, aprašoma, kaip pateikia duomenų žymeklius su nuosekliais matematikos problemų sprendimais, kaip siūloma Semafor straipsnyje, ir kaip vertina atskirus veiksmus. Straipsnio tikslas: sukurti „procesų prižiūrimą atlygio modelį“ (PRM). PRM turėtų patikrinti atskiro žingsnio teisingumo tikimybę po to, kai buvo sukurtas paskutinis prieigos raktas.

 

Apibendrinant galima teigti: o1 buvo mokomas spręsti daugiapakopes logikos uždavinius. Atsižvelgiant į tai, o1 buvo sukurtas siekiant sukurti kelis problemų sprendimo procesus per išvados laiką, įvertinant kiekvieną žingsnį atskirai ir taip nustatant, kada jis „pasuko klaidingu posūkiu“ ir turi pradėti iš naujo.

 

o1 „mąstymo laikas“ yra ilgesnis, nes modelis veikia keliomis sprendimo kryptimis ir gali savarankiškai nustatyti klaidas. Štai kodėl o1 gali nutraukti skaičiavimą. Modelis nustato, kad ankstesnis rezultatas yra neteisingas, tačiau jam skirta maksimalus skaičiavimo laikas pasibaigė.

 

Kur krypsta Open AI

 

Open AI turi dešimt milijonų prenumeratorių. Vos metus skaičiuojantis, brangesnis įmonių pasiūlymas jau turi milijoną abonentų. o1 čia siūlo didžiulį potencialą. Daugiapakopių iššūkių sprendimas padidina naudojimo tipus. o1, greičiausiai, bus naudojamas ypač dažnai moksliniams tyrimams. Tačiau programavimas su LLM čia taip pat pasiekia naują lygį. Pagalvokite apie mūsų tekstą apie AI palaikomą programavimą. Open AI taip pat gali susieti o1 su kitais modeliais. o1 ers apskaičiuoja maršrutą į darbą, o pigesni modeliai atlieka „kojų darbą“. Didžiausias iššūkis išlieka tikrojo modelio gaminio pusėje. Open AI turi geriau perteikti, ką galima ir ko negalima pasiekti, naudojant šį modelį. LLM sunku suvokti intuityviai, ir, atrodo, kad o1 sustiprina šį sunkumą.


Tačiau tuo pačiu metu o1 rodo, kad autonominių ir pusiau autonominių agentų laikas yra arti. o1 gali būti pirmųjų gerai veikiančių agentų pagrindas.


Įdomu tai, kad „Open AI“ pridėjo papildomą skaičiavimo laiką API naudotojams į nematomus prieigos raktus. API naudojimas skaičiuojamas iš įvesties ir išvesties prieigos raktų. Dabar prie išlaidų pridedamas nenuspėjamas kintamasis. Open AI nesako, kodėl jie tai daro. Tačiau manome, kad Open AI nori neleisti, kad kiti modeliai būtų mokomi, remiantis o1. Šis naudojimas yra draudžiamas pagal taisykles ir nuostatas, bet vis tiek vyksta per API. o1 nerodo vartotojui veiksmų, kuriuos jis atliko prieš išvesdamas. Negalite matyti, kokių krypčių sistema pasirinko ir kurias atmetė. Visi šie skaičiavimai kainuoja, tačiau Open AI nenori jų atskleisti.

 

Kur eina LLM

 

Jei dabartiniai GPT-4 pagrįsti LLM ko nors moko, tai Open AI paprastai yra tik pirmasis, bet ne vienintelis, padaręs LLM proveržį. Per ateinančius mėnesius pamatysime daugiau modelių, veikiančių panašiai, kaip o1.

 

Atvirojo kodo modeliai iš Meta arba Mistral gali atskleisti vidinius procesus, priešingai, nei o1, kas turėtų atverti tolesnes programas.

 

AI agentai dabar tampa tokie pat apčiuopiami, kaip sudėtingi modelių deriniai su darbo pasidalijimu tarp LLM, kaip čia aprašėme.

 

Išvada

 

o1 rodo, kad LLM plėtros linijos pabaiga dar toli.

 

Tačiau daugiau dėmesio skiriant išvadoms šiame naujame, apgalvotame, modelio tipe, mums prieinami lustai ir skaičiavimo galia tampa dar svarbesni.


Galiausiai, o1 taip pat parodo, kaip reguliavimas atsilieka nuo spartaus technologijų vystymosi. ES AI įstatyme dėmesys sutelktas į skaičiavimo galią mokymo etape, kad būtų galima atskirti „pavojingą“ nuo „saugaus“ AI. AI įstatymas nustato 1025 FLOP ribą skaičiavimo galiai, naudojamai dirbtinio intelekto modeliams mokyti. Šią vertę viršijantys modeliai priskiriami sistemoms, turinčioms „didelę sisteminę riziką“.


Dėl paprasto, nežymaus prioritetų pasikeitimo o1 šis, ir taip abejotinas, reguliavimo metodas tapo dar labiau abejotinas. Kadangi, anot o1, netolimoje ateityje taip pat pamatysime modelius, kuriems reikės kur kas mažiau mokymo, daugiau skaičiavimo laiko, darant išvadas ir kurių galimybės viršys viską, ką žinome šiandien. Taip pat atvirojo kodo. Ir taip pat vietiniuose įrenginiuose.


Marcelis Weißas

 

Marcelis Weißas yra nepriklausomas analitikas ir strategijos konsultantas Berlyne. Nuo pat naujojo tūkstantmečio pradžios jis dirba su platformomis ir kitomis strategijai svarbiomis skaitmeninės ekonomikos dinamikomis. Jis konsultuoja įmones ir skaito pagrindinius pranešimus šiomis temomis."

 

 

 

 


Open AI : o1 is the beginning of a new paradigm

"Open AI's new o1 model represents a break with LLMs. Instead of making it as quick and cheap to use as possible, the model is optimized to solve complex tasks. This means slower and more expensive answers.

There are two periods in time in which the large AI language models take up computing time. These periods in the life cycle of an LLM couldn't be more different. 

The first period is the model building, commonly called training. During this time, the internal token structures of the models emerge from the processing of large amounts of data. These are the basis for the models to be able to recognize patterns and relationships in the language and to generate language. 

The second period is what is known as inference. Inference is another word for conclusion. Basically, inference is the moment when the LLM applies the internal structures built up in training to process an input and hopefully produce a meaningful output.

"Conventional" LLMs: Training becomes more expensive, inference cheaper

A comparison from the classic industry: The training phase is like the design and construction of a new factory with new production facilities. Inferences are the production that takes place in this factory after successful construction, i.e. the actual use of the production facilities.

To date, the industry has focused on the training phase when improving the models. This has become longer and more expensive over the years because the models have become larger. Larger models with more parameters, i.e. variables that the models learn during training, usually lead to better, more capable models.

There are no official figures on training costs. 

However, experts estimate that the training of Claude 3.5 cost between 100 and 200 million dollars. 

GPT-4 is said to have cost around 78 million dollars according to the Stanford AI Index Report 2024, among others. Gemini Ultra, the predecessor of Google's current Gemini 2, is said to have cost 191 million dollars to train. Dario Amodei, the CEO of Anthropic, the company behind Claude, has even publicly predicted that training costs could rise to up to ten billion dollars per model by 2025 or 2026. Whether this statement will be true or is just intended to deter potential new attackers remains to be seen. 

 

The trend in training is clear, however: the largest and therefore usually best models are getting bigger and therefore more expensive to train.

 

The rising investment costs are borne by the model providers, but they are unique per model and, due to the growing size, are increasingly representing a barrier to market entry. Only a few companies can actually afford to invest 100 million dollars or more in training models. In addition to capital, you also need access to rare computing power and equally rare specialists. 

 

There is currently no company in Germany that does this. In Europe, the only company that can get involved in this game is Mistral from Paris.

More expensive training does not automatically mean more expensive use, i.e. more expensive inference. Larger models are indeed more computationally intensive both in training and in use. But for almost a year now we have also seen a trend among the major model providers to make the use of their models cheaper and thus more attractive. This trend began with GPT-4 Turbo in November 2023, which was the first top model with lower usage costs. Since then, usage costs for the top models have been falling continuously.

This is also obvious. High training costs are a burden on the balance sheet, but as noted, they also provide competitive advantages. High, or at least perceived as high, inference costs, on the other hand, prevent LLMs from spreading as products.

o1: A closer look at inference

o1 is in many ways a significant break with the LLM trend described above. Inference takes longer with o1. So the model feels slower. Much slower. Open AI humanizes the longer computation time with “thinking”. 

But why is o1 a break? First, the model is not optimized for regular, run-of-the-mill requests like “reword this email in a more professional tone”. The “thinking time”, which is now longer and more expensive than other models, gives o1 new capabilities. It is better at performing logical tasks, such as mathematics or programming, than any other model. At the same time, it is no better and often even worse at text formulation than classic AI LLMs such as Claude or GPT-4o.

o1 is the first LLM that can perform complex tasks better than simple tasks, even if the user accidentally puts the tasks in the same area. If you give o1 a simple task, Open AI warns, the model may "think" too much about the solution and complicate the result. The LLM landscape as a whole is not intuitive, and with o1 this situation is exacerbated.

Secondly, o1 represents a break because the model shows very clearly that accepting increased inference time reveals new options. Up to now, the only axis for breakthroughs in LLMs was at the training level. Be it more computing power, more or better data or other architectural approaches, everything was focused on the training or construction phase of the models. With o1, inference time is transformed from an annoying cost factor to a potential pioneer of new approaches to language models.

Provided that users have a little patience. The maximum computation time between input and generated output before the model aborts seems to be just over 3 minutes for o1.

 

"Think step by step" as a model architecture

 

But why would o1 abort? What exactly is happening here?

 

This brings us to the third aspect of why o1 represents a break in LLMs. LLMs have so far worked strictly path-dependently. That is, they analyze the input and then begin to "predict" which words are most likely to be the most likely response to the input. This approach gave rise to the misleading term "stochastic parrot" last year, which ignored the level of complexity of LLMs and the resulting output quality. Errors in the output of LLMs arise not only, but also, from the sequential creation of the speech output. Once a token (words or parts of words) has been created, it determines from which direction the subsequent tokens can come.

 

In simple terms, this means that if you take a wrong turn, the LLM will run in the wrong direction for the rest of the output. Users have been able to mitigate this path dependency a bit with a few prompting tricks. "Think through your answer step by step" in the prompt and similar approaches to thought chains seem to nudge LLMs in a direction that seems to promote a more systematic output. This can produce noticeably better results. However, like model size, it only reduces the problem rather than eliminating it. Large models reduce the probability of a false token, but here too it does not disappear.

The term stochastic parrot is even less applicable to o1. This is the first time that Open AI has gone beyond this sequential generation in inference. Open AI does not say how exactly they built o1. But we do know this much: Semafor reported in January 2023 that Open AI hired over 1,000 software developers worldwide as subcontractors to break down multi-stage programming projects into individual stages. The result of these efforts is likely to be data sets that help LLMs in training to create patterns to complete multi-step tasks.

In May 2023, Open AI published a paper entitled Let's Verify Step by Step. In it, they describe, among other things, how they present data labelers with step-by-step solutions to math problems, as suggested in the Semafor article, and how they evaluate the individual steps. The goal of the paper: to build a "process-supervised reward model" (PRM). The PRM should check the probability of the correctness of an individual step after its last token created.

In summary, the following can be stated: o1 was trained with a view to solving multi-step logic problems. With this focus, o1 was designed to create several problem-solving processes within the inference time, evaluating each step individually and thus determining when it has "taken a wrong turn" and needs to start again.

o1's "thinking time" is longer because the model runs through several solution directions and can identify errors independently. This is why o1 can abort the calculation. The model determines that the previous result is wrong, but the maximum computing power allocated to it has expired.

Where Open AI is headed

Open AI has ten million subscribers. The higher-priced enterprise offering for companies, which is only a year old, already has one million subscribers. o1 offers enormous potential here. Solving multi-stage challenges increases the types of use. o1 is likely to be used in research in particular. But programming with an LLM also reaches a new level here. Think of our text on AI-supported programming. Open AI can also link o1 with its other models. o1 ers calculates a route to work, and the cheaper models do the "legwork". The biggest challenge remains on the actual product side of the model. Open AI needs to communicate better what can and cannot be achieved with this model. LLMs are difficult to grasp, and o1 seems to reinforce this difficulty.

 

At the same time, however, o1 shows that the time of autonomous and semi-autonomous agents is near. o1 can be the basis for the first well-functioning agents.

 

It is interesting that Open AI has put the additional computing time in the inference for API users into invisible tokens. API usage is calculated from input tokens and output tokens. Now an unpredictable variable is added to the costs. Open AI does not say why they do this. But our guess is that Open AI wants to prevent other models from being trained on the basis of o1. This use is prohibited according to the terms and conditions, but still takes place via the API. o1 does not show the user the steps it took before the output. You cannot see which directions the system took and rejected. All of these calculations cost money, but Open AI does not want to disclose them.

Where LLMs are headed

If the current GPT-4-based LLMs teach us anything, it is that Open AI is usually only the first, but not the only, to make LLM breakthroughs. We will see more models that work similarly to o1 in the coming months. 

Open source models from Meta or Mistral could reveal the internal processes in contrast to o1, which should open up further applications.

AI agents are now becoming just as tangible as sophisticated model mixes with division of labor between the LLMs, as we have described here.

Conclusion

o1 shows that the end of the line in LLM development is still a long way off.

However, with a stronger focus on inference in this new, thoughtful type of model, the chips and computing power available to us become even more important.

 

Finally, o1 also shows how regulation is lagging behind rapid technological development. The EU's AI Act has focused on computing power in the training phase in order to be able to distinguish "dangerous" from "safe" AI. The AI ​​Act sets a threshold of 1025 FLOPs for the computing power used to train AI models. Models that exceed this value are classified as systems with "high systemic risk".

 

With a simple, slight shift in priorities, o1 has made this already questionable regulatory approach even more questionable. Because according to o1, in the near future we will also see models that require far less training, use more computing time in inference and whose capabilities will exceed anything we know today. Also in open source. And also locally.

 

Marcel Weiß

Marcel Weiß is an independent analyst and strategy consultant in Berlin. He has been working on platform issues and other strategy-relevant digital economic dynamics since the early years of the new millennium. He advises companies and gives keynote speeches on these topics."