Sekėjai

Ieškoti šiame dienoraštyje

2024 m. spalio 30 d., trečiadienis

Svarbiausios idėjos apie o1

Tai trumpa ištrauka iš čia.

 

"o1: stipresnis žvilgsnis į išvadas

 

o1 daugeliu atžvilgių yra reikšmingas pirmiau aprašytos LLM tendencijos lūžis. Išvada užtrunka ilgiau, naudojant o1. Todėl modelis jaučiasi lėtesnis. Daug lėtesnis. OpenAIs sužmogina ilgesnį skaičiavimo laiką, vadindamas jį „mąstymu“. Bet kodėl o1 kartais nebaigia užduotį? Pirma, modelis nėra optimizuotas įprastoms, nepaprastoms užklausoms, pvz., „perfrazuokite šį el. laišką profesionalesniu tonu“. Ilgesnis ir brangesnis „mąstymo laikas“, palyginti su kitais modeliais, suteikia o1 naujų galimybių.

 

Jis geriau, nei bet kuris kitas modelis atlieka logines užduotis, tokias, kaip matematika ar programavimas.

 

Tuo pačiu metu jis nėra geresnis ir dažnai net blogesnis, kai kalbama apie teksto formulavimą, blogesnis, nei klasikiniai LLM, tokie, kaip Claude ar GPT-4o.

 

o1 yra pirmasis LLM, kuris gali atlikti sudėtingas užduotis geriau, nei paprastas, net jei vartotojas netyčia įdeda užduotis į tą pačią sritį. Jei duosite o1 paprastą užduotį, Open AI įspėja, gali atsitikti taip, kad modelis per daug „galvos“ apie sprendimą ir apsunkins rezultatą. Visas LLM kraštovaizdis yra prieštaringas, o naudojant o1 tai dar labiau išryškėja.

 

Antra, o1 reiškia naują erą, nes modelis labai aiškiai parodo, kad sutikus turėti ilgesnį išvados laiką, atsiranda naujų galimybių. Iki šiol vienintelė LLM proveržių ašis buvo mokymo lygis. Ar tai būtų didesnė skaičiavimo galia, daugiau ar geresni duomenų šaltiniai, ar skirtingi architektūriniai metodai, viskas sutelkta į modelių mokymo ar kūrimo etapą. Naudojant o1, išvados laikas tampa erzinančiu išlaidų veiksniu ir tampa potencialiu naujų požiūrių į kalbos modelius pradininkėmis.

 

Jei vartotojai turės šiek tiek kantrybės. Atrodo, kad maksimalus skaičiavimo laikas tarp įvesties ir generuojamos išvesties prieš modelio nutraukimą yra šiek tiek daugiau, nei 3 minutės, esant o1.

 

„Galvok žingsnis po žingsnio“ kaip pavyzdinė architektūra

 

Bet kodėl o1 turėtų nebaigti užduotį? Kas tiksliai čia vyksta?

 

Čia mes prieiname prie trečiojo aspekto, kodėl o1 reiškia naują epochą LLM. Iki šiol LLM dirbo griežtai priklausomai nuo kelio. Tai yra, jie analizuoja įvestį ir tada pradeda „numatyti“, kurie žodžiai, savo ruožtu, greičiausiai, reaguos į įvestį. Dėl šio požiūrio praėjusiais metais atsirado klaidinantis terminas „stochastinė papūga“, kuris ignoravo LLM sudėtingumo lygį ir iš to kylančią produkcijos kokybę. LLM išvesties klaidos kyla ne tik dėl, bet ir tuo pačiu metu dėl, nuoseklaus kalbos išvesties kūrimo. Sukūrus žetoną (žodį ar žodžio dalį), jis nustato, iš kurios pusės gali kilti tolesni žetonai.

 

Paprastais žodžiais tariant, tai reiškia vieną neteisingą posūkį, ir toliau LLM veikia neteisinga kryptimi likusiai išvesties daliai. Vartotojai galėjo šiek tiek sušvelninti šią priklausomybę nuo kelių, naudodami keletą raginančių gudrybių. „Apgalvokite savo atsakymą žingsnis po žingsnio“ ir panašūs minčių grandinės metodai, atrodo, stumia LLM ta kryptimi, kuri skatina sistemingesnę veiklą. Tai gali duoti pastebimai geresnių rezultatų. Tačiau, kaip ir modelio dydis, tai tik sumažina problemą, o ne ją pašalina. Dideli modeliai sumažina netikro žetono tikimybę, bet, vėlgi, ji niekur nedingsta.

 

Stochastinės papūgos terminas dabar dar mažiau taikomas o1. Nes čia Open AI pirmą kartą peržengė šios nuoseklios kartos išvadą. Open AI nenurodo, kaip tiksliai jie sukūrė o1. Tačiau mes žinome tiek daug: 

 

„Semafor“ 2023 m. sausio mėn. pranešė, kad „Open AI“ pasamdė daugiau, nei 1000, programinės įrangos kūrėjų visame pasaulyje, kaip subrangovus, kad suskirstytų kelių etapų programavimo projektus į atskirus etapus. Tikėtina, kad šių pastangų rezultatas bus duomenų rinkiniai, padedantys treniruojantiems LLM sukurti modelius, kad būtų galima atlikti kelių etapų užduotis.

 

2023 m. gegužę „Open AI“ paskelbė dokumentą „Patikrinkime žingsnis po žingsnio“. Jame, be kita ko, aprašoma, kaip duomenų žymėtojams pateikia nuoseklius matematinių problemų sprendimus, kaip siūloma Semafor straipsnyje, ir kaip vertina atskirus veiksmus. Darbo tikslas: sukurti „procesų prižiūrimą atlygio modelį“ (PRM). PRM skirtas patikrinti atskiro žingsnio teisingumo tikimybę pagal paskutinį sukurtą žetoną.

 

Apibendrinant galima pasakyti taip: o1 buvo apmokytas, siekiant išspręsti daugiapakopes logikos uždavinius. Atsižvelgiant į tai, o1 buvo sukurtas, siekiant sukurti kelis problemų sprendimo procesus per išvados laiką, įvertinant kiekvieną žingsnį atskirai ir nustatant, kada jis pasuko neteisingai ir reikia pradėti iš naujo.

 

o1 „mąstymo laikas“ yra ilgesnis, nes modelis eina per kelias sprendimo kryptis ir gali savarankiškai atpažinti klaidas. Todėl gali atsitikti taip, kad o1 nutraukia skaičiavimą. Modelis nustato, kad ankstesnis rezultatas yra neteisingas, tačiau jam skirta maksimali skaičiavimo galia pasibaigė." [1]

 

 

1. o1 ist der Anfang eines neuen Paradigmas. Frankfurter Allgemeine Zeitung (online) Frankfurter Allgemeine Zeitung GmbH. Sep 18, 2024. Von Marcel Weiß

Komentarų nėra: