„Naujasis OpenAI modelis o1 reiškia naują erą dideliems kalbų modeliams (LLM). Užuot naudojamas kuo greičiau ir pigiau, modelis yra optimizuotas sudėtingoms užduotims spręsti. Tai reiškia, kad atsakymai lėtesni ir brangesni.
Yra du laikotarpiai, per kuriuos dideliems dirbtinio intelekto (AI) kalbų modeliams reikia skaičiavimo laiko. Šie LLM gyvavimo ciklo laikotarpiai negali būti labiau skirtingi. Pirmasis laikotarpis yra modelio kūrimas, paprastai vadinamas mokymu. Per šį laiką vidinės modelių žetonų struktūros atsiranda, apdorojant didelius duomenų kiekius. Tai yra pagrindas modeliams atpažinti kalbos reguliarumus ir ryšius bei gebėti generuoti kalbą. Antrasis laikotarpis yra vadinamoji išvada. Išvada yra kitas žodis, reiškiantis rezultatą. Iš esmės išvada yra momentas, kai LLM taiko vidines struktūras, sukurtas mokyme, kad apdorotų įvestį ir gautų, tikimasi, prasmingą rezultatą.
„Tradiciniai“ LLM: mokymas tampa brangesnis, išvados pigesnės
Palyginimas iš klasikinės pramonės: mokymo etapas yra tarsi naujos gamyklos su naujomis gamybos patalpomis projektavimas ir statyba. Išvados – tai gamyba, kuri vyksta šioje gamykloje po sėkmingos statybos, t.y. faktinis gamybinių patalpų panaudojimas.
Iki šiol pramonė daugiausia dėmesio skyrė modelių tobulinime mokymo etapui. Bėgant metams, tai tapo ilgesnė ir brangesnė procedūra, nes modeliai tapo didesni. Kadangi didesni modeliai, turintys daugiau parametrų, t. y. kintamųjų, kuriuos modeliai išmoksta treniruočių metu, paprastai lemia geresnius, labiau pajėgius, modelius.
Oficialių duomenų apie mokymo išlaidas nėra. Tačiau ekspertai apskaičiavo, kad Claude 3.5 mokymas kainuoja nuo 100 iki 200 mln. dolerių. Teigiama, kad GPT-4 kainavo apie 78 mln. dolerių, remiantis „Stanford AI Index Report 2024“, be kita ko, dabartinio „Google“ „Gemini 2“ pirmtako mokymas kainavo 191 mln. dolerių. Dario Amodei, Anthropic, Claude'o kompanijos, generalinis direktorius, netgi viešai prognozuoja, kad mokymo išlaidos vienam modeliui iki 2025 ar 2026 metų gali išaugti iki 10 mlrd. dolerių. Belieka išsiaiškinti, ar šis teiginys bus teisingas, ar jis tiesiog skirtas atgrasyti galimus naujus užpuolikus. Tačiau treniruočių tendencija yra aiški: didžiausi ir todėl, dažniausiai, geriausi, modeliai tampa didesni, todėl treniruojami vis brangiau.
Didėjančios investicijų sąnaudos tenka modelių tiekėjams, tačiau jos yra unikalios kiekvienam modeliui ir vis labiau kliudo patekti į rinką konkurentams dėl augančio dydžio. Tik kelios įmonės gali sau leisti investuoti 100 mln. dolerių ar daugiau į mokymą modeliams. Be kapitalo, jums taip pat reikia prieigos prie retos skaičiavimo galios ir taip pat retų kvalifikuotų darbuotojų. Šiuo metu Vokietijoje tai darančios įmonės nėra. Europoje šiame žaidime gali varžytis tik „Mistral“ iš Paryžiaus.
Brangesnis mokymas automatiškai nereiškia brangesnio naudojimo, t. y. brangesnės išvados. Didesni modeliai reikalauja daug daugiau skaičiavimų tiek treniruojantis, tiek naudojant. Tačiau jau beveik metus pastebime tendenciją tarp pagrindinių modelių tiekėjų, kad jų modeliai būtų pigesni ir todėl patrauklesni. Ši tendencija prasidėjo nuo 2023 m. lapkričio mėn. GPT-4 Turbo, kuris pirmą kartą buvo aukščiausios klasės modelis su mažesnėmis naudojimo sąnaudomis. Nuo tada geriausių modelių naudojimo išlaidos nuolat mažėjo.
Tai irgi akivaizdu. Didelės mokymo išlaidos yra našta balansui, tačiau, kaip minėta, jos taip pat suteikia konkurencinių pranašumų. Kita vertus, didelės arba bent jau suvokiamos, kaip didelės išvadų išlaidos neleidžia LLM plisti, kaip produktams.
o1: stipresnis žvilgsnis į išvadas
o1 daugeliu atžvilgių yra reikšmingas pirmiau aprašytos LLM tendencijos lūžis. Išvada užtrunka ilgiau naudojant o1. Todėl modelis jaučiasi lėtesnis. Daug lėtesnis. OpenAIs sužmogina ilgesnį skaičiavimo laiką, vadindamas jį „mąstymu“. Bet kodėl o1 kartais nebaigia užduotį? Pirma, modelis nėra optimizuotas įprastoms, nepaprastoms užklausoms, pvz., „perfrazuokite šį el. laišką profesionalesniu tonu“. Ilgesnis ir brangesnis „mąstymo laikas“, palyginti su kitais modeliais, suteikia o1 naujų galimybių. Jis geriau, nei bet kuris kitas modelis atlieka logines užduotis, tokias, kaip matematika ar programavimas. Tuo pačiu metu jis nėra geresnis ir dažnai net blogesnis, kai kalbama apie teksto formulavimą, blogesnis, nei klasikiniai LLM, tokie, kaip Claude ar GPT-4o.
o1 yra pirmasis LLM, kuris gali atlikti sudėtingas užduotis geriau, nei paprastas, net jei vartotojas netyčia įdeda užduotis į tą pačią sritį. Jei duosite o1 paprastą užduotį, Open AI įspėja, gali atsitikti taip, kad modelis per daug „galvos“ apie sprendimą ir apsunkins rezultatą. Visas LLM kraštovaizdis yra prieštaringas, o naudojant o1 tai dar labiau išryškėja.
Antra, o1 reiškia pertrauką, nes modelis labai aiškiai parodo, kad sutikus ilgesnį išvados laiką, atsiranda naujų galimybių. Iki šiol vienintelė LLM proveržių ašis buvo mokymo lygis. Ar tai būtų didesnė skaičiavimo galia, daugiau ar geresni duomenų, ar skirtingi architektūriniai metodai, viskas sutelkta į modelių mokymo ar kūrimo etapą. Naudojant o1, išvados laikas tampa erzinančiu išlaidų veiksniu ir tampa potencialiu naujų požiūrių į kalbos modelius pradininku.
Jei vartotojai turės šiek tiek kantrybės. Atrodo, kad maksimalus skaičiavimo laikas tarp įvesties ir generuojamos išvesties prieš modelio nutraukimą yra šiek tiek daugiau, nei 3 minutės, esant o1.
„Galvok žingsnis po žingsnio“ kaip pavyzdinė architektūra
Bet kodėl o1 turėtų nebaigti užduotį? Kas tiksliai čia vyksta?
Čia mes prieiname prie trečiojo aspekto, kodėl o1 reiškia naują epochą LLM. Iki šiol LLM dirbo griežtai priklausomai nuo kelio. Tai yra, jie analizuoja įvestį ir tada pradeda „numatyti“, kurie žodžiai, savo ruožtu, greičiausiai, reaguos į įvestį. Dėl šio požiūrio praėjusiais metais atsirado klaidinantis terminas „stochastinė papūga“, kuris ignoravo LLM sudėtingumo lygį ir iš to kylančią produkcijos kokybę. LLM išvesties klaidos kyla ne tik dėl, bet ir tuo pačiu metu dėl, nuoseklaus kalbos išvesties kūrimo. Sukūrus žetoną (žodį ar žodžio dalį), jis nustato, iš kurios pusės gali kilti tolesni žetonai.
Paprastais žodžiais tariant, tai reiškia vieną neteisingą posūkį, ir toliau LLM veikia neteisinga kryptimi likusiai išvesties daliai. Vartotojai galėjo šiek tiek sušvelninti šią priklausomybę nuo kelių, naudodami keletą raginančių gudrybių. „Apgalvokite savo atsakymą žingsnis po žingsnio“ ir panašūs minčių grandinės metodai, atrodo, stumia LLM ta kryptimi, kuri, atrodo, skatina sistemingesnę veiklą. Tai gali duoti pastebimai geresnių rezultatų. Tačiau, kaip ir modelio dydis, jis tik sumažina problemą, o ne ją pašalina. Dideli modeliai sumažina netikro žetono tikimybę, bet vėlgi ji niekur nedingsta.
Stochastinės papūgos terminas dabar dar mažiau taikomas o1. Nes čia Open AI pirmą kartą peržengė šios nuoseklios kartos išvadą. Open AI nenurodo, kaip tiksliai jie sukūrė o1. Tačiau mes žinome tiek daug:
„Semafor“ 2023 m. sausio mėn. pranešė, kad „Open AI“ pasamdė daugiau, nei 1000, programinės įrangos kūrėjų visame pasaulyje, kaip subrangovus, kad suskirstytų kelių etapų programavimo projektus į atskirus etapus. Tikėtina, kad šių pastangų rezultatas bus duomenų rinkiniai, padedantys treniruojantiems LLM sukurti modelius, kad būtų galima atlikti kelių etapų užduotis.
2023 m. gegužę „Open AI“ paskelbė dokumentą „Patikrinkime žingsnis po žingsnio“. Jame, be kita ko, aprašoma, kaip duomenų žymėtojams pateikia nuoseklius matematinių problemų sprendimus, kaip siūloma Semafor straipsnyje, ir kaip vertina atskirus veiksmus. Darbo tikslas: sukurti „procesų prižiūrimą atlygio modelį“ (PRM). PRM skirtas patikrinti atskiro žingsnio teisingumo tikimybę pagal paskutinį sukurtą tokeną.
Apibendrinant galima pasakyti taip: o1 buvo apmokytas, siekiant išspręsti daugiapakopes logikos uždavinius. Atsižvelgiant į tai, o1 buvo sukurtas siekiant sukurti kelis problemų sprendimo procesus per išvados laiką, įvertinant kiekvieną žingsnį atskirai ir nustatant, kada jis pasuko neteisingai ir reikia pradėti iš naujo.
o1 „mąstymo laikas“ yra ilgesnis, nes modelis eina per kelias sprendimo kryptis ir gali savarankiškai atpažinti klaidas. Todėl gali atsitikti taip, kad o1 nutraukia skaičiavimą. Modelis nustato, kad ankstesnis rezultatas yra neteisingas, tačiau jam skirta maksimali skaičiavimo galia pasibaigė.
Kur vyksta atvirojo AI kelionė
Open AI turi dešimt milijonų prenumeratorių. Vos metus skaičiuojantis brangesnis „Enterprise“ pasiūlymas įmonėms jau turi milijoną prenumeratorių. o1 čia siūlo didžiulį potencialą. Daugiapakopių iššūkių sprendimas padidina misijų tipus. o1 greičiausiai, bus ypač naudojamas tyrimams. Tačiau programavimas su LLM čia taip pat pasiekia naują lygį. Pagalvokite apie mūsų tekstą apie AI palaikomą programavimą. Open AI taip pat gali susieti o1 su kitais modeliais. o1 sukuria maršrutą į darbą, o pigesni modeliai atlieka „kojų darbą“. Didžiausias iššūkis išlieka tikrojo modelio gaminio pusėje. OpenAI turi geriau informuoti, ką galima pasiekti, naudojant šį modelį ir ką - ne. LLM sunku suvokti, o o1, atrodo, sustiprina šį klasifikavimo sunkumą.
Tuo pačiu metu o1 rodo, kad autonominių ir pusiau autonominių agentų laikas yra arti. o1 gali būti pirmųjų, gerai dirbančių, agentų pagrindas.
Įdomu tai, kad „Open AI“ padarė papildomą skaičiavimo laiką nematomuose API naudotojams tokenuose. API naudojimas skaičiuojamas iš įvesties ir išvesties tokenų. Dabar yra nenuspėjamas kainos kintamasis. OpenAI nesako, kodėl jie tai daro. Tačiau manome, kad OpenAI nori neleisti, kad kiti modeliai būtų mokomi, remiantis o1. Nors pagal taisykles ir sąlygas toks naudojimas yra draudžiamas, jis vis tiek vyksta per API. o1 nerodo vartotojui veiksmų, kuriuos jis atliko prieš išvesdamas. Nematote, kokių krypčių sistema pasirinko ir kurias atmetė. Visi šie skaičiavimai kainuoja, tačiau Open AI nenori jų atskleisti.
Kur mus nuves LLM kelionė
Jei dabartiniai GPT-4 pagrįsti LLM ko nors moko, tai OpenAI paprastai yra pirmasis, bet ne vienintelis startuolis, padaręs LLM proveržį. Per ateinančius kelis mėnesius pamatysime daugiau modelių, veikiančių panašiai, kaip o1. Atvirojo kodo modeliai iš Meta arba Mistral galėtų atskleisti vidinius procesus, priešingai, nei o1, kas turėtų atverti tolesnius naudojimo būdus.
AI agentai dabar tampa tokie pat apčiuopiami, kaip sudėtingi modelių deriniai su darbo pasidalijimu tarp LLM, kaip aprašėme čia.
Išvada
o1 rodo, kad iki LLM plėtros linijos pabaigos dar toli.
Tačiau daugiau dėmesio skiriant išvadoms, šiame naujame, apgalvotame modelio tipe, mūsų turimi lustai ir skaičiavimo galia taps dar svarbesni.
Paskutinis, bet ne mažiau svarbus dalykas – o1 taip pat parodo, kaip reguliavimas atsilieka nuo spartaus technologijų vystymosi. ES AI įstatyme dėmesys sutelktas į skaičiavimo galią mokymo etape, kad būtų galima atskirti „pavojingą“ ir „saugų“ AI. Dirbtinio intelekto įstatymas nustato 1025 FLOP ribą skaičiavimo galiai, naudojamai dirbtinio intelekto modeliams mokyti. Šią vertę viršijantys, modeliai priskiriami sistemoms, turinčioms „didelę sisteminę riziką“.
Paprastu, nežymiu prioritetų pasikeitimu o1 šis ir taip abejotinas reguliavimo metodas tapo dar labiau abejotinas. Nes po o1 artimiausiu metu pamatysime ir modelius, kuriems reikia kur kas mažiau mokymo, daugiau skaičiavimo laiko, darant išvadas, o jų galimybės viršys viską, ką žinome šiandien. Taip pat atvirojo kodo. Taip pat vietoje.“ [1]
1. o1 ist der Anfang eines neuen Paradigmas. Frankfurter Allgemeine Zeitung (online) Frankfurter Allgemeine Zeitung GmbH. Sep 18, 2024. Von Marcel Weiß
Komentarų nėra:
Rašyti komentarą