"Naujasis "Open AI" o1 modelis reiškia ryškų lūžį didelių kalbos modelių (LLM) vystyme. Užuot padarius jį kuo greitesnį ir pigesnį, modelis yra
optimizuotas sudėtingoms užduotims spręsti. Tai reiškia, kad atsakymai lėtesni
ir brangesni.
Yra du laikotarpiai, per kuriuos dideli dirbtinio intelekto (AI) kalbų modeliai
atima skaičiavimo laiką. Šie LLM gyvavimo ciklo laikotarpiai negali būti labiau
skirtingi.
Pirmasis laikotarpis yra modelio kūrimas, paprastai
vadinamas mokymu. Per šį laiką apdorojant didelius duomenų kiekius, atsiranda
vidinės modelių žetonų struktūros. Tai yra pagrindas modeliams atpažinti kalbos
modelius ir ryšius bei kurti kalbą.
Antrasis laikotarpis yra vadinamas išvada. Iš esmės išvada yra momentas, kai LLM taiko vidines
mokymo metu sukurtas struktūras, kad apdorotų įvestį ir, tikimės, sukurtų
prasmingą rezultatą.
„Įprasti“ LLM: mokymas tampa brangesnis, išvados pigesnės
Palyginimas iš klasikinės pramonės: mokymo etapas yra tarsi
naujos gamyklos su naujomis gamybos patalpomis projektavimas ir statyba. Išvados
– tai gamyba, kuri vyksta šioje gamykloje po sėkmingos statybos, t.y. faktinis
gamybinių patalpų panaudojimas.
Iki šiol pramonė, tobulindama modelius, sutelkė dėmesį į
mokymo etapą. Bėgant metams, tai tapo ilgesnė ir brangesnė procedūra, nes modeliai tapo didesni.
Didesni modeliai, turintys daugiau parametrų, t. y. kintamųjų, kuriuos modeliai
išmoksta treniruočių metu, paprastai sukuria geresnius, labiau pajėgius
modelius.
Oficialių duomenų apie mokymo išlaidas nėra.
Tačiau ekspertai skaičiuoja, kad Claude 3.5 mokymas kainavo
nuo 100 iki 200 milijonų dolerių.
Remiantis 2024 m. Stanfordo AI indekso ataskaita, be kita
ko, GPT-4 kainavo apie 78 milijonus dolerių. Teigiama, kad „Google“ dabartinio
„Gemini 2“ pirmtako „Gemini Ultra“ treniruotė kainavo 191 mln. Dario Amodei,
Claude'o kompanijos Anthropic generalinis direktorius, netgi viešai prognozavo,
kad mokymo išlaidos vienam modeliui iki 2025 ar 2026 m. gali padidėti iki
dešimties milijardų dolerių. Ar šis teiginys bus teisingas, ar tik skirtas
atgrasyti potencialius naujus užpuolikus, belieka pamatyti.
Tačiau treniruočių tendencija yra aiški: didžiausi ir todėl,
dažniausiai, geriausi modeliai tampa didesni, todėl treniruojami brangiau.
Didėjančias investicines išlaidas padengia modelių tiekėjai,
tačiau jos yra unikalios kiekvienam modeliui ir dėl augančio dydžio vis dažniau
sudaro kliūtis patekti į rinką. Tik kelios įmonės gali sau leisti investuoti
100 milijonų dolerių ar daugiau į mokymo modelius. Be kapitalo, jums taip pat
reikia prieigos prie retos skaičiavimo galios ir ne mažiau retų specialistų.
Šiuo metu Vokietijoje tai darančios įmonės nėra. Europoje
vienintelė įmonė, galinti įsitraukti į šį žaidimą, yra Paryžiaus „Mistral“.
Brangesnis mokymas automatiškai nereiškia brangesnio
naudojimo, t. y. brangesnės išvados. Didesni modeliai iš tiesų reikalauja daug
daugiau skaičiavimų tiek treniruojantis, tiek naudojant. Tačiau jau beveik
metus pastebime tendenciją tarp pagrindinių modelių tiekėjų, siekiančių, kad jų modeliai
būtų pigesni, taigi ir patrauklesni. Ši tendencija prasidėjo nuo 2023 m.
lapkričio mėn. GPT-4 Turbo, kuris buvo pirmasis geriausias modelis su
mažesnėmis naudojimo sąnaudomis. Nuo tada geriausių modelių naudojimo išlaidos
nuolat mažėjo.
Tai irgi akivaizdu. Didelės mokymo išlaidos yra našta
balansui, tačiau, kaip minėta, jos taip pat suteikia konkurencinių pranašumų.
Kita vertus, didelės arba bent jau suvokiamos, kaip didelės išvadų išlaidos
neleidžia LLM plisti, kaip produktams.
o1: Atidžiau pažvelkite į išvadas
o1 daugeliu atžvilgių yra reikšmingas pirmiau aprašytos LLM
tendencijos lūžis. Išvados su o1 užtrunka ilgiau. Taigi modelis jaučiasi
lėtesnis. Daug lėtesnis. Open AI sužmogina ilgesnį skaičiavimo laiką, vadindamas jį
„mąstymu“.
Bet kodėl o1 yra lūžis? Pirma, modelis nėra optimizuotas
įprastoms, paprastoms, užklausoms, pvz., „perrašykite šį el. laišką
profesionalesniu tonu“. „Mąstymo laikas“, kuris dabar yra ilgesnis ir
brangesnis, nei kitų modelių, suteikia o1 naujų galimybių. Jis geriau, nei bet
kuris kitas modelis, atlieka logines užduotis, tokias, kaip matematika ar
programavimas. Tuo pačiu metu jis nėra geresnis ir dažnai netgi blogesnis
teksto formulavimo srityje, nei klasikiniai AI LLM, tokie kaip Claude arba
GPT-4o.
o1 yra pirmasis LLM, kuris gali atlikti sudėtingas užduotis
geriau, nei paprastas, net jei vartotojas netyčia įdeda abi užduotis į tą pačią
sritį. Jei duosite o1 paprastą užduotį, Open AI įspėja, modelis gali per daug
„galvoti“ apie sprendimą ir apsunkinti rezultatą. Visas LLM kraštovaizdis nėra
intuityvus, o naudojant o1 ši situacija pablogėja.
Antra, o1 reiškia lūžį, nes modelis labai aiškiai
parodo, kad priimant ilgesnį išvados laiką, atsiranda naujų galimybių. Iki šiol
vienintelė LLM proveržių ašis buvo treniravimo lygis. Ar tai būtų didesnė
skaičiavimo galia, daugiau ar geresnių duomenų ar kiti architektūriniai metodai,
viskas buvo sutelkta į modelių mokymo ar kūrimo etapą. Naudojant o1, išvados
laikas paverčiamas iš erzinančio sąnaudų faktoriaus į galimą naujų požiūrių į kalbos
modelius pradininką.
Jei vartotojai turės šiek tiek kantrybės. Atrodo, kad
maksimalus skaičiavimo laikas tarp įvesties ir sugeneruotos išvesties prieš
modelio darbo nutraukimą yra šiek tiek daugiau, nei 3 minutės o1 atveju.
„Galvok žingsnis po žingsnio“ kaip pavyzdinė architektūra
Bet kodėl o1 turėtų nutraukti veiklą? Kas tiksliai čia vyksta?
Tai atveda mus prie trečiojo aspekto, kodėl o1 reiškia lūžį LLM. LLM iki šiol dirbo griežtai priklausomai nuo kelio. Tai yra, jie
analizuoja įvestį ir tada pradeda „nuspėti“, kurie žodžiai, greičiausiai, bus
atsakas į įvestį. Dėl šio požiūrio praėjusiais metais atsirado klaidinantis
terminas „stochastinė papūga“, kuris ignoravo LLM sudėtingumo lygį ir iš to
kylančią produkcijos kokybę. LLM išvesties klaidos kyla dėl
nuoseklaus kalbos išvesties kūrimo. Sukūrus žetoną (žodžius ar žodžių dalis),
jis nustato, iš kurios pusės gali atsirasti tolesni žetonai.
Paprastais žodžiais tariant, tai reiškia, kad jei pasuksite
neteisingą posūkį, likusioje išvesties dalyje LLM veiks neteisinga kryptimi.
Vartotojai galėjo šiek tiek sušvelninti šią priklausomybę nuo kelių, naudodami
keletą raginančių gudrybių. „Apgalvokite savo atsakymą žingsnis po žingsnio“ ir
panašus požiūris į minčių grandines stumia LLM linkme, kuri, atrodo,
skatina sistemingesnį rezultatą. Tai gali duoti pastebimai geresnių rezultatų.
Tačiau, kaip ir modelio dydis, tai tik sumažina problemą, o ne ją pašalina.
Dideli modeliai sumažina netikro žetono tikimybę, tačiau ir čia ji neišnyksta.
Stochastinės papūgos terminas dar mažiau taikomas o1. Tai
pirmas kartas, kai OpenAI peržengė šios nuoseklios kartos išvadą. Open AI
nenurodo, kaip tiksliai jie sukūrė o1. Tačiau mes žinome tiek daug: „Semafor“
2023 m. sausio mėn. pranešė, kad „Open AI“ pasamdė daugiau, nei 1000 programinės
įrangos kūrėjų visame pasaulyje, kaip subrangovus, kad suskirstytų kelių etapų
programavimo projektus į atskirus etapus. Tikėtina, kad šių pastangų rezultatas
bus duomenų rinkiniai, padedantys besimokantiems LLM sukurti modelius, kad būtų
galima atlikti kelių etapų užduotis.
2023 m. gegužę „Open AI“ paskelbė dokumentą „Patikriname
žingsnis po žingsnio“. Jame, be kita ko, aprašoma, kaip pateikia duomenų
žymeklius su nuosekliais matematikos problemų sprendimais, kaip siūloma Semafor
straipsnyje, ir kaip vertina atskirus veiksmus. Straipsnio tikslas: sukurti „procesų
prižiūrimą atlygio modelį“ (PRM). PRM turėtų patikrinti atskiro žingsnio
teisingumo tikimybę po to, kai buvo sukurtas paskutinis prieigos raktas.
Apibendrinant galima teigti: o1 buvo mokomas spręsti
daugiapakopes logikos uždavinius. Atsižvelgiant į tai, o1 buvo sukurtas
siekiant sukurti kelis problemų sprendimo procesus per išvados laiką,
įvertinant kiekvieną žingsnį atskirai ir taip nustatant, kada jis „pasuko
klaidingu posūkiu“ ir turi pradėti iš naujo.
o1 „mąstymo laikas“ yra ilgesnis, nes modelis veikia
keliomis sprendimo kryptimis ir gali savarankiškai nustatyti klaidas. Štai
kodėl o1 gali nutraukti skaičiavimą. Modelis nustato, kad ankstesnis rezultatas
yra neteisingas, tačiau jam skirta maksimalus skaičiavimo laikas pasibaigė.
Kur krypsta Open AI
Open AI turi dešimt milijonų prenumeratorių. Vos metus
skaičiuojantis, brangesnis įmonių pasiūlymas jau turi milijoną abonentų. o1 čia
siūlo didžiulį potencialą. Daugiapakopių iššūkių sprendimas padidina naudojimo
tipus. o1, greičiausiai, bus naudojamas ypač dažnai moksliniams tyrimams. Tačiau
programavimas su LLM čia taip pat pasiekia naują lygį. Pagalvokite apie mūsų
tekstą apie AI palaikomą programavimą. Open AI taip pat gali susieti o1 su
kitais modeliais. o1 ers apskaičiuoja maršrutą į darbą, o pigesni modeliai
atlieka „kojų darbą“. Didžiausias iššūkis išlieka tikrojo modelio gaminio
pusėje. Open AI turi geriau perteikti, ką galima ir ko negalima pasiekti,
naudojant šį modelį. LLM sunku suvokti intuityviai, ir, atrodo, kad o1 sustiprina šį
sunkumą.
Tačiau tuo pačiu metu o1 rodo, kad autonominių ir pusiau
autonominių agentų laikas yra arti. o1 gali būti pirmųjų gerai veikiančių
agentų pagrindas.
Įdomu tai, kad „Open AI“ pridėjo papildomą skaičiavimo laiką
API naudotojams į nematomus prieigos raktus. API naudojimas skaičiuojamas iš
įvesties ir išvesties prieigos raktų. Dabar prie išlaidų pridedamas
nenuspėjamas kintamasis. Open AI nesako, kodėl jie tai daro. Tačiau manome, kad Open AI nori neleisti, kad kiti modeliai būtų mokomi, remiantis o1. Šis
naudojimas yra draudžiamas pagal taisykles ir nuostatas, bet vis tiek vyksta
per API. o1 nerodo vartotojui veiksmų, kuriuos jis atliko prieš išvesdamas.
Negalite matyti, kokių krypčių sistema pasirinko ir kurias atmetė. Visi šie
skaičiavimai kainuoja, tačiau Open AI nenori jų atskleisti.
Kur eina LLM
Jei dabartiniai GPT-4 pagrįsti LLM ko nors moko, tai Open AI paprastai yra tik pirmasis, bet ne vienintelis, padaręs LLM
proveržį. Per ateinančius mėnesius pamatysime daugiau modelių, veikiančių
panašiai, kaip o1.
Atvirojo kodo modeliai iš Meta arba Mistral gali atskleisti
vidinius procesus, priešingai, nei o1, kas turėtų atverti tolesnes programas.
AI agentai dabar tampa tokie pat apčiuopiami, kaip sudėtingi
modelių deriniai su darbo pasidalijimu tarp LLM, kaip čia aprašėme.
Išvada
o1 rodo, kad LLM plėtros linijos pabaiga dar toli.
Tačiau daugiau dėmesio skiriant išvadoms šiame naujame,
apgalvotame, modelio tipe, mums prieinami lustai ir skaičiavimo galia tampa dar
svarbesni.
Galiausiai, o1 taip pat parodo, kaip reguliavimas atsilieka
nuo spartaus technologijų vystymosi. ES AI įstatyme dėmesys sutelktas į
skaičiavimo galią mokymo etape, kad būtų galima atskirti „pavojingą“ nuo
„saugaus“ AI. AI įstatymas nustato 1025 FLOP ribą skaičiavimo galiai,
naudojamai dirbtinio intelekto modeliams mokyti. Šią vertę viršijantys modeliai
priskiriami sistemoms, turinčioms „didelę sisteminę riziką“.
Dėl paprasto, nežymaus prioritetų pasikeitimo o1 šis, ir taip
abejotinas, reguliavimo metodas tapo dar labiau abejotinas. Kadangi, anot o1,
netolimoje ateityje taip pat pamatysime modelius, kuriems reikės kur kas mažiau
mokymo, daugiau skaičiavimo laiko, darant išvadas ir kurių galimybės viršys
viską, ką žinome šiandien. Taip pat atvirojo kodo. Ir taip pat vietiniuose įrenginiuose.
Marcelis Weißas
Marcelis Weißas yra nepriklausomas analitikas ir strategijos
konsultantas Berlyne. Nuo pat naujojo tūkstantmečio pradžios jis dirba su
platformomis ir kitomis strategijai svarbiomis skaitmeninės ekonomikos
dinamikomis. Jis konsultuoja įmones ir skaito pagrindinius pranešimus šiomis
temomis."
Komentarų nėra:
Rašyti komentarą