Sekėjai

Ieškoti šiame dienoraštyje

2024 m. rugsėjo 18 d., trečiadienis

Open AI: o1 yra naujos paradigmos pradžia

 

 

"Naujasis "Open AI" o1 modelis reiškia ryškų lūžį didelių kalbos modelių (LLM) vystyme. Užuot padarius jį kuo greitesnį ir pigesnį, modelis yra optimizuotas sudėtingoms užduotims spręsti. Tai reiškia, kad atsakymai lėtesni ir brangesni.

 

Yra du laikotarpiai, per kuriuos dideli dirbtinio intelekto (AI) kalbų modeliai atima skaičiavimo laiką. Šie LLM gyvavimo ciklo laikotarpiai negali būti labiau skirtingi.

 

Pirmasis laikotarpis yra modelio kūrimas, paprastai vadinamas mokymu. Per šį laiką apdorojant didelius duomenų kiekius, atsiranda vidinės modelių žetonų struktūros. Tai yra pagrindas modeliams atpažinti kalbos modelius ir ryšius bei kurti kalbą.

 

Antrasis laikotarpis yra vadinamas išvada. Iš esmės išvada yra momentas, kai LLM taiko vidines mokymo metu sukurtas struktūras, kad apdorotų įvestį ir, tikimės, sukurtų prasmingą rezultatą.

 

„Įprasti“ LLM: mokymas tampa brangesnis, išvados pigesnės

 

Palyginimas iš klasikinės pramonės: mokymo etapas yra tarsi naujos gamyklos su naujomis gamybos patalpomis projektavimas ir statyba. Išvados – tai gamyba, kuri vyksta šioje gamykloje po sėkmingos statybos, t.y. faktinis gamybinių patalpų panaudojimas.

 

Iki šiol pramonė, tobulindama modelius, sutelkė dėmesį į mokymo etapą. Bėgant metams, tai tapo ilgesnė ir brangesnė procedūra, nes modeliai tapo didesni. Didesni modeliai, turintys daugiau parametrų, t. y. kintamųjų, kuriuos modeliai išmoksta treniruočių metu, paprastai sukuria geresnius, labiau pajėgius modelius.

 

Oficialių duomenų apie mokymo išlaidas nėra.

 

Tačiau ekspertai skaičiuoja, kad Claude 3.5 mokymas kainavo nuo 100 iki 200 milijonų dolerių.

 

Remiantis 2024 m. Stanfordo AI indekso ataskaita, be kita ko, GPT-4 kainavo apie 78 milijonus dolerių. Teigiama, kad „Google“ dabartinio „Gemini 2“ pirmtako „Gemini Ultra“ treniruotė kainavo 191 mln. Dario Amodei, Claude'o kompanijos Anthropic generalinis direktorius, netgi viešai prognozavo, kad mokymo išlaidos vienam modeliui iki 2025 ar 2026 m. gali padidėti iki dešimties milijardų dolerių. Ar šis teiginys bus teisingas, ar tik skirtas atgrasyti potencialius naujus užpuolikus, belieka pamatyti.

 

Tačiau treniruočių tendencija yra aiški: didžiausi ir todėl, dažniausiai, geriausi modeliai tampa didesni, todėl treniruojami brangiau.

 

Didėjančias investicines išlaidas padengia modelių tiekėjai, tačiau jos yra unikalios kiekvienam modeliui ir dėl augančio dydžio vis dažniau sudaro kliūtis patekti į rinką. Tik kelios įmonės gali sau leisti investuoti 100 milijonų dolerių ar daugiau į mokymo modelius. Be kapitalo, jums taip pat reikia prieigos prie retos skaičiavimo galios ir ne mažiau retų specialistų.

 

Šiuo metu Vokietijoje tai darančios įmonės nėra. Europoje vienintelė įmonė, galinti įsitraukti į šį žaidimą, yra Paryžiaus „Mistral“.

 

Brangesnis mokymas automatiškai nereiškia brangesnio naudojimo, t. y. brangesnės išvados. Didesni modeliai iš tiesų reikalauja daug daugiau skaičiavimų tiek treniruojantis, tiek naudojant. Tačiau jau beveik metus pastebime tendenciją tarp pagrindinių modelių tiekėjų, siekiančių, kad jų modeliai būtų pigesni, taigi ir patrauklesni. Ši tendencija prasidėjo nuo 2023 m. lapkričio mėn. GPT-4 Turbo, kuris buvo pirmasis geriausias modelis su mažesnėmis naudojimo sąnaudomis. Nuo tada geriausių modelių naudojimo išlaidos nuolat mažėjo.

 

Tai irgi akivaizdu. Didelės mokymo išlaidos yra našta balansui, tačiau, kaip minėta, jos taip pat suteikia konkurencinių pranašumų. Kita vertus, didelės arba bent jau suvokiamos, kaip didelės išvadų išlaidos neleidžia LLM plisti, kaip produktams.

 

o1: Atidžiau pažvelkite į išvadas

 

o1 daugeliu atžvilgių yra reikšmingas pirmiau aprašytos LLM tendencijos lūžis. Išvados su o1 užtrunka ilgiau. Taigi modelis jaučiasi lėtesnis. Daug lėtesnis. Open AI sužmogina ilgesnį skaičiavimo laiką, vadindamas jį „mąstymu“.

 

Bet kodėl o1 yra lūžis? Pirma, modelis nėra optimizuotas įprastoms, paprastoms, užklausoms, pvz., „perrašykite šį el. laišką profesionalesniu tonu“. „Mąstymo laikas“, kuris dabar yra ilgesnis ir brangesnis, nei kitų modelių, suteikia o1 naujų galimybių. Jis geriau, nei bet kuris kitas modelis, atlieka logines užduotis, tokias, kaip matematika ar programavimas. Tuo pačiu metu jis nėra geresnis ir dažnai netgi blogesnis teksto formulavimo srityje, nei klasikiniai AI LLM, tokie kaip Claude arba GPT-4o.

 

o1 yra pirmasis LLM, kuris gali atlikti sudėtingas užduotis geriau, nei paprastas, net jei vartotojas netyčia įdeda abi užduotis į tą pačią sritį. Jei duosite o1 paprastą užduotį, Open AI įspėja, modelis gali per daug „galvoti“ apie sprendimą ir apsunkinti rezultatą. Visas LLM kraštovaizdis nėra intuityvus, o naudojant o1 ši situacija pablogėja.

 

Antra, o1 reiškia lūžį, nes modelis labai aiškiai parodo, kad priimant ilgesnį išvados laiką, atsiranda naujų galimybių. Iki šiol vienintelė LLM proveržių ašis buvo treniravimo lygis. Ar tai būtų didesnė skaičiavimo galia, daugiau ar geresnių duomenų ar kiti architektūriniai metodai, viskas buvo sutelkta į modelių mokymo ar kūrimo etapą. Naudojant o1, išvados laikas paverčiamas iš erzinančio sąnaudų faktoriaus į galimą naujų požiūrių į kalbos modelius pradininką.

 

Jei vartotojai turės šiek tiek kantrybės. Atrodo, kad maksimalus skaičiavimo laikas tarp įvesties ir sugeneruotos išvesties prieš modelio darbo nutraukimą yra šiek tiek daugiau, nei 3 minutės o1 atveju.

 

„Galvok žingsnis po žingsnio“ kaip pavyzdinė architektūra

 

Bet kodėl o1 turėtų nutraukti veiklą? Kas tiksliai čia vyksta?


Tai atveda mus prie trečiojo aspekto, kodėl o1 reiškia lūžį LLM. LLM iki šiol dirbo griežtai priklausomai nuo kelio. Tai yra, jie analizuoja įvestį ir tada pradeda „nuspėti“, kurie žodžiai, greičiausiai, bus atsakas į įvestį. Dėl šio požiūrio praėjusiais metais atsirado klaidinantis terminas „stochastinė papūga“, kuris ignoravo LLM sudėtingumo lygį ir iš to kylančią produkcijos kokybę. LLM išvesties klaidos kyla dėl nuoseklaus kalbos išvesties kūrimo. Sukūrus žetoną (žodžius ar žodžių dalis), jis nustato, iš kurios pusės gali atsirasti tolesni žetonai.

 

Paprastais žodžiais tariant, tai reiškia, kad jei pasuksite neteisingą posūkį, likusioje išvesties dalyje LLM veiks neteisinga kryptimi. Vartotojai galėjo šiek tiek sušvelninti šią priklausomybę nuo kelių, naudodami keletą raginančių gudrybių. „Apgalvokite savo atsakymą žingsnis po žingsnio“ ir panašus požiūris į minčių grandines stumia LLM linkme, kuri, atrodo, skatina sistemingesnį rezultatą. Tai gali duoti pastebimai geresnių rezultatų. Tačiau, kaip ir modelio dydis, tai tik sumažina problemą, o ne ją pašalina. Dideli modeliai sumažina netikro žetono tikimybę, tačiau ir čia ji neišnyksta.

 

Stochastinės papūgos terminas dar mažiau taikomas o1. Tai pirmas kartas, kai OpenAI peržengė šios nuoseklios kartos išvadą. Open AI nenurodo, kaip tiksliai jie sukūrė o1. Tačiau mes žinome tiek daug: „Semafor“ 2023 m. sausio mėn. pranešė, kad „Open AI“ pasamdė daugiau, nei 1000 programinės įrangos kūrėjų visame pasaulyje, kaip subrangovus, kad suskirstytų kelių etapų programavimo projektus į atskirus etapus. Tikėtina, kad šių pastangų rezultatas bus duomenų rinkiniai, padedantys besimokantiems LLM sukurti modelius, kad būtų galima atlikti kelių etapų užduotis.

 

2023 m. gegužę „Open AI“ paskelbė dokumentą „Patikriname žingsnis po žingsnio“. Jame, be kita ko, aprašoma, kaip pateikia duomenų žymeklius su nuosekliais matematikos problemų sprendimais, kaip siūloma Semafor straipsnyje, ir kaip vertina atskirus veiksmus. Straipsnio tikslas: sukurti „procesų prižiūrimą atlygio modelį“ (PRM). PRM turėtų patikrinti atskiro žingsnio teisingumo tikimybę po to, kai buvo sukurtas paskutinis prieigos raktas.

 

Apibendrinant galima teigti: o1 buvo mokomas spręsti daugiapakopes logikos uždavinius. Atsižvelgiant į tai, o1 buvo sukurtas siekiant sukurti kelis problemų sprendimo procesus per išvados laiką, įvertinant kiekvieną žingsnį atskirai ir taip nustatant, kada jis „pasuko klaidingu posūkiu“ ir turi pradėti iš naujo.

 

o1 „mąstymo laikas“ yra ilgesnis, nes modelis veikia keliomis sprendimo kryptimis ir gali savarankiškai nustatyti klaidas. Štai kodėl o1 gali nutraukti skaičiavimą. Modelis nustato, kad ankstesnis rezultatas yra neteisingas, tačiau jam skirta maksimalus skaičiavimo laikas pasibaigė.

 

Kur krypsta Open AI

 

Open AI turi dešimt milijonų prenumeratorių. Vos metus skaičiuojantis, brangesnis įmonių pasiūlymas jau turi milijoną abonentų. o1 čia siūlo didžiulį potencialą. Daugiapakopių iššūkių sprendimas padidina naudojimo tipus. o1, greičiausiai, bus naudojamas ypač dažnai moksliniams tyrimams. Tačiau programavimas su LLM čia taip pat pasiekia naują lygį. Pagalvokite apie mūsų tekstą apie AI palaikomą programavimą. Open AI taip pat gali susieti o1 su kitais modeliais. o1 ers apskaičiuoja maršrutą į darbą, o pigesni modeliai atlieka „kojų darbą“. Didžiausias iššūkis išlieka tikrojo modelio gaminio pusėje. Open AI turi geriau perteikti, ką galima ir ko negalima pasiekti, naudojant šį modelį. LLM sunku suvokti intuityviai, ir, atrodo, kad o1 sustiprina šį sunkumą.


Tačiau tuo pačiu metu o1 rodo, kad autonominių ir pusiau autonominių agentų laikas yra arti. o1 gali būti pirmųjų gerai veikiančių agentų pagrindas.


Įdomu tai, kad „Open AI“ pridėjo papildomą skaičiavimo laiką API naudotojams į nematomus prieigos raktus. API naudojimas skaičiuojamas iš įvesties ir išvesties prieigos raktų. Dabar prie išlaidų pridedamas nenuspėjamas kintamasis. Open AI nesako, kodėl jie tai daro. Tačiau manome, kad Open AI nori neleisti, kad kiti modeliai būtų mokomi, remiantis o1. Šis naudojimas yra draudžiamas pagal taisykles ir nuostatas, bet vis tiek vyksta per API. o1 nerodo vartotojui veiksmų, kuriuos jis atliko prieš išvesdamas. Negalite matyti, kokių krypčių sistema pasirinko ir kurias atmetė. Visi šie skaičiavimai kainuoja, tačiau Open AI nenori jų atskleisti.

 

Kur eina LLM

 

Jei dabartiniai GPT-4 pagrįsti LLM ko nors moko, tai Open AI paprastai yra tik pirmasis, bet ne vienintelis, padaręs LLM proveržį. Per ateinančius mėnesius pamatysime daugiau modelių, veikiančių panašiai, kaip o1.

 

Atvirojo kodo modeliai iš Meta arba Mistral gali atskleisti vidinius procesus, priešingai, nei o1, kas turėtų atverti tolesnes programas.

 

AI agentai dabar tampa tokie pat apčiuopiami, kaip sudėtingi modelių deriniai su darbo pasidalijimu tarp LLM, kaip čia aprašėme.

 

Išvada

 

o1 rodo, kad LLM plėtros linijos pabaiga dar toli.

 

Tačiau daugiau dėmesio skiriant išvadoms šiame naujame, apgalvotame, modelio tipe, mums prieinami lustai ir skaičiavimo galia tampa dar svarbesni.


Galiausiai, o1 taip pat parodo, kaip reguliavimas atsilieka nuo spartaus technologijų vystymosi. ES AI įstatyme dėmesys sutelktas į skaičiavimo galią mokymo etape, kad būtų galima atskirti „pavojingą“ nuo „saugaus“ AI. AI įstatymas nustato 1025 FLOP ribą skaičiavimo galiai, naudojamai dirbtinio intelekto modeliams mokyti. Šią vertę viršijantys modeliai priskiriami sistemoms, turinčioms „didelę sisteminę riziką“.


Dėl paprasto, nežymaus prioritetų pasikeitimo o1 šis, ir taip abejotinas, reguliavimo metodas tapo dar labiau abejotinas. Kadangi, anot o1, netolimoje ateityje taip pat pamatysime modelius, kuriems reikės kur kas mažiau mokymo, daugiau skaičiavimo laiko, darant išvadas ir kurių galimybės viršys viską, ką žinome šiandien. Taip pat atvirojo kodo. Ir taip pat vietiniuose įrenginiuose.


Marcelis Weißas

 

Marcelis Weißas yra nepriklausomas analitikas ir strategijos konsultantas Berlyne. Nuo pat naujojo tūkstantmečio pradžios jis dirba su platformomis ir kitomis strategijai svarbiomis skaitmeninės ekonomikos dinamikomis. Jis konsultuoja įmones ir skaito pagrindinius pranešimus šiomis temomis."

 

 

 

 


Komentarų nėra: