"OpenAI žada
puikių dalykų, susijusių su planuojamu GPT-5 kalbos modeliu. Tačiau kaip įmonė
planuoja pasiekti šiuos tikslus? Žvilgsnis į dirbtinio intelekto (AI) pažangos komponentus.
2022 m. lapkritį
išleistas GPT-3 labai pasikeitė. Generatyvusis AI iš akademinės srities
išsivystė į savo pramonę ir padarė OpenAI rinkos lydere. Taigi nenuostabu,
kad kai buvo paskelbtas GPT-4 įpėdinis, reklamos kalba pirmiausia buvo
superlatyvai.
OpenAI dabar mini dar didesnius GPT-5 pažadus – bendrovė
jau paskelbė, kad kalbos modelis gali geriau mąstyti logiškai, sąveikauti su
vaizdo įrašais ir turėti „doktoranto intelektą“.
Tačiau kaip šią pažangą būtų
galima išmatuoti, jau nekalbant apie jos pasiekimą, lieka atviras klausimas.
Pažangių AI modelių
kūrimas iš esmės susideda iš trijų komponentų – duomenų, algoritmų ir
skaičiavimo laiko. Duomenys yra žinių bazė, kuria remdamasis modelis mokomas,
taikant algoritmus. Algoritmai yra neuroninio tinklo architektūra ir
jie optimizuoja modelį treniruočių metu. Skaičiavimo laikas lemia, kiek kompiuterio
galios sunaudojama treniruotėms, taigi, kiek niuansiškas yra baigtas modelis. Todėl
trys komponentai – duomenys, algoritmai ir skaičiavimo laikas – gali būti
naudojami kartu, nustatant AI modelio našumą.
OpenAI gali
potencialiai pasukti visus tris AI kūrimo svertus. Tačiau realiai, norint
įgyvendinti trijų komponentų pakeitimus, reikia skirtingų pastangų. Dabartiniai
tyrimai rodo, kad atskirų komponentų tobulinimas turi reikšmingą teigiamą
poveikį AI modelių veikimui. Jei, remiantis tais pačiais duomenimis ir
algoritmais, investuojama daugiau skaičiavimo laiko, našumas pastebimai
pagerėja.
Vien tik padidinti
skaičiavimo laiką neužtenka
Atrodo, kad
skaičiavimo laiko pailgėjimas yra numatomas. OpenAI jau nuosekliai
padidino tai, palyginti su ankstesniais modeliais. Tačiau vien skaičiavimo
laiko, tikriausiai, nepakaks novatoriškam vystymuisi. Daugelis ekspertų mano, kad
dabartiniai modeliai yra prisotinimo taške, kai reikia tobulinti skaičiavimo
galią, kadangi algoritmų efektyvumas ir duomenų tipas lemia daugiau skaičiavimo
laiko. Idealiu atveju OpenAI sprendžia visus tris komponentus.
Didžiausi OpenAI
pakeitimai, kuriuos, greičiausiai, padarys, yra GPT-5 algoritmai ir architektūra.
Dažnai minimas metodas yra naudoti ekspertų tinklus, kurie specializuojasi
konkrečiose modelio užduotyse ar temose. GPT-4 jau numatyta naudoti tokius
tinklus, tačiau tolesnis plėtimas galėtų dar labiau padidinti patikimumą ir
tikslumą. Konkurentas Google neseniai parodė, kokia efektyvi yra ši didėjanti
specializacija. Du jo ekspertų modeliai dalyvavo tarptautinėje matematikos
olimpiadoje, kurioje matematikos egzaminus rašo geriausi įvairių tautų
mokiniai.
Naujovė: Google
modeliai gali patikrinti tarpinius žingsnius. Modeliai prasideda nuo egzamino
užduoties supratimo, naudojant Gemini kalbos modelį ir pritaikant jį siūlomiems
sprendimams kurti. Generatyvinės kalbos modeliai yra geri, tačiau jie taip pat
linkę į vadinamąsias haliucinacijas – atsakymus, kurie suformuluoti logiškai ir
įtikinamai, tačiau iš tikrųjų yra neteisingi. Norint juos nustatyti ir
išspręsti, vienas iš modelių siūlomus sprendimus verčia į programavimo kalbą,
kuri specializuojasi matematiniuose įrodymuose. Dabar pasiūlymą galima
apskaičiuoti žingsnis po žingsnio ir taip patikimai parodyti, ar siūloma
įrodymų grandinė yra logiškai nuosekli, ar joje yra klaidų. Jei veiksme randama
klaida, kalbos modelio automatiškai prašoma pateikti naują pasiūlymą tam
įrodymo veiksmui, kol visa grandinė bus patikrinta.
Ekspertų tinklai gali
neatsilikti nuo mokinių
Toks užduoties
suskirstymas į loginius komponentus ir automatizuotas atskirų žingsnių
tikrinimas yra perspektyvus darbo būdas. Modeliai pasirodė tarp 30 procentų
geriausių mokinių pagal sprendimų kokybę. Tačiau atsakymo laikas kartais
viršydavo 90 minučių ribą ir AI būtų atsidūręs sąrašo apačioje. Rezultatai vistik yra įdomūs, nes jie rodo, kad dirbtinio intelekto modeliai taip pat gerėja
matematikos srityje. Jie anksčiau turėjo sunkumų šioje srityje dėl didelių
loginio nuoseklumo ir skaitmeninio supratimo reikalavimų. Jei OpenAI taip
pat elgsis kaip konkurentas Google, jis galėtų naudoti ekspertų modelių ir
oficialių tikrinimo procedūrų derinį nustatyti naują standartą. Turėdamas
tinkamą mokymą ir darbo kelių taisykles, GPT-5 taip pat galėtų
pasiekti anksčiau uždarytas sritis, tokias, kaip buhalterinė apskaita ar
mokesčių deklaracijos.
Altmanas nori
integruoti vaizdo įrašus į „ChatGPT“.
Taip pat yra daug
galimybių tobulinti GPT-5 duomenų atžvilgiu. Generalinis direktorius Samas
Altmanas paskelbė apie ypač ambicingą planą šiuo atžvilgiu: jis nori integruoti
vaizdo įrašų analizę ir kūrimą tiesiai į pagrindinį modelį. Kiekvienas, kuris
mano, kad tai tik dar vienas įrankis vartotojams, praleidžia esminius būtinus
pakeitimus. Kad tokia sistema veiktų sėkmingai, modelis turi suprasti ir
sujungti įvairių tipų duomenis. Jis turi sugebėti valdyti ir vaizdo, ir teksto,
garso ar vaizdo duomenų tipų koncepciją. Tiksliau, jis turėtų susieti žodį
„kėdė“ tiek su konkrečiu pavyzdžiu, tiek su bendra visų kėdžių forma ir
funkcija.
Tai, kas žmonėms yra
savaime aišku, mašinoms yra sudėtingas iššūkis. Tai, kad dabartinė GPT versija
jau gali sukurti (statinius) vaizdus, yra įspūdinga, tačiau kiekviena
papildoma įvesties ir išvesties laikmenų forma yra visiškai naujas iššūkis.
Dirbtinio intelekto modeliuose yra skirtumų tarp kėdės nuotraukos ir vaizdo įrašo,
kuriame kėdė apvirsta, kadangi vaizdo įrašai yra naujo tipo duomenų sistemos.
Jei modeliams būtų galima suteikti tokį supratimą apie objektus erdvėje, jie
taip pat galėtų įgyti loginį supratimą, siūlo Geoffrey Hintonas, vienas
žinomiausių pasaulyje dirbtinio intelekto tyrinėtojų. Tai iš tikrųjų reikštų
evoliucinį šuolį AI modeliuose.
Tokie tyrinėtojai,
kaip Hintonas, tikisi, kad loginis supratimas duos mažiau haliucinacijų ir
patikimą požiūrį į naujas koncepcijas. Galima būtų įsivaizduoti, kad GPT-5
čia daro bent tam tikrą pažangą. Kūrybingiems žmonėms būtų įdomu kurti vaizdo
įrašus ir geresnius vaizdus. Kita vertus, patikimas naujų koncepcijų valdymas
galėtų padaryti GPT-5 naudingesnį, sparčiai besivystančiose, srityse, tokiose,
kaip tyrimai ar programavimas.
Atrodo, kad
generatyvaus AI plėtros galimybės toli gražu nėra išnaudotos. Ir nors OpenAI, tikriausiai, išleis tik negausią informaciją apie GPT-5 duomenis, algoritmus
ir skaičiavimo laiką, tai iš karto atsispindės modelio kokybėje.“ [1]