Sekėjai

Ieškoti šiame dienoraštyje

2024 m. balandžio 29 d., pirmadienis

Kitas geriausias dirbtinio intelekto modelis

  „Dirbtinio intelekto (AI) žemėje technologijos šviesos greičiu pereina nuo nuostabios prie senos skrybėlės. Tik prieš 18 mėnesių išleidus „ChatGPT“, OpenAI pokalbių robotą, prasidėjo AI siautulys. Šiandien jo galios tapo įprastos. Keletas firmų (pvz., Anthropic, „Google“ ir „Meta“) nuo tada pristatė savo modelių („Claude“, „Gemini“ ir „Llama“) versijas, įvairiais būdais patobulindamos „ChatGPT“.

 

     Tas naujo alkis tik paspartėjo. Kovo mėnesį Anthropic pristatė Claude 3, kuris įvairiose pirmaujančiųjų sąrašuose aplenkė ankstesnius geriausius OpenAI ir Google modelius. Balandžio 9 d. OpenAI susigrąžino karūną (tam tikromis priemonėmis), patobulindama savo modelį.

 

Balandžio 18 d. „Meta“ išleido „Llama 3“, o pirmieji rezultatai rodo, kad tai yra iki šiol pajėgiausias atviras modelis.

 

Tikėtina, kad „OpenAI“ kažkada šiais metais išleis GPT-5, kuris gali turėti daugiau galimybių, nei bet kuris dabartinis didelis kalbos modelis (LLM). Jei tikėti gandais, naujos kartos modeliai bus dar nuostabesni – galės atlikti, pavyzdžiui, kelių etapų užduotis, o ne tik reaguoti į raginimus arba atidžiai analizuoti sudėtingus klausimus, užuot išaiškinę pirmuosius algoritmiškai prieinamus atsakymus.

 

     Tiems, kurie mano, kad tai yra įprastas technologijų ažiotažas, apsvarstykite tai: investuotojai mirtinai rimtai žiūri į naujos kartos modelių palaikymą. Manoma, kad GPT-5 ir kitų naujos kartos modelių mokymas kainuos milijardus dolerių. Pranešama, kad „OpenAI“ bendradarbiauja su technologijų milžine „Microsoft“, kad sukurtų naują 100 mlrd. dolerių vertės duomenų centrą. Remiantis vien skaičiais, atrodo, kad ateityje bus neribotas eksponentinis augimas.

 

Tai sutampa su požiūriu, kuriam pritaria daugelis AI tyrėjų, vadinamų „mastelio keitimo hipoteze“, t.y, viskas, ko reikia norint viršyti žmogaus galimybes, remiantis hipoteze, yra daugiau duomenų ir galingesnių kompiuterių lustų.

 

     Tačiau atidžiau pažvelkite į technines ribas, ir kai kurios bauginančios kliūtys tampa akivaizdžios.

 

     Grožio neužtenka

 

     Duomenys gali būti tiesioginė kliūtis. Epoch AI, mokslinių tyrimų organizacija, apskaičiavo, kad iki 2026 m. viešajame internete bus išnaudoti aukštos kokybės tekstiniai duomenys. Tai privertė mokslininkus ieškoti idėjų. Kai kurios laboratorijos kreipiasi į privatų internetą, perka duomenis iš brokerių ir naujienų svetainių.

 

Kiti kreipiasi į didžiulį interneto garso ir vaizdo duomenų kiekį, kurį būtų galima panaudoti kuriant vis didesnius modelius dešimtmečius.

 

Vaizdo įrašas gali būti ypač naudingas mokant dirbtinio intelekto modelius apie juos supančio pasaulio fiziką. Jei modelis gali stebėti oru skrendantį rutulį, jis gali lengviau nustatyti matematinę lygtį, apibūdinančią sviedinio judėjimą. Pirmaujantys modeliai, tokie, kaip GPT-4 ir Gemini, dabar yra „multimodaliniai“, galintys apdoroti įvairių tipų duomenis.

 

     Kai duomenų nebegalima rasti, juos galima padaryti. Tokios įmonės, kaip „Scale AI“ ir „Surge AI“ sukūrė didelius žmonių tinklus duomenims generuoti ir komentuoti, įskaitant doktorantus, sprendžiančius matematikos ar biologijos problemas. Vienas iš pirmaujančių dirbtinio intelekto įmonių vadovų apskaičiavo, kad tai AI laboratorijoms kainuoja šimtus milijonų dolerių per metus. Pigesnis metodas apima „sintetinių duomenų“ generavimą, kai vienas LLM sukuria milijardus puslapių teksto, kad galėtų parengti antrą modelį. Nors šis metodas gali susidurti su bėdomis: taip išmokyti modeliai gali prarasti praeities žinias ir sukurti nekūrybingus atsakymus.

 

Vaisingesnis būdas mokyti dirbtinio intelekto modelius naudojant sintetinius duomenis yra mokyti juos bendradarbiaujant arba konkuruojant. Tyrėjai tai vadina „žaidimu savarankiškai“. 2017 m. Google DeepMind, paieškos milžino AI laboratorija, sukūrė modelį, pavadintą AlphaGo, kuris, pasitreniravęs prieš save, įveikė žmonių pasaulio čempioną žaidime Go. „Google“ ir kitos įmonės dabar naudoja panašius metodus jų naujausiuose LLM.

 

     Idėjų, tokių, kaip savarankiškas žaidimas, išplėtimas į naujas sritis yra karšta tyrimų tema. Tačiau dauguma realaus pasaulio problemų – nuo verslo valdymo iki gero gydytojo darbo – yra sudėtingesnės, nei žaidimas, be aiškių laimėjimų. Štai kodėl tokiose sudėtingose srityse modeliams parengti vis dar reikalingi duomenys iš žmonių, galinčių atskirti geros ir blogos kokybės atsakymus. Tai savo ruožtu sulėtina reikalus.

 

     Daugiau silicio, bet padaryk tai madinga

 

     Geresnė aparatinė įranga yra dar vienas kelias į galingesnius modelius. Grafikos apdorojimo įrenginiai (GPU), iš pradžių sukurti vaizdo žaidimams, tapo pagrindiniu lustu daugeliui AI programuotojų, nes jie gali lygiagrečiai atlikti intensyvius skaičiavimus. Vienas iš būdų atrakinti naujas galimybes gali būti naudojant lustus, sukurtus specialiai AI modeliams. Silicio slėnyje įsikūrusi lustų gamintoja Cerebras kovo mėnesį išleido produktą, kuriame yra 50 kartų daugiau tranzistorių, nei didžiausiame GPU. Modelio kūrimą paprastai apsunkina duomenys, kuriuos reikia nuolat įkelti į GPU ir iš jo, kai modelis mokomas. Priešingai, milžiniškame „Cerebras“ luste yra įmontuota atmintis.

 

     Nauji modeliai bus patikimesni ir geriau tvarkys sudėtingas vartotojų užklausas. Vienas iš būdų, kaip tai gali nutikti, yra didesni „konteksto langai“ – teksto, vaizdo ar vaizdo įrašo kiekis, kurį vartotojas gali pateikti modeliui, pateikdamas užklausas. Konteksto langų padidinimas, kad vartotojai galėtų įkelti papildomos svarbios informacijos, taip pat atrodo veiksmingas būdas pažaboti haliucinacijas, ty AI modelių tendenciją užtikrintai atsakyti į klausimus, naudojant iš piršto laužtą informaciją.

 

     Tačiau kai kurie modelių kūrėjai lenktyniauja dėl daugiau išteklių, kiti mato ženklų, kad mastelio keitimo hipotezė susiduria su sunkumais. Fiziniai suvaržymai – tarkim, nepakankama atmintis arba didėjančios energijos sąnaudos – nustato praktinius didesnių modelių projektų apribojimus. Daugiau nerimo kelia tai, kad neaišku, ar išplėsti konteksto langus pakaks tolesnei pažangai. Yann LeCun, dabar „Meta“ žvaigždė AI, yra vienas iš daugelio, manančių, kad dabartinių AI modelių apribojimų neįmanoma pašalinti, naudojant daugiau tokių pačių priemonių.

 

     Todėl kai kurie mokslininkai kreipiasi į ilgalaikį įkvėpimo šaltinį dirbtinio intelekto srityje – žmogaus smegenis. Vidutinis suaugęs žmogus gali mąstyti ir planuoti daug geriau, nei geriausi LLM, nepaisant to, kad sunaudoja mažiau energijos ir daug mažiau duomenų. „AI reikia geresnių mokymosi algoritmų, ir mes žinome, kad jie įmanomi, nes juos turi jūsų smegenys“, – sako Vašingtono universiteto kompiuterių mokslininkas Pedro Domingosas.

 

     Viena problema, anot jo, yra algoritmas, pagal kurį dirbtinis intelektas mokosi, vadinamas atgaliniu propagavimu. Visi dirbtinio intelekto modeliai yra neuroniniai tinklai, išdėstyti sluoksniais, kurie gauna įvestis ir transformuoja jas, kad prognozuotų išeitis. Kai dirbtinis intelektas yra mokymosi fazėje, jis lygina jo prognozę su realybės versija, pateikta mokymo duomenyse. Jei jos skiriasi, algoritmas atlieka nedidelius kiekvieno tinklo sluoksnio pakeitimus, kad pagerintų ateities prognozes. Dėl to jis intensyviai skaičiuoja ir tų skaičiavimų kiekis greitai didėja.

 

     Šiandienos LLM neuroniniai tinklai taip pat yra neefektyviai struktūrizuoti. Nuo 2017 m. daugumoje dirbtinio intelekto modelių buvo naudojama neuroninio tinklo architektūra, žinoma, kaip transformatorius (GPT raidė „T“), kuri leido nustatyti ryšius tarp duomenų bitų, kurie duomenų rinkinyje yra toli vienas nuo kito. Ankstesni metodai stengėsi užmegzti tokius ilgalaikius ryšius. Pavyzdžiui, jei transformatoriumi pagrįsto modelio būtų paprašyta parašyti dainos žodžius, jis savo kode galėtų perrašyti daugelio ankstesnių dainų eilutes, o primityvesnis modelis būtų pamiršęs apie pradžią, kai pasiekė dainos pabaigą. Transformatorius taip pat galima paleisti daugelyje procesorių vienu metu, todėl žymiai sutrumpėja laikas, kurio reikia jų mokymui.

 

     Albertas Gu, kompiuterių mokslininkas iš Carnegie Mellon universiteto, vis dėlto mano, kad transformatorių laikas netrukus gali baigtis. Jų konteksto langų mastelis yra labai neefektyvus skaičiavimo požiūriu: padvigubėjus įvesties kiekiui, skaičiavimo, reikalingo jai apdoroti, kiekis padidėja keturis kartus. Kartu su Tri Dao iš Prinstono universiteto daktaras Gu sugalvojo alternatyvią architektūrą, pavadintą Mamba.

 

Jei pagal analogiją transformatorius skaito visus knygos puslapius vienu metu, Mamba skaito juos paeiliui, atnaujindama savo pasaulėžiūrą. Tai ne tik efektyviau, bet ir labiau atitinka žmogaus supratimo veikimo būdą.

 

     LLM taip pat reikia pagalbos, kad jie galėtų geriau mąstyti ir planuoti. Andrejus Karpathy, buvęs OpenAI tyrėjas, neseniai kalbėdamas paaiškino, kad dabartiniai LLM gali mąstyti tik „sistema 1“. Žmonėms tai yra automatinis mąstymo būdas, susijęs su skubiais sprendimais. Priešingai, „sistemos 2“ mąstymas yra lėtesnis, sąmoningesnis ir apima kartojimą. Dirbtinio intelekto sistemoms gali prireikti algoritmų, galinčių atlikti tai, kas vadinama paieška – galimybė apibūdinti ir išnagrinėti daugybę skirtingų veiksmų prieš pasirenkant geriausią. Tai būtų panašu į tai, kaip, žaidimus žaidžiantys, AI modeliai gali pasirinkti geriausius judesius ištyrę keletą variantų.

 

     Išplėstinis planavimas per paiešką yra daugelio dabartinių pastangų tikslas. Pavyzdžiui, Meta daktaras LeCunas bando užprogramuoti gebėjimą samprotauti ir daryti prognozes tiesiai į AI sistemą. 2022 m. jis pasiūlė sistemą, pavadintą „Joint Embedding Predictive Architecture“ (JEPA), kuri yra išmokyta vienu žingsniu numatyti didesnius teksto ar vaizdų gabalus, nei dabartiniai generatyvinio AI modeliai. Tai leidžia sutelkti dėmesį į globalias duomenų rinkinio ypatybes. Pavyzdžiui, analizuojant gyvūnų vaizdus, JEPA pagrindu sukurtas modelis gali greičiau sutelkti dėmesį į dydį, formą ir spalvą, o ne į atskirus kailio lopinėlius. Tikimasi, kad, abstrahuodama dalykus, JEPA mokosi efektyviau, nei generatyvūs modeliai, kuriuos atitraukia nereikšmingos detalės.

 

     Eksperimentai su tokiais metodais, kaip Mamba ar JEPA išlieka išimtimi. Kol duomenys ir skaičiavimo galia netaps neįveikiamomis kliūtimis, transformatoriniai modeliai išliks palankūs. Tačiau inžinieriams įvedus juos į vis sudėtingesnes programas, žmonių žinios išliks būtinos, ženklinant duomenis. Tai gali reikšti lėtesnę pažangą, nei iki šiol. Norint, kad naujos kartos dirbtinio intelekto modeliai apstulbintų pasaulį, kaip tai padarė ChatGPT 2022 m., gali prireikti esminių laimėjimų.“ [1]

 

1. AI’s next top model. The Economist; London Vol. 451, Iss. 9393,  (Apr 20, 2024): 68, 69.

Komentarų nėra: