Sekėjai

Ieškoti šiame dienoraštyje

2024 m. gruodžio 21 d., šeštadienis

Kitas didelis dirbtinio intelekto šuolis atsilieka nuo grafiko ir yra beprotiškai brangus --- OpenAI susiduria su egzistenciniu klausimu: jei protingiausi protai, dirbantys su dirbtiniu intelektu, negali pagerinti ChatGPT, ar pats dirbtinis intelektas pasmerktas nuvilti?


  „Naujasis „OpenAI“ dirbtinio intelekto (AI) projektas atsilieka nuo grafiko ir išleidžia milžiniškas sąskaitas. Neaišku, kada – ir ar – jis veiks. Gali būti, kad pasaulyje nėra pakankamai duomenų, kad jis būtų pakankamai išmanus.

 

 Projektas, oficialiai pavadintas GPT-5 ir kodiniu pavadinimu „Orion“, buvo vykdomas daugiau nei 18 mėnesių ir yra pagrindinė „ChatGPT“ galios technologijos pažanga. Artimiausias OpenAI partneris ir didžiausias investuotojas „Microsoft“ tikėjosi, kad naujasis modelis pasirodys maždaug 2024 m. viduryje, sako žmonės, išmanantys šį klausimą.

 

 „OpenAI“ surengė mažiausiai dvi dideles treniruotes, kurių kiekviena apima mėnesius, kai reikia kaupti didžiulius duomenų kiekius, kad „Orion“ būtų išmanesnis. Kiekvieną kartą iškildavo naujų problemų ir programinė įranga nepasiekdavo rezultatų, kurių tikėjosi tyrėjai, sako projektui artimi žmonės.

 

 Jie teigia, kad geriausiu atveju „Orion“ veikia geriau, nei dabartiniai „OpenAI“ pasiūlymai, tačiau nėra pakankamai pažengęs, kad pateisintų didžiules naujojo modelio eksploatavimo išlaidas. Šešių mėnesių mokymas gali kainuoti apie pusę milijardo dolerių vien skaičiavimo išlaidų, remiantis viešais ir privačiais įvairių mokymo aspektų skaičiavimais.

 

 Prieš dvejus metus paleisdami ChatGPT, „OpenAI“ ir jos įžūlus vadovas Samas Altmanas per Silicio slėnį siuntė smūgines bangas. AI pažadėjo nuolat demonstruoti dramatiškus patobulinimus ir persmelkti beveik visus mūsų gyvenimo aspektus. Analitikai prognozuoja, kad technologijų milžinai ateinančiais metais dirbtinio intelekto projektams gali išleisti 1 trilijoną dolerių.

 

 Šių lūkesčių svarba daugiausia tenka „OpenAI“ – įmonei, kuri buvo AI bumo pradžioje.

 

 157 milijardų dolerių vertės vertinimas, kurį investuotojai skyrė OpenAI spalį, daugiausia pagrįsta Altmano prognozėmis, kad GPT-5 bus „reikšmingas šuolis į priekį“ visų rūšių temose ir užduotyse.

 

 GPT-5 turėtų atskleisti naujus mokslinius atradimus ir atlikti įprastas žmogaus užduotis, pvz., užsakyti susitikimus ar skrydžius. Tyrėjai tikisi, kad tai padarys mažiau klaidų, nei šiandieninis AI arba bent jau pripažins abejones – tai yra iššūkis dabartiniams modeliams, kurie gali sukelti klaidų su akivaizdžiu pasitikėjimu, klaidų, vadinamų haliucinacijomis.

 

 AI pokalbių robotai veikia, naudojant pagrindinę technologiją, žinomą, kaip didelis kalbos modelis arba LLM. Vartotojai, įmonės ir vyriausybės jau pasitiki jais visur – nuo ​​kompiuterio kodo rašymo iki rinkodaros kopijos kūrimo ir vakarėlių planavimo. OpenAI vadinamas GPT-4, ketvirtuoju LLM, kurį bendrovė sukūrė nuo 2015 m.

 

 Nors GPT-4 elgėsi, kaip protingas vidurinės mokyklos moksleivis, galiausiai, GPT-5 tikrai turėtų daktaro laipsnį. kai kuriose užduotyse, sakė buvęs OpenAI vadovas. Anksčiau šiais metais Altmanas sakė studentams Stanfordo universitete, kad „OpenAI“ gali su „dideliu moksliniu tikrumu“ teigti, kad GPT-5 bus daug protingesnis už dabartinį modelį.

 

 Nėra nustatytų kriterijų, pagal kuriuos būtų galima nustatyti, kada modelis tapo pakankamai protingas, kad būtų priskirtas GPT-5. OpenAI gali išbandyti savo LLM tokiose srityse, kaip matematika ir kodavimas. Įmonės vadovai turi nuspręsti, ar modelis yra pakankamai protingas, kad jį būtų galima pavadinti GPT-5, daugiausia remiantis nuojauta, ar, kaip sako daugelis technologų, „nuotaika“.

 

 Kol kas nuotaika bloga

 

 „OpenAI“ ir „Microsoft“ atsisakė komentuoti šį straipsnį. Lapkritį Altmanas sakė, kad startuolis 2024 m. neišleis nieko, vadinamo GPT-5.

 

 Nuo 2023 m. kovo mėn., kai pasirodė GPT-4, OpenAI dirbo su GPT-5.

 

 Ilgamečiai dirbtinio intelekto tyrinėtojai teigia, kad tokių sistemų, kaip LLM kūrimas yra toks pat menas, kaip mokslas. Labiausiai gerbiami AI mokslininkai pasaulyje yra giriami už intuiciją, kaip pasiekti geresnių rezultatų.

 

 Modeliai išbandomi treniruočių metu, tai yra ilgalaikis laikotarpis, kai modeliui gali būti tiekiama trilijonai žodžių fragmentų, žinomų kaip žetonai. Didelis treniruočių bėgimas gali užtrukti kelis mėnesius duomenų centre, kuriame yra dešimtys tūkstančių brangių ir geidžiamų kompiuterių lustų, paprastai iš Nvidia.

 

 Mokymų metu mokslininkai kelias savaites ar net mėnesius klūpo prie jų kompiuterių ir bando į AI sistemą įnešti daug pasaulio žinių, naudodami brangiausią aparatinę įrangą toli nutolusiuose duomenų centruose.

 

 Altmanas teigė, kad GPT-4 mokymas kainavo daugiau nei 100 mln. dolerių. Tikimasi, kad būsimi AI modeliai viršys 1 mlrd. dolerių. Nevykęs treniruočių bėgimas yra tarsi kosminė raketa, sprogusi danguje netrukus po paleidimo.

 

 Tyrėjai bando sumažinti tokio gedimo tikimybę, atlikdami mažesnio masto eksperimentus – atlikdami bandomąjį paleidimą prieš tikrąjį dalyką.

 

 Nuo pat pradžių kilo problemų su GPT-5 planais.

 

 2023 m. viduryje „OpenAI“ pradėjo treniruotę, kuri tapo pasiūlyto naujo „Orion“ dizaino išbandymu. Tačiau procesas buvo vangus, o tai rodo, kad mokymas buvo ilgesnis,  šis veikimas greičiausiai užtruktų neįtikėtinai ilgai, o tai savo ruožtu paverstų jį nepaprastai brangiu. Ir projekto, pavadinto Arrakis, rezultatai parodė, kad GPT-5 kūrimas vyks ne taip sklandžiai, kaip tikėtasi.

 

 „OpenAI“ tyrėjai nusprendė atlikti keletą techninių patobulinimų, kad sustiprintų „Orion“. Jie taip pat padarė išvadą, kad jiems reikia įvairesnių, aukštos kokybės duomenų. Jie manė, kad viešo interneto neužteko.

 

 Paprastai AI modeliai tampa pajėgesni, kuo daugiau duomenų jie suvalgo. LLM tie duomenys pirmiausia yra iš knygų, akademinių leidinių ir kitų gerbiamų šaltinių. Ši medžiaga padeda LLM aiškiau išreikšti save ir atlikti įvairias užduotis.

 

 Ankstesniems modeliams OpenAI naudojo duomenis, gautus iš interneto: naujienų straipsnius, socialinės žiniasklaidos įrašus ir mokslinius straipsnius.

 

 Kad „Orion“ būtų išmanesnis, „OpenAI“ turi jį padidinti. Tai reiškia, kad reikia dar daugiau duomenų, bet jų nepakanka.

 

 „Tai tikrai brangu ir tampa sunku rasti daugiau lygiaverčių aukštos kokybės duomenų“, - sakė Ari Morcos, „DatologyAI“, startuolio, kuriančio įrankius duomenų atrankai pagerinti, generalinis direktorius. Morcos kuria modelius, naudodamas mažiau, bet daug geresnių duomenų. Jis teigia, kad toks požiūris padarys šiandienines AI sistemas pajėgesnes, nei strategija, kurią taiko visos geriausios dirbtinio intelekto įmonės, tokios, kaip OpenAI.

 

 OpenAI sprendimas buvo sukurti duomenis nuo nulio.

 

 Ji samdo žmones, kurie parašytų naują programinės įrangos kodą arba išspręstų matematikos uždavinius, kad „Orion“ galėtų mokytis. Darbuotojai, kai kurie iš jų yra programinės įrangos inžinieriai ir matematikai, taip pat dalijasi paaiškinimais apie jų darbą su „Orion“.

 

 Daugelis tyrinėtojų mano, kad kodas, programinės įrangos kalba, gali padėti LLM išspręsti problemas, kurių jie dar nematė.

 

 Žmonėms paaiškinus savo mąstymą, naujai sukurtų duomenų vertė gilėja. Tai daugiau kalbos LLM įsisavinti; tai taip pat žemėlapis, kaip modelis gali išspręsti panašias problemas ateityje.

 

 „Mes perkeliame žmogaus intelektą iš žmogaus proto į mašinų protus“, – sakė Jonathanas Siddharthas, Turingo, AI infrastruktūros įmonės, dirbančios su „OpenAI“, „Meta“ ir kitais, generalinis direktorius ir vienas iš įkūrėjų.

 

 Turingo vadovai sakė, kad AI mokymuose programinės įrangos inžinierius gali būti paragintas parašyti programą, kuri veiksmingai išspręstų sudėtingą logikos problemą. Matematikui gali tekti apskaičiuoti didžiausią piramidės, sukonstruotos iš milijono krepšinio kamuolių, aukštį. Tada atsakymai ir, dar svarbiau, kaip juos pasiekti, įtraukiami į AI mokymo medžiagą.

 

 „OpenAI“ dirbo su tokių dalykų kaip teorinės fizikos, ekspertais, kad paaiškintų, kaip jie spręstų sudėtingiausias savo srities problemas. Tai taip pat gali padėti „Orion“ tapti protingesniam.

 

 Procesas skausmingai lėtas. GPT-4 buvo apmokytas maždaug 13 trilijonų žetonų. Tūkstančiui žmonių, parašančių 5000 žodžių per dieną, prireiktų mėnesių, kol pagamintų milijardą žetonų.

 

 „OpenAI“ taip pat pradėjo kurti vadinamuosius sintetinius duomenis arba dirbtinio intelekto sukurtus duomenis, kad padėtų treniruoti „Orion“. Tyrimai parodė, kad AI grįžtamojo ryšio kilpa kuriant AI duomenis dažnai gali sukelti gedimų arba duoti nesąmoningus atsakymus.

 

 „OpenAI“ mokslininkai mano, kad gali išvengti tų problemų naudodami duomenis, sugeneruotus naudojant kitą jos AI modelį, vadinamą o1, sakė su šiuo klausimu susipažinę žmonės.

 

 „OpenAI“ ir taip sudėtingą užduotį apsunkino vidinė suirutė ir beveik nuolatiniai konkurentų bandymai išvilioti geriausius tyrėjus, kartais pasiūlant jiems milijonus dolerių.

 

 Praėjusiais metais Altmaną netikėtai atleido „OpenAI“ direktorių taryba, o kai kurie tyrinėtojai domėjosi, ar įmonė tęs veiklą. Altmanas greitai buvo grąžintas į generalinio direktoriaus pareigas ir nusprendė pertvarkyti OpenAI valdymo struktūrą.

 

 Šiais metais daugiau, nei dvi dešimtys, pagrindinių vadovų, tyrėjų ir ilgamečių darbuotojų paliko OpenAI, įskaitant įkūrėją ir vyriausiąjį mokslininką Ilją Sutskeverį ir vyriausiąją technologijų pareigūnę Mira Murati. Praėjusį ketvirtadienį Alecas Radfordas, plačiai žinomas tyrinėtojas, vadovavęs keletui OpenAI mokslinių straipsnių, paskelbė apie savo išvykimą po maždaug aštuonerių metų darbo įmonėje.

 

 2024 m. pradžioje vadovai pradėjo jausti spaudimą. GPT-4 jau buvo metai, o varžovai pradėjo pasivyti. Naują LLM iš Anthropic daugelis pramonės atstovų įvertino, kaip geresnį, nei GPT-4.

 

Po kelių mėnesių „Google“ pristatė pačią virusiškiausią naujųjų metų AI programą, pavadintą „NotebookLM“.

 

 Orionui sustojus, OpenAI pradėjo kurti kitus projektus ir programas. Juose buvo supaprastintos GPT-4 versijos ir „Sora“ – produktas, galintis sukurti dirbtinio intelekto sukurtus vaizdo įrašus.

 

 Tai paskatino kovoti dėl ribotų skaičiavimo išteklių tarp komandų, dirbančių su naujais produktais, ir „Orion“ tyrėjų, teigia su šiuo klausimu susipažinę žmonės.

 

 Konkurencija tarp dirbtinio intelekto laboratorijų taip išaugo, kad didžiosios technologijų įmonės skelbia mažiau straipsnių apie naujausius atradimus ar proveržius, nei įprasta moksle. Prieš dvejus metus rinką užplūdus pinigams, technologijų įmonės pradėjo žiūrėti į šio tyrimo rezultatus kaip komercines paslaptis, kurias reikėjo saugoti. Kai kurie tyrinėtojai į tai žiūri taip rimtai, kad nedirbs lėktuvuose, kavinėse ar bet kur, kur kas nors galėtų žvilgtelėti per petį ir pažvelgti į jų darbą.

 

 Toks slaptas požiūris nuvylė daugelį ilgamečių dirbtinio intelekto tyrinėtojų, įskaitant Yanną LeCuną, vyriausiąjį „Meta“ AI mokslininką. LeCun teigė, kad OpenAI ir Anthropic darbas nebeturėtų būti vertinamas, kaip tyrimas, o kaip „pažangaus produkto kūrimas“.

 

 „Jei tai darote pagal komercinį laikrodį, tai nevadinama tyrimais“, – sakė LeCun neseniai vykusios AI konferencijos, kurioje OpenAI dalyvavo minimaliai, kuluaruose. – “Jei tai darai paslapčia, tai nevadinama tyrimais.”

 

 2024 m. pradžioje „OpenAI“ pasirengė dar kartą pabandyti „Orion“, šį kartą turėdama geresnių duomenų. Per pirmuosius metų mėnesius mokslininkai pradėjo keletą mažesnio masto mokymų, kad sustiprintų pasitikėjimą.

 

 Iki gegužės mėnesio OpenAI tyrėjai nusprendė, kad yra pasirengę pabandyti dar vieną didelio masto „Orion“ mokymą, kuris, jų manymu, tęsis iki lapkričio mėn.

 

 Prasidėjus mokymui, mokslininkai atrado duomenų problemą: jie nebuvo tokie įvairūs, kaip jie manė, todėl galėjo būti apribota, kiek Orionas išmoks.

 

 Problema nebuvo matoma mažesnio masto pastangomis ir išryškėjo tik po to, kai jau prasidėjo didelis treniruočių bėgimas. OpenAI praleido per daug laiko ir pinigų, kad pradėtų iš naujo.

 

 Vietoj to, tyrėjai stengėsi rasti daugiau duomenų, kad galėtų pateikti modelį mokymo proceso metu. Neaišku, ar ši strategija pasiteisino.

 

 „Orion“ problemos kai kuriems „OpenAI“ pranešė, kad strategija „daugiau yra daugiau“, kuri lėmė didžiąją dalį ankstesnės sėkmės, baigėsi.

 

 OpenAI nėra vienintelė įmonė, kuri nerimauja, kad pažanga atsitrenkė į sieną. Visoje pramonės šakoje vyksta diskusijos dėl to, ar dirbtinio intelekto tobulėjimas pradeda lėtėti.

 

 Sutskeveris, neseniai įkūręs naują dirbtinio intelekto įmonę Safe Superintelligence arba SSI, neseniai vykusioje AI konferencijoje pareiškė, kad maksimalaus duomenų kiekio amžius baigėsi. „Duomenų trūksta todėl, kad turime tik vieną internetą“, – sakė jis tyrėjų, politikos ekspertų ir mokslininkų miniai. „Galite netgi pasakyti, kad duomenys yra AI iškastinis kuras.”

 

 Ir tas kuras pradėjo baigtis.

 

 Jų kovos su „Orion“ paskatino OpenAI tyrėjus prie naujo požiūrio, kaip padaryti LLM protingesnį: samprotavimą. Mokslininkai teigia, kad ilgai „mąstydami“ LLM gali išspręsti sudėtingas problemas, kurių spręsti jie nebuvo apmokyti.

 

 Užkulisiuose OpenAI o1 siūlo kelis atsakymus į kiekvieną klausimą ir juos analizuoja, kad surastų geriausią. Jis gali atlikti sudėtingesnes užduotis, pvz., rašyti verslo planą arba sukurti kryžiažodį, paaiškindamas savo samprotavimus – tai padeda modeliui šiek tiek pasimokyti iš kiekvieno atsakymo.

 

 „Apple“ mokslininkai neseniai išleido dokumentą, kuriame teigiama, kad samprotavimo modeliai, įskaitant o1 versijas, greičiausiai, imitavo duomenis, kuriuos matė treniruočių metu, o ne iš tikrųjų sprendė naujas problemas.

 

 „Apple“ tyrėjai teigė aptikę „katastrofiškus našumo sumažėjimus“, jei klausimai buvo pakeisti įtraukiant nereikšmingas detales, pavyzdžiui, pakeitus matematikos uždavinį apie kivius, siekiant pastebėti, kad kai kurie vaisiai buvo mažesni už kitus.

 

 Rugsėjo mėn. OpenAI pristatė savo o1 samprotavimo modelio peržiūrą ir išleido visą o1 versiją anksčiau šį mėnesį.

 

 Visos papildomos smegenų galios yra brangios. „OpenAI“ dabar moka už kelis atsakymus į vieną užklausą, o ne vieną.

 

 Neseniai vykusioje TED kalboje vienas iš OpenAI vyresniųjų mokslininkų pabrėžė samprotavimo pranašumus.

 

 „Paaiškėjo, kad botui mąstant tik 20 sekundžių pokerio kombinacijoje, našumas padidėjo tiek pat, kiek padidinus modelį 100 000 kartų ir treniruojantis 100 000 kartų ilgiau“, – sakė OpenAI mokslininkas Noamas Brownas.

 

 Pažangesnis ir veiksmingesnis samprotavimo modelis galėtų būti „Orion“ pagrindas. OpenAI tyrėjai laikosi tokio požiūrio ir tikisi jį sujungti su senu metodu gauti daugiau duomenų, kai kurie iš jų gali būti gaunami iš kitų OpenAI AI modelių. Tada „OpenAI“ galėtų patobulinti rezultatus remdamasi žmonių sukurta medžiaga.

 

 Penktadienį Altmanas paskelbė apie planus sukurti naują samprotavimo modelį, kuris būtų protingesnis, nei bet kas, kurį bendrovė išleido anksčiau. Jis nieko nesakė apie tai, kada ir ar pasirodys modelis, vertas vadintis GPT-5." [1]

1. EXCHANGE --- The Next Great Leap in AI Is Behind Schedule and Crazy Expensive --- OpenAI faces an existential question: If the smartest minds working on artificial intelligence can't make ChatGPT better, is AI itself doomed to disappoint? Seetharaman, Deepa.  Wall Street Journal, Eastern edition; New York, N.Y.. 21 Dec 2024: B1.

Komentarų nėra: