Sekėjai

Ieškoti šiame dienoraštyje

2025 m. kovo 5 d., trečiadienis

Turingo apdovanojimas skirtas 2 dirbtinio intelekto pradininkams


 

 "Andrew Barto ir Richardas Suttonas sukūrė sustiprinimo mokymąsi, techniką, kuri yra gyvybiškai svarbi pokalbių robotams, tokiems, kaip ChatGPT.

 

 1977 m. Andrew Barto, būdamas Masačusetso universiteto Amherste mokslininkas, pradėjo tyrinėti naują teoriją, kad neuronai elgiasi, kaip hedonistai. Pagrindinė idėja buvo ta, kad žmogaus smegenis varo milijardai nervinių ląstelių, kurių kiekviena stengėsi maksimaliai padidinti malonumą ir sumažinti skausmą.

 

 Po metų prie jo prisijungė kitas jaunas tyrinėtojas Richardas Suttonas. Kartu jie siekė paaiškinti žmogaus intelektą, naudodami šią paprastą koncepciją ir pritaikė ją dirbtiniam intelektui.

 

 Rezultatas buvo „pastiprinimo mokymasis“, A.I. sistemos mokytis iš skaitmeninio malonumo ir skausmo ekvivalento.

 

 Trečiadienį Kompiuterinių mašinų asociacija, didžiausia pasaulyje kompiuterių profesionalų draugija, paskelbė, kad Dr. Barto ir Dr. Suttonas šiais metais laimėjo Turingo apdovanojimą už savo darbą, stiprinant mokymąsi. Turingo apdovanojimas, kuris buvo įteiktas 1966 m., dažnai vadinamas Nobelio skaičiavimo premija. Abu mokslininkai pasidalins, su apdovanojimu susijusią, 1 milijono dolerių premiją.

 

 Per pastarąjį dešimtmetį stiprinamasis mokymasis suvaidino gyvybiškai svarbų vaidmenį, plėtojant dirbtinį intelektą, įskaitant tokias proveržio technologijas, kaip Google AlphaGo ir OpenAI ChatGPT. Metodai, kuriais buvo maitinamos šios sistemos, buvo įsišakniję Dr. Barto ir Dr. Suttono darbuose.

 

 „Jie yra neabejotini sustiprinto mokymosi pradininkai“, – sakė Orenas Etzioni, Vašingtono universiteto kompiuterių mokslo profesorius emeritas ir Alleno dirbtinio intelekto instituto įkūrėjas. „Jie sukūrė pagrindines idėjas ir parašė knygą šia tema.”

 

 Jų knyga „Inforcement Learning: An Introduction“, kuri buvo išleista 1998 m., išlieka galutiniu idėjos, kuri, daugelio ekspertų teigimu, tik pradeda suvokti savo potencialą, tyrinėjimu.

 

 Psichologai jau seniai tyrinėjo būdus, kuriais žmonės ir gyvūnai mokosi iš savo patirties. 1940-aisiais novatoriškas britų kompiuterių mokslininkas Alanas Turingas pasiūlė, kad mašinos galėtų mokytis panašiai.

 

 Bet tai buvo daktaras Barto ir daktaras Suttonas, kurie pradėjo tyrinėti matematiką, kaip tai galėtų veikti, remdamiesi teorija, kurią pasiūlė, vyriausybei dirbantis, kompiuterių mokslininkas A. Harry Klopfas.

 

Dr. Barto toliau kūrė laboratoriją UMass Amherst, skirtą šiai idėjai, o daktaras Suttonas įkūrė panašią laboratoriją Albertos universitete Kanadoje.

 

 „Tai yra akivaizdi mintis, kai kalbate apie žmones ir gyvūnus“, - sakė dr. Sutton, kuris taip pat yra Keen Technologies mokslininkas, A.I. startuolis ir Albertos mašinų žvalgybos instituto bendradarbis, vienas iš trijų Kanados nacionalinių A.I. laboratorijos. „Kai mes ją atgaivinome, tai buvo apie mašinas.”

 

 Tai išliko akademiniu siekiu iki AlphaGo pasirodymo 2016 m. Dauguma ekspertų manė, kad praeis dar 10 metų, kol kas nors sukurs A.I. sistema, kuri galėtų įveikti geriausius pasaulio žaidėjus „Go“ žaidime.

 

 Tačiau per rungtynes ​​Seule, Pietų Korėjoje, „AlphaGo“ įveikė geriausią pastarojo dešimtmečio „Go“ žaidėją Lee Sedolą.

 

 Triukas buvo tas, kad sistema žaidė milijonus žaidimų prieš save, mokydamasi bandymų ir klaidų būdu. Sužinojo, kurie judesiai atnešė sėkmę (malonumą), o kurie nesėkmę (skausmą).

 

 Sistemą sukūrusiai „Google“ komandai vadovavo Davidas Silveris, tyrėjas, Albertos universitete studijavęs sustiprinimo mokymąsi pas daktarą Suttoną.

 

 Daugelis ekspertų vis dar abejoja, ar sustiprinimo mokymasis galėtų veikti ne žaidimuose. Žaidimo laimėjimai nustatomi taškais, todėl automatai gali lengvai atskirti sėkmę nuo nesėkmės.

 

 Tačiau sustiprinimo mokymasis taip pat atliko svarbų vaidmenį internetiniuose pokalbių robotuose.

 

 Iki „ChatGPT“ išleidimo 2022 m. rudenį „OpenAI“ pasamdė šimtus žmonių, kad naudotųsi ankstyvąja versija ir pateiktų tikslius pasiūlymus, kurie galėtų patobulinti jos įgūdžius. Jie parodė pokalbių robotui, kaip atsakyti į konkrečius klausimus, įvertino jo atsakymus ir ištaisė klaidas. Analizuodama šiuos pasiūlymus, „ChatGPT“ išmoko būti geresniu pokalbių robotu.

 

 Tyrėjai tai vadina „stiprinimu mokymusi iš žmonių grįžtamojo ryšio“ arba R.L.H.F. Ir tai yra viena iš pagrindinių priežasčių, kodėl šiandieniniai pokalbių robotai reaguoja stebėtinai tikroviškais būdais.

 

 („The New York Times“ padavė į teismą OpenAI ir jos partnerę „Microsoft“ dėl naujienų turinio, susijusio su AI sistemomis, autorių teisių pažeidimo. „OpenAI“ ir „Microsoft“ šiuos teiginius atmetė.)

 

 Visai neseniai tokios kompanijos, kaip „OpenAI“ ir Kinijos startuolis „DeepSeek“ sukūrė sustiprinimo mokymosi formą, leidžiančią pokalbių robotams mokytis iš savęs – panašiai, kaip tai padarė „AlphaGo“. Pavyzdžiui, spręsdamas įvairias matematines problemas, pokalbių robotas gali sužinoti, kurie metodai leidžia gauti teisingą atsakymą, o kurie ne.

 

 Jei šis procesas kartojasi, turėdamas nepaprastai daug problemų, robotas gali išmokti imituoti žmonių mąstymą – bent jau tam tikrais būdais. Rezultatas yra vadinamosios samprotavimo sistemos, tokios, kaip OpenAI o1 arba DeepSeek R1.

 

 Dr. Barto ir Dr. Sutton teigia, kad šios sistemos rodo, kaip mašinos mokysis ateityje. Galų gale, jie sako, robotai, persmelkti A.I. mokysis iš bandymų ir klaidų realiame pasaulyje, kaip tai daro žmonės ir gyvūnai.

 

 „Mokymasis valdyti kūną, stiprinimo metodu – tai labai natūralus dalykas“, – sakė dr. Barto.” [1]

1. Turing Award Goes to 2 Pioneers of Artificial Intelligence. Metz, Cade.  New York Times (Online) New York Times Company. Mar 5, 2025.

Komentarų nėra: