Sekėjai

Ieškoti šiame dienoraštyje

2024 m. liepos 25 d., ketvirtadienis

Trumpa dirbtinio intelekto istorija

„1956 m. vasarą Dartmuto koledže Naujajame Hampšyre susirinko nedidelė, bet garsi grupė; į ją buvo įtrauktas Claude'as Shannonas, informacijos teorijos pradininkas, ir Herbas Simonas, vienintelis asmuo, kada nors laimėjęs Nobelio atminimo ekonomikos mokslų premiją, kurią skyrė Švedijos karališkoji mokslų akademija ir Kompiuterinių mašinų asociacijos suteiktą Turingo apdovanojimą. Juos sukvietė jaunas mokslininkas Johnas McCarthy, norėdamas aptarti, „kaip priversti mašinas naudoti kalbą, formuoti abstrakcijas ir sąvokas“. Tai buvo pirmasis akademinis susibūrimas, skirtas tam, ką McCarthy pavadino „dirbtiniu intelektu“, ir tai buvo šablonas ateinantiems 60 metų, kad būtų nepasiekta jokia pažanga, nepaisant jų ambicijos.

 

 Dartmuto susitikimas nepažymėjo mokslinių tyrimų apie mašinas, galinčias mąstyti, kaip žmonės, pradžią. Alanas Turingas, kuriam pavadinta Tiuringo premija, apie tai susimąstė; taip padarė ir Johnas von Neumannas, McCarthy įkvėpėjas. 1956 m. jau buvo daug požiūrių į šį klausimą; Istorikai mano, kad viena iš priežasčių, kodėl McCarthy savo projektui sukūrė terminą dirbtinis intelektas, vėliau AI, buvo ta, kad jis buvo pakankamai platus, kad apimtų juos visus, todėl klausimas, kuris iš jų galėtų būti geriausias, lieka atviras. Kai kurie tyrinėtojai pirmenybę teikė sistemoms, pagrįstoms faktų apie pasaulį derinimu su aksiomomis, tokiomis, kaip geometrija ir simbolinė logika, kad būtų galima padaryti išvadas apie tinkamus atsakymus; kiti pirmenybę teikė pastatų sistemoms, kuriose vieno dalyko tikimybė priklausė nuo nuolat atnaujinamų daugelio kitų tikimybių.

 

 Vėlesniais dešimtmečiais buvo daug intelektualinio ažiotažo ir ginčų šia tema, tačiau devintajame dešimtmetyje buvo pasiektas platus sutarimas dėl tolesnio kelio: „ekspertų sistemos“, kurios naudojo simbolinę logiką, kad gautų ir pritaikytų geriausias žmogaus žinias. Visų pirma Japonijos vyriausybė prisilaikė tokių sistemų ir joms reikalingos techninės įrangos idėjos. Tačiau dažniausiai tokios sistemos pasirodė pernelyg nelanksčios, kad susidorotų su realaus pasaulio netvarka. Iki devintojo dešimtmečio pabaigos dirbtinis intelektas buvo nukritęs į nešvankybę, o tai buvo priežodis, reiškiantis pernelyg daug žadantį ir nepakankamą rezultatą. Tie tyrėjai, vis dar dirbantys šioje srityje, pradėjo vengti šio termino.

 

 Būtent iš vienos iš tų atkaklumo kišenių gimė šiandieninis bumas. Kai 1940-aisiais buvo sujungtos smegenų ląstelių – tam tikro tipo neuronų – darbo užuomazgos, kompiuterių mokslininkai pradėjo domėtis, ar mašinos gali būti sujungtos taip pat. 

 

Biologinėse smegenyse yra jungtys tarp neuronų, kurios leidžia aktyvumui viename sukelti arba slopinti kito aktyvumą; tai, ką daro vienas neuronas, priklauso nuo to, ką veikia kiti su juo susiję neuronai. Pirmasis bandymas tai modeliuoti laboratorijoje (Marvin Minsky, Dartmouth dalyvis) naudojo aparatinę įrangą neuronų tinklams modeliuoti. Nuo tada programine įranga buvo imituojami tarpusavyje sujungtų neuronų sluoksniai.

 

 Šie dirbtiniai neuroniniai tinklai nėra užprogramuoti, naudojant aiškias taisykles; vietoj to jie „mokosi“ gavę daugybę pavyzdžių. Šios treniruotės metu jungčių tarp neuronų stiprumas (žinomas, kaip „svoriai“) pakartotinai koreguojamas taip, kad galiausiai tam tikra įvestis sukurtų tinkamą išvestį. Pats Minskis šios idėjos atsisakė, bet kiti jos ėmėsi. Dešimtojo dešimtmečio pradžioje neuroniniai tinklai buvo išmokyti daryti tokius dalykus, kaip padėti rūšiuoti įrašus, atpažįstant ranka rašytus skaičius. Tyrėjai manė, kad pridėjus daugiau neuronų sluoksnių, būtų galima pasiekti sudėtingesnių pasiekimų. Tačiau tai taip pat privertė sistemas veikti daug lėčiau.

 

 Nauja kompiuterio aparatinė įranga padėjo išspręsti problemą. Jo potencialas buvo dramatiškai parodytas 2009 m., kai Stanfordo universiteto mokslininkai padidino greitį, su kuriuo neuroninis tinklas gali veikti 70 kartų, naudodamiesi žaidimų kompiuteriu savo bendrabučio kambaryje. Tai buvo įmanoma, nes, kaip ir visuose kompiuteriuose esantis „centrinis procesorius“ (cpu), šis taip pat turėjo „grafikos apdorojimo bloką“ (gpu), kad būtų galima sukurti žaidimų pasaulius ekrane. GPU buvo sukurtas taip, kad būtų tinkamas neuroninio tinklo kodui paleisti.

 

 Sujungus šį aparatinės įrangos pagreitį su efektyvesniais mokymo algoritmais, tinklai su milijonais jungčių galėjo būti apmokyti per protingą laiką; neuroniniai tinklai galėtų apdoroti didesnes įvestis ir, svarbiausia, jiems būtų suteikta daugiau sluoksnių. Šie „gilesni“ tinklai pasirodė esą daug pajėgesni.

 

 Šio naujo požiūrio, kuris buvo žinomas, kaip „gilus mokymasis“, galia išryškėjo 2012 m. „ImageNet Challenge“. Iššūkyje konkuruojančioms vaizdo atpažinimo sistemoms buvo suteikta daugiau, nei milijono, pažymėtų vaizdo failų duomenų bazė. Bet kuriam žodžiui, pavyzdžiui, „šuo“ ar „katė“, duomenų bazėje buvo keli šimtai nuotraukų. Vaizdo atpažinimo sistemos būtų apmokytos, naudojant šiuos pavyzdžius, „sužymėti“ įvestį vaizdų pavidalu į išvestį vieno žodžio aprašymo forma. Tada sistemos buvo užginčytos sukurti tokius aprašymus, kai pateikiami anksčiau nematyti bandomieji vaizdai. 2012 m. komanda, vadovaujama Geoffo Hintono, iš tuometinio Toronto universiteto, naudojo gilų mokymąsi, kad pasiektų 85 % tikslumą. Tai akimirksniu buvo pripažinta, kaip proveržis.

 

 Iki 2015 m. beveik visi, vaizdo atpažinimo srityje dirbantys, asmenys naudojo gilų mokymąsi, o „ImageNet Challenge“ nugalėtojų tikslumas siekė 96 % – geriau, nei vidutinis žmogaus rezultatas. Gilus mokymasis taip pat buvo taikomas, sprendžiant daugybę kitų „problemų, skirtų žmonėms“, kurias galima susiaurinti iki vieno tipo dalykų susiejimo su kitais: kalbos atpažinimas (garso susiejimas su tekstu), veido atpažinimas (veidų susiejimas su vardais) ir vertimas.

 

 Visose šiose programose didžiulis duomenų kiekis, kurį buvo galima pasiekti internetu, buvo labai svarbus sėkmei; be to, internetu besinaudojančių, žmonių skaičius bylojo apie didelių rinkų galimybę. Ir kuo didesni (ty gilesni) tinklai buvo sukurti ir kuo daugiau mokymo duomenų jiems buvo suteikta, tuo labiau pagerėjo jų veikimas.

 

 Gilus mokymasis netrukus buvo pritaikytas visuose naujuose produktuose ir paslaugose. Atsirado balsu valdomi įrenginiai, tokie, kaip „Amazon“ „Alexa“. Internetinės transkripcijos paslaugos tapo naudingos. Interneto naršyklės siūlė automatinius vertimus. Pasakyti, kad tokius dalykus įgalino dirbtinis intelektas, ėmė skambėti šauniai, o ne gėdingai, nors tai taip pat buvo šiek tiek perteklinis dalykas; beveik visos technologijos, anksčiau ir dabar vadinamos AI, iš tikrųjų priklauso nuo gilaus mokymosi po variklio dangčiu.

 

 2017 m. prie kiekybinės naudos buvo pridėtas kokybinis pokytis, kurį suteikia didesnė skaičiavimo galia ir daugiau duomenų: naujas būdas sudaryti jungtis tarp neuronų, vadinamas transformatoriumi. Transformatoriai leidžia neuroniniams tinklams sekti įvesties šablonus, net jei modelio elementai yra toli vienas nuo kito, tokiu būdu, kad jie galėtų skirti „dėmesį“ tam tikroms duomenų savybėms.

 

 Transformatoriai leido tinklams geriau suvokti kontekstą, o tai jiems pritaikė metodiką, vadinamą „savęs prižiūrimu mokymusi“. Iš esmės kai kurie žodžiai treniruočių metu atsitiktinai ištrinami, o modelis pats mokosi užpildyti labiausiai tikėtiną kandidatą. Kadangi mokymo duomenų nereikia iš anksto pažymėti, tokius modelius galima apmokyti, naudojant milijardus žodžių neapdoroto teksto, paimto iš interneto.

 

 Atsižvelkite į savo kalbos modelį

 

 Transformatoriumi pagrįsti didelių kalbų modeliai (LLM) pradėjo pritraukti platesnį dėmesį 2019 m., kai startuolis OpenAI (GPT reiškia generatyvų iš anksto parengtą transformatorių) išleido modelį, pavadintą GPT-2. Paaiškėjo, kad tokie LLM gali „pademonstruoti“ elgesį, kurio jie nebuvo specialiai apmokyti. Įsisavinę didžiulį kalbos kiekį, jie ne tik stebėtinai sugebėjo atlikti kalbines užduotis, pvz., apibendrinimą ar vertimą, bet ir tokius dalykus, kaip paprasta aritmetika ir programinės įrangos rašymas, kurie buvo numanomi mokymo duomenyse. 

 

Mažiau laiminga, tai taip pat reiškė, kad jie atkartojo jiems teikiamų duomenų šališkumą, o tai reiškė, kad jų produkcijoje išryškėjo daug žmonių visuomenėje vyraujančių išankstinių nusistatymų.

 

 2022 m. lapkritį visuomenei buvo pristatytas didesnis OpenAI modelis GPT-3.5 pokalbių roboto pavidalu. Kiekvienas, turintis žiniatinklio naršyklę, gali įvesti raginimą ir gauti atsakymą. Jokia plataus vartojimo prekė niekada nebuvo taip greitai išpopuliarėjusi. Per kelias savaites „ChatGPT“ sukūrė viską nuo kolegijos esė iki kompiuterio kodo. AI padarė dar vieną didelį šuolį į priekį.

 

 Pirmoji AI varomų produktų grupė buvo pagrįsta atpažinimu, o antroji – generavimu. Giluminio mokymosi modeliai, tokie, kaip Stable Diffusion ir DALL-E, kurie taip pat debiutavo maždaug tuo metu, naudojo techniką, vadinamą difuzija, kad teksto raginimus paverstų vaizdais. Kiti modeliai gali sukurti stebėtinai tikrovišką vaizdo įrašą, kalbą ar muziką.

 

 Šuolis nėra tik technologinis. Daiktų kūrimas daro skirtumą. „ChatGPT“ ir konkurentai, tokie, kaip „Gemini“ (iš „Google“) ir Claude'as (iš Anthropic, kurį anksčiau įkūrė OpenAI tyrėjai), pateikia skaičiavimų rezultatus, kaip ir kitos gilaus mokymosi sistemos. Tačiau tai, kad jie atsako į užklausas su naujovėmis, verčia juos jausti labai nepanašiais į programinę įrangą, kuri atpažįsta veidus, diktuoja ar verčia meniu. Atrodo, kad jie „naudoja kalbą“ ir „sudaro abstrakcijas“, kaip tikėjosi McCarthy.

 

 Šioje trumpų serijoje bus apžvelgta, kaip šie modeliai veikia, kiek dar gali išaugti jų galios, kokiems naujiems tikslams jie bus panaudoti, taip pat kam jie nebus arba neturėtų būti naudojami." [1]

 

1.  A short history of AI. The Economist; London Vol. 452, Iss. 9406,  (Jul 20, 2024): 53, 54.

Komentarų nėra: