„1956 m. vasarą
Dartmuto koledže Naujajame Hampšyre susirinko nedidelė, bet garsi grupė; į ją
buvo įtrauktas Claude'as Shannonas, informacijos teorijos pradininkas, ir
Herbas Simonas, vienintelis asmuo, kada nors laimėjęs Nobelio atminimo
ekonomikos mokslų premiją, kurią skyrė Švedijos karališkoji mokslų akademija ir
Kompiuterinių mašinų asociacijos suteiktą Turingo apdovanojimą. Juos sukvietė
jaunas mokslininkas Johnas McCarthy, norėdamas aptarti, „kaip priversti mašinas
naudoti kalbą, formuoti abstrakcijas ir sąvokas“. Tai buvo pirmasis
akademinis susibūrimas, skirtas tam, ką McCarthy pavadino „dirbtiniu
intelektu“, ir tai buvo šablonas ateinantiems 60 metų, kad būtų nepasiekta jokia
pažanga, nepaisant jų ambicijos.
Dartmuto susitikimas
nepažymėjo mokslinių tyrimų apie mašinas, galinčias mąstyti, kaip žmonės,
pradžią. Alanas Turingas, kuriam pavadinta Tiuringo premija, apie tai susimąstė;
taip padarė ir Johnas von Neumannas, McCarthy įkvėpėjas. 1956 m. jau buvo daug
požiūrių į šį klausimą; Istorikai mano, kad viena iš priežasčių, kodėl McCarthy
savo projektui sukūrė terminą dirbtinis intelektas, vėliau AI, buvo ta, kad jis
buvo pakankamai platus, kad apimtų juos visus, todėl klausimas, kuris iš jų galėtų
būti geriausias, lieka atviras. Kai kurie tyrinėtojai pirmenybę teikė sistemoms,
pagrįstoms faktų apie pasaulį derinimu su aksiomomis, tokiomis, kaip geometrija
ir simbolinė logika, kad būtų galima padaryti išvadas apie tinkamus atsakymus;
kiti pirmenybę teikė pastatų sistemoms, kuriose vieno dalyko tikimybė priklausė
nuo nuolat atnaujinamų daugelio kitų tikimybių.
Vėlesniais
dešimtmečiais buvo daug intelektualinio ažiotažo ir ginčų šia tema, tačiau
devintajame dešimtmetyje buvo pasiektas platus sutarimas dėl tolesnio kelio:
„ekspertų sistemos“, kurios naudojo simbolinę logiką, kad gautų ir pritaikytų
geriausias žmogaus žinias. Visų pirma Japonijos vyriausybė prisilaikė tokių
sistemų ir joms reikalingos techninės įrangos idėjos. Tačiau dažniausiai tokios
sistemos pasirodė pernelyg nelanksčios, kad susidorotų su realaus pasaulio netvarka.
Iki devintojo dešimtmečio pabaigos dirbtinis intelektas buvo nukritęs į
nešvankybę, o tai buvo priežodis, reiškiantis pernelyg daug žadantį ir
nepakankamą rezultatą. Tie tyrėjai, vis dar dirbantys šioje srityje, pradėjo
vengti šio termino.
Būtent iš vienos iš
tų atkaklumo kišenių gimė šiandieninis bumas. Kai 1940-aisiais buvo sujungtos
smegenų ląstelių – tam tikro tipo neuronų – darbo užuomazgos, kompiuterių
mokslininkai pradėjo domėtis, ar mašinos gali būti sujungtos taip pat.
Biologinėse smegenyse yra jungtys tarp neuronų, kurios leidžia aktyvumui
viename sukelti arba slopinti kito aktyvumą; tai, ką daro vienas neuronas,
priklauso nuo to, ką veikia kiti su juo susiję neuronai. Pirmasis bandymas tai
modeliuoti laboratorijoje (Marvin Minsky, Dartmouth dalyvis) naudojo aparatinę
įrangą neuronų tinklams modeliuoti. Nuo tada programine įranga buvo imituojami
tarpusavyje sujungtų neuronų sluoksniai.
Šie dirbtiniai
neuroniniai tinklai nėra užprogramuoti, naudojant aiškias taisykles; vietoj to
jie „mokosi“ gavę daugybę pavyzdžių. Šios treniruotės metu jungčių tarp neuronų
stiprumas (žinomas, kaip „svoriai“) pakartotinai koreguojamas taip, kad
galiausiai tam tikra įvestis sukurtų tinkamą išvestį. Pats Minskis šios idėjos
atsisakė, bet kiti jos ėmėsi. Dešimtojo dešimtmečio pradžioje neuroniniai
tinklai buvo išmokyti daryti tokius dalykus, kaip padėti rūšiuoti įrašus,
atpažįstant ranka rašytus skaičius. Tyrėjai manė, kad pridėjus daugiau neuronų
sluoksnių, būtų galima pasiekti sudėtingesnių pasiekimų. Tačiau tai taip pat
privertė sistemas veikti daug lėčiau.
Nauja kompiuterio
aparatinė įranga padėjo išspręsti problemą. Jo potencialas buvo dramatiškai
parodytas 2009 m., kai Stanfordo universiteto mokslininkai padidino greitį,
su kuriuo neuroninis tinklas gali veikti 70 kartų, naudodamiesi žaidimų
kompiuteriu savo bendrabučio kambaryje. Tai buvo įmanoma, nes, kaip ir visuose
kompiuteriuose esantis „centrinis procesorius“ (cpu), šis taip pat turėjo
„grafikos apdorojimo bloką“ (gpu), kad būtų galima sukurti žaidimų pasaulius
ekrane. GPU buvo sukurtas taip, kad būtų tinkamas neuroninio tinklo kodui
paleisti.
Sujungus šį
aparatinės įrangos pagreitį su efektyvesniais mokymo algoritmais, tinklai su
milijonais jungčių galėjo būti apmokyti per protingą laiką; neuroniniai tinklai
galėtų apdoroti didesnes įvestis ir, svarbiausia, jiems būtų suteikta daugiau
sluoksnių. Šie „gilesni“ tinklai pasirodė esą daug pajėgesni.
Šio naujo požiūrio,
kuris buvo žinomas, kaip „gilus mokymasis“, galia išryškėjo 2012 m. „ImageNet
Challenge“. Iššūkyje konkuruojančioms vaizdo atpažinimo sistemoms buvo suteikta
daugiau, nei milijono, pažymėtų vaizdo failų duomenų bazė. Bet kuriam žodžiui,
pavyzdžiui, „šuo“ ar „katė“, duomenų bazėje buvo keli šimtai nuotraukų. Vaizdo
atpažinimo sistemos būtų apmokytos, naudojant šiuos pavyzdžius, „sužymėti“
įvestį vaizdų pavidalu į išvestį vieno žodžio aprašymo forma. Tada sistemos
buvo užginčytos sukurti tokius aprašymus, kai pateikiami anksčiau nematyti
bandomieji vaizdai. 2012 m. komanda, vadovaujama Geoffo Hintono, iš tuometinio
Toronto universiteto, naudojo gilų mokymąsi, kad pasiektų 85 % tikslumą. Tai
akimirksniu buvo pripažinta, kaip proveržis.
Iki 2015 m. beveik
visi, vaizdo atpažinimo srityje dirbantys, asmenys naudojo gilų mokymąsi, o
„ImageNet Challenge“ nugalėtojų tikslumas siekė 96 % – geriau, nei vidutinis
žmogaus rezultatas. Gilus mokymasis taip pat buvo taikomas, sprendžiant daugybę
kitų „problemų, skirtų žmonėms“, kurias galima susiaurinti iki vieno tipo
dalykų susiejimo su kitais: kalbos atpažinimas (garso susiejimas su tekstu),
veido atpažinimas (veidų susiejimas su vardais) ir vertimas.
Visose šiose
programose didžiulis duomenų kiekis, kurį buvo galima pasiekti internetu, buvo
labai svarbus sėkmei; be to, internetu besinaudojančių, žmonių skaičius bylojo
apie didelių rinkų galimybę. Ir kuo didesni (ty gilesni) tinklai buvo sukurti
ir kuo daugiau mokymo duomenų jiems buvo suteikta, tuo labiau pagerėjo jų
veikimas.
Gilus mokymasis
netrukus buvo pritaikytas visuose naujuose produktuose ir paslaugose. Atsirado
balsu valdomi įrenginiai, tokie, kaip „Amazon“ „Alexa“. Internetinės
transkripcijos paslaugos tapo naudingos. Interneto naršyklės siūlė automatinius
vertimus. Pasakyti, kad tokius dalykus įgalino dirbtinis intelektas, ėmė
skambėti šauniai, o ne gėdingai, nors tai taip pat buvo šiek tiek perteklinis dalykas; beveik visos technologijos, anksčiau ir dabar vadinamos AI, iš tikrųjų
priklauso nuo gilaus mokymosi po variklio dangčiu.
2017 m. prie
kiekybinės naudos buvo pridėtas kokybinis pokytis, kurį suteikia didesnė
skaičiavimo galia ir daugiau duomenų: naujas būdas sudaryti jungtis tarp neuronų,
vadinamas transformatoriumi. Transformatoriai leidžia neuroniniams tinklams
sekti įvesties šablonus, net jei modelio elementai yra toli vienas nuo kito,
tokiu būdu, kad jie galėtų skirti „dėmesį“ tam tikroms duomenų savybėms.
Transformatoriai
leido tinklams geriau suvokti kontekstą, o tai jiems pritaikė metodiką,
vadinamą „savęs prižiūrimu mokymusi“. Iš esmės kai kurie žodžiai treniruočių
metu atsitiktinai ištrinami, o modelis pats mokosi užpildyti labiausiai tikėtiną
kandidatą. Kadangi mokymo duomenų nereikia iš anksto pažymėti, tokius modelius
galima apmokyti, naudojant milijardus žodžių neapdoroto teksto, paimto iš
interneto.
Atsižvelkite į savo
kalbos modelį
Transformatoriumi
pagrįsti didelių kalbų modeliai (LLM) pradėjo pritraukti platesnį dėmesį 2019
m., kai startuolis OpenAI (GPT reiškia generatyvų iš anksto parengtą
transformatorių) išleido modelį, pavadintą GPT-2. Paaiškėjo, kad tokie LLM gali
„pademonstruoti“ elgesį, kurio jie nebuvo specialiai apmokyti. Įsisavinę didžiulį
kalbos kiekį, jie ne tik stebėtinai sugebėjo atlikti kalbines užduotis, pvz.,
apibendrinimą ar vertimą, bet ir tokius dalykus, kaip paprasta aritmetika ir
programinės įrangos rašymas, kurie buvo numanomi mokymo duomenyse.
Mažiau
laiminga, tai taip pat reiškė, kad jie atkartojo jiems teikiamų duomenų
šališkumą, o tai reiškė, kad jų produkcijoje išryškėjo daug žmonių visuomenėje
vyraujančių išankstinių nusistatymų.
2022 m. lapkritį
visuomenei buvo pristatytas didesnis OpenAI modelis GPT-3.5 pokalbių roboto
pavidalu. Kiekvienas, turintis žiniatinklio naršyklę, gali įvesti raginimą ir
gauti atsakymą. Jokia plataus vartojimo prekė niekada nebuvo taip greitai
išpopuliarėjusi. Per kelias savaites „ChatGPT“ sukūrė viską nuo kolegijos esė
iki kompiuterio kodo. AI padarė dar vieną didelį šuolį į priekį.
Pirmoji AI varomų
produktų grupė buvo pagrįsta atpažinimu, o antroji – generavimu. Giluminio
mokymosi modeliai, tokie, kaip Stable Diffusion ir DALL-E, kurie taip pat
debiutavo maždaug tuo metu, naudojo techniką, vadinamą difuzija, kad teksto
raginimus paverstų vaizdais. Kiti modeliai gali sukurti stebėtinai tikrovišką
vaizdo įrašą, kalbą ar muziką.
Šuolis nėra tik
technologinis. Daiktų kūrimas daro skirtumą. „ChatGPT“ ir konkurentai, tokie,
kaip „Gemini“ (iš „Google“) ir Claude'as (iš Anthropic, kurį anksčiau įkūrė
OpenAI tyrėjai), pateikia skaičiavimų rezultatus, kaip ir kitos gilaus mokymosi
sistemos. Tačiau tai, kad jie atsako į užklausas su naujovėmis, verčia juos
jausti labai nepanašiais į programinę įrangą, kuri atpažįsta veidus, diktuoja
ar verčia meniu. Atrodo, kad jie „naudoja kalbą“ ir „sudaro abstrakcijas“, kaip
tikėjosi McCarthy.
Šioje trumpų serijoje
bus apžvelgta, kaip šie modeliai veikia, kiek dar gali išaugti jų galios,
kokiems naujiems tikslams jie bus panaudoti, taip pat kam jie nebus arba
neturėtų būti naudojami." [1]