Sekėjai

Ieškoti šiame dienoraštyje

2024 m. rugsėjo 4 d., trečiadienis

Generatyvinio dirbtinio intelekto modeliai


 "Įveskite klausimą į ChatGPT ir atsakymas bus matomas. Įveskite raginimą į DALL-E 3 ir atsiras vaizdas. Spustelėkite TikTok puslapį "Jums" ir jums bus pateikti vaizdo įrašai pagal jūsų skonį. Paklauskite Siri apie orus ir po akimirkos tai bus jums pasakyta.

 

 Visi šie dalykai yra maitinami dirbtinio intelekto (AI) modeliais. Dauguma remiasi neuroniniu tinklu, apmokytu didžiuliu kiekiu informacijos – teksto, vaizdų ir panašiai – atsižvelgiant į tai, kaip jis bus naudojamas.

 

 Per daug bandymų ir klaidų jungčių tarp imituojamų neuronų svoriai sureguliuojami, remiantis šiais duomenimis, panašiai, kaip koreguojami milijardai ratukų, kol tam tikros įvesties išvestis bus patenkinama.

 

 Yra daug būdų, kaip sujungti ir sluoksniuoti neuronus į tinklą. Šių architektūrų pažanga padėjo tyrėjams sukurti neuroninius tinklus, kurie gali efektyviau mokytis ir iš esamų duomenų rinkinių gauti daugiau naudingų išvadų, o tai paskatino didžiąją dalį pastarojo meto AI pažangos.

 

 Didžioji dalis dabartinių įspūdžių buvo nukreipta į dvi modelių šeimas: teksto didelius kalbos modelius (LLM) ir vaizdų sklaidos modelius. Jie yra gilesni (ty juose yra daugiau neuronų sluoksnių), nei anksčiau, ir yra sutvarkyti taip, kad jie galėtų greitai pereiti prie daugybės duomenų.

 

 LLM, pvz., GPT, Gemini, Claude ir Llama, yra sukurti pagal vadinamąją transformatorių architektūrą. 2017 m. pristatė Ashish Vaswani ir jo komanda „Google Brain“, pagrindinis transformatorių principas yra „dėmesio“. Dėmesio sluoksnis leidžia modeliui sužinoti, kaip keli įvesties aspektai, pvz., tam tikru atstumu vienas nuo kito esantys žodžiai tekste, yra susiję vienas su kitu, ir į tai atsižvelgti, formuojant išvestį. Daug dėmesio sluoksnių iš eilės leidžia modeliui išmokti asociacijas skirtingais detalumo lygiais – tarp žodžių, frazių ar net pastraipų. Šis metodas taip pat puikiai tinka diegti grafikos apdorojimo bloko (GPU) lustuose, o tai leido padidinti šių modelių mastelį ir, savo ruožtu, padidino Nvidia, pasaulyje pirmaujančios GPU gamintojos, rinkos kapitalizaciją.

 

 Transformatorių modeliai gali generuoti vaizdus ir tekstą. Pirmoji DALL-E versija, kurią OpenAI išleido 2021 m., buvo transformatorius, išmokęs susieti vaizdo taškų grupes, o ne žodžius tekste. Abiem atvejais neuroninis tinklas tai, ką mato, paverčia skaičiais ir atlieka su jais matematiką (konkrečiai, matricos operacijas). Tačiau transformatoriai turi savo apribojimų. Jie stengiasi išmokti nuoseklių pasaulio modelių. Pavyzdžiui, pateikdami žmogaus užklausas, jie prieštaraus sau nuo vieno atsakymo iki kito, „nesuprasdami“, kad pirmasis atsakymas padaro antrąjį beprasmišką (arba atvirkščiai), nes jie iš tikrųjų „nežino“ nei vieno atsakymo – tiesiog tam tikrų žodžių eilučių asociacijas, kurios atrodo, kaip atsakymai.

 

 Ir, kaip daugelis dabar žino, transformatorių modeliai yra linkę į vadinamąsias „haliucinacijas“, kai jie pateikia patikimai atrodančius, bet neteisingus atsakymus ir juos patvirtinančias citatas. Panašiai ankstyvųjų transformatorių modelių sukurti vaizdai dažnai pažeisdavo fizikos taisykles ir kitais būdais buvo neįtikimi (tai gali būti kai kurių vartotojų vertinama savybė, tačiau tai buvo klaida dizaineriams, kurie siekė sukurti tikroviškus vaizdus). Reikėjo kitokio modelio.

 

 Ne mano arbatos puodelis

 

 Įveskite difuzijos modelius, kurie gali sukurti daug tikroviškesnius vaizdus. Pagrindinę idėją jiems įkvėpė fizinis sklaidos procesas. Jei arbatos pakelį įdėsite į puodelį karšto vandens, arbatos lapai ims ekstrahuotis, arbatos spalva prasiskverbia ir susilieja į skaidrų vandenį. Palikite kelias minutes ir puodelyje esantis skystis taps vienodos spalvos. Fizikos dėsniai diktuoja šį sklaidos procesą. Nors galite naudoti fizikos dėsnius, norėdami nuspėti, kaip arbata pasklis, taip pat galite pakeisti šį procesą, kad atkurtumėte, kur ir kaip arbatos maišelis galėjo būti padėtas. Realiame gyvenime antrasis termodinamikos dėsnis daro šią gatvę vienpuse; negalima grąžinti originalaus arbatos pakelio iš puodelio. Tačiau išmokus imituoti šią, entropiją keičiančią, kelionę atgal, galima sukurti tikrovišką vaizdą.

 

 Treniruotės veikia taip. Nufotografuojate vaizdą ir palaipsniui taikote daugiau suliejimo ir triukšmo, kol jis atrodo visiškai atsitiktinis. Tada ateina sudėtingoji dalis: pakeisti šį procesą, kad būtų atkurtas originalus vaizdas, pavyzdžiui, atgauti arbatos maišelį iš arbatos puodelio su vandeniu. Tai atliekama, naudojant „savarankišką mokymąsi“, panašiai kaip LLM mokomi teksto: uždengiami sakinio žodžiai ir mokomasi nuspėti trūkstamus žodžius per bandymus ir klaidas. Vaizdų atveju tinklas išmoksta pašalinti vis didėjantį triukšmą, kad būtų atkurtas originalus vaizdas. Veikdamas per milijardus vaizdų, mokydamasis šablonų, reikalingų iškraipymams pašalinti, tinklas įgyja galimybę sukurti visiškai naujus vaizdus iš nieko daugiau, kaip tik atsitiktinis triukšmas.

 

 Daugumoje naujausių vaizdo generavimo sistemų naudojamas difuzijos modelis, nors jos skiriasi tuo, kaip „mažina triukšmą“ arba keičia iškraipymus. „Stable Diffusion“ (iš „Stability AI“) ir „Imagen“, abu išleisti 2022 m., naudojo architektūros, vadinamos konvoliuciniu neuroniniu tinklu (CNN), variantus, kurie gerai analizuoja į tinklelį panašius duomenis, pvz., pikselių eilutes ir stulpelius. Tiesą sakant, CNN per savo įvestį perkelia mažus stumdomus langus aukštyn ir žemyn, ieškodami konkrečių artefaktų, tokių, kaip raštai ir kampai. Tačiau nors CNN puikiai veikia su pikseliais, kai kurie naujausi vaizdo generatoriai naudoja vadinamuosius difuzijos transformatorius, įskaitant naujausią „Stability AI“ modelį „Stable Diffusion 3“. Išmokę difuzijos, transformatoriai daug geriau suvokia, kaip įvairios vaizdo dalys. ar vaizdo kadras yra susiję vienas su kitu ir kaip stipriai ar silpnai jie tai daro, todėl gaunami tikroviškesni rezultatai (nors jie vis tiek daro klaidų).

 

 Rekomendacinės sistemos yra dar vienas žuvies akvariumas. Retai kada pavyksta pažvelgti į jo vidų, nes įmonės, kuriančios ir naudojančios rekomendacinius algoritmus, yra labai slaptos. Tačiau 2019 m. „Meta“, tada „Facebook“, paskelbė išsamią informaciją apie savo gilaus mokymosi rekomendacijų modelį (DLRM). Modelį sudaro trys pagrindinės dalys. Pirma, ji paverčia įvestus duomenis (pvz., vartotojo amžių ar „patinka“ paspaudimus platformoje arba turinį, kurį jie suvartojo) į „įterpimus“. Jis išmoksta taip, kad panašūs dalykai (pvz., tenisas ir stalo tenisas) yra arti vienas kito šioje įterpimo erdvėje.

 

 Tada DLRM naudoja neuroninį tinklą, kad padarytų tai, kas vadinama matricos faktorizavimu. Įsivaizduokite skaičiuoklę, kurioje stulpeliai yra vaizdo įrašai, o eilutės – skirtingi vartotojai. Kiekvienoje langelyje nurodoma, kiek kiekvienam vartotojui patinka kiekvienas vaizdo įrašas. Tačiau dauguma tinklelio langelių yra tušti. Rekomendacijos tikslas – numatyti visų tuščių langelių prognozes. Vienas iš būdų, kaip DLRM gali tai padaryti, yra padalinti tinklelį (matematine prasme, suskaidyti matricą) į du tinklelius: vieną, kuriame yra duomenys apie vartotojus, ir kitą, kuriame yra duomenys apie vaizdo įrašus. Iš naujo sujungus šiuos tinklelius (arba padauginus matricas) ir įvedus rezultatus į kitą neuroninį tinklą, kad būtų galima tiksliau nustatyti skaičių, galima užpildyti tinklelio langelius, kurie anksčiau buvo tušti, ty numatyti, kiek kiekvienam vartotojui patiks kiekvienas vaizdo įrašas.

 

 Tas pats metodas gali būti taikomas reklamai, dainoms srautinio perdavimo paslaugoje, produktams el. prekybos platformoje ir kt. Technologijų įmones labiausiai domina modeliai, kurie puikiai atlieka tokias, komerciškai naudingas, užduotis, kaip šios. Tačiau, norint naudoti šiuos modelius dideliu mastu, reikia labai gilių kišenių, didžiulio duomenų kiekio ir didžiulės apdorojimo galios.

 

 Palaukite, kol pamatysite kitų metų modelį

 

 Akademiniame kontekste, kur duomenų rinkiniai yra mažesni ir biudžetai riboti, kitų tipų modeliai yra praktiškesni. Tai apima pasikartojančius neuroninius tinklus (skirta analizuoti duomenų sekas), variacinius autokoduotojus (skirti duomenų šablonams nustatyti), generatyvius priešingus tinklus (kur vienas modelis išmoksta atlikti užduotį pakartotinai, bandydamas apgauti kitą modelį) ir grafikų neuroninius tinklus (skirti numatyti sudėtingų sąveikų rezultatus).

 

 Lygiai taip pat, kaip gilieji neuroniniai tinklai, transformatoriai ir difuzijos modeliai padarė šuolį nuo tyrimų įdomybių iki plataus diegimo, šių kitų modelių funkcijos ir principai bus panaudoti ir įtraukti į būsimus AI modelius. Transformatoriai yra labai efektyvūs, tačiau neaišku, ar jų padidinimas gali išspręsti jų polinkį į haliucinacijas ir polinkį daryti logines klaidas samprotaujant. Jau ieškoma „post-transformatorinių“ architektūrų, nuo „būsenos erdvės modelių“ iki „neurosimbolinio“ dirbtinio intelekto, kurie galėtų įveikti tokius trūkumus ir įgalinti kitą šuolį į priekį. Idealiu atveju tokia architektūra derintų dėmesį su didesniu mąstymo meistriškumu. Šiuo metu dar nė vienas žmogus nežino, kaip sukurti tokį modelį. Galbūt, kada nors dirbtinio intelekto modelis atliks šį darbą." [1]

 

1.  Fashionable models. The Economist; London Vol. 452, Iss. 9409,  (Aug 10, 2024): 54, 55.

Komentarų nėra: