Sekėjai

Ieškoti šiame dienoraštyje

2023 m. lapkričio 19 d., sekmadienis

Dirbtinio intelekto modeliai taps mažesni ir greitesni

  "Susidomėjimas dirbtiniu intelektu (AI) pasiekė karštligę 2023 m. Per šešis mėnesius po OpenAI 2022 m. lapkritį paleidimo ChatGPT, labiausiai žinomo ir veiksmingiausio interneto pokalbių roboto, temos "dirbtinis intelektas" populiarumas Google paieškos sistemoje išaugo beveik keturis kartus. Iki 2023 m. rugpjūčio mėn., trečdalis paskutinio McKinsey pasaulinio tyrimo respondentų teigė, kad jų organizacijos bent vienu pajėgumu naudoja generacinio AI pagalbą.

 

     Kaip ši technologija vystysis 2024 m.? Mokslininkai tobulina dirbtinio intelekto modelius trimis pagrindiniais aspektais: dydis, duomenys ir programos.

 

     Pradėkite nuo dydžio. Pastaruosius kelerius metus AI tyrimų dogma buvo tokia, kad didesnis reiškia geriau. Nors kompiuteriai mažėjo, net tapdami galingesni, tai netinka didelių kalbų modeliams (LLM), kurių dydis matuojamas milijardais ar trilijonais „parametrų“. Remiantis tyrimų įmonės „SemiAnalysis“, GPT-4, LLM, kuri maitina prabangią „ChatGPT“ versiją, duomenimis, reikėjo daugiau nei 16 000 specializuotų GPU lustų, o mokymas truko kelias savaites, o tai kainavo daugiau, nei 100 mln. dolerių. Anot „Nvidia“, lustų gamintojos, išvadų sąnaudos – išmokytų modelių atsakymai į vartotojų užklausas – dabar viršija mokymo išlaidas, diegiant LLM bet kokiu pagrįstu mastu.

 

     „Nėra jokios priežasties manyti, kad tai yra didžiausia nervų architektūra“

 

     Kai ai modeliai tampa komercinėmis prekėmis, vis daugiau dėmesio skiriama našumui palaikyti, tuo pačiu mažinant ir greitinant. Vienas iš būdų tai padaryti yra išmokyti mažesnį modelį, naudojant daugiau mokymo duomenų. Pavyzdžiui, „Chinchilla“, LLM, kurią 2022 m. sukūrė „Google DeepMind“, pranoksta OpenAI GPT-3, nepaisant to, kad ji yra ketvirtadalio dydžio (tik ji buvo apmokyta keturis kartus daugiau duomenų). 

 

Kitas būdas yra sumažinti modelio parametrų skaitinį tikslumą. 

 

Vašingtono universiteto komanda įrodė, kad Chinchilla dydžio modelį galima suspausti ant vieno GPU lusto be žymaus veikimo kritimo. Svarbiausia, kad maži modeliai vėliau būtų daug pigesni. Kai kurie netgi gali veikti nešiojamajame kompiuteryje ar išmaniajame telefone.

 

     Toliau duomenys. AI modeliai yra numatymo mašinos, kurios tampa veiksmingesnės, kai apmokomos su daugiau duomenų. 

 

Tačiau dėmesys taip pat pereina nuo „kiek“ prie „kaip gerai“. Tai ypač aktualu, nes vis sunkiau rasti daugiau mokymo duomenų: 2022 m. atlikta analizė parodė, kad per ateinančius kelerius metus naujo, kokybiško teksto atsargos gali išsekti. Naudojant modelių rezultatus, būsimiems modeliams mokyti gali atsirasti mažiau pajėgių modelių, taigi, priėmus LLM, internetas tampa mažiau vertingas, kaip mokymo duomenų šaltinis. Tačiau kiekis dar ne viskas. Išsiaiškinti tinkamą mokymo duomenų derinį vis dar yra daugiau menas, nei mokslas. O modeliai vis dažniau mokomi derinti duomenų tipų, įskaitant natūralią kalbą, kompiuterio kodą, vaizdus ir net video, o tai suteikia jiems naujų galimybių.

 

     Kokios naujos programos gali atsirasti? Kalbant apie ai, yra tam tikras „išsilenkimas“, o tai reiškia, kad jis pažengė į priekį greičiau, nei žmonės sugebėjo jį pasinaudoti. Parodymas, kas įmanoma, virto supratimu, kas yra praktiška. Didžiausią pažangą padarys ne pačių modelių kokybė, o mokymasis, kaip juos veiksmingiau naudoti.

 

     Šiuo metu yra trys pagrindiniai modelių naudojimo būdai. Pirmasis, „prompt engineering“, priima juos tokius, kokie jie yra, ir pateikia specifinius raginimus. Šis metodas apima įvesties frazių ar klausimų kūrimą, padedančius modeliui gauti norimus rezultatus. 

 

Antrasis – „tiksliai sureguliuoti“ modelį, siekiant pagerinti jo našumą atliekant konkrečią užduotį. Tai reiškia, kad jau egzistuojančiam modeliui suteikiamas papildomas mokymas naudojant siaurą duomenų rinkinį, pritaikytą tai užduočiai.

 

 Pavyzdžiui, LLM galėtų būti sureguliuotas naudojant medicinos žurnalų straipsnius, kad būtų lengviau atsakyti į su sveikata susijusius klausimus. 

 

Trečias būdas yra integruoti LLM į didesnę, galingesnę architektūrą. LLM yra kaip variklis, ir norėdami jį panaudoti tam tikrai programai, turite aplink jį pastatyti automobilį.

 

     Vienas iš pavyzdžių yra „patobulinta paieška“ – technika, kuri sujungia LLM su papildoma programine įranga ir tam tikros temos žinių duomenų baze, kad būtų mažiau tikėtina, kad išspjautų melą. Uždavus klausimą, sistema pirmiausia atlieka paiešką savo duomenų bazėje. Jei randa ką nors svarbaus, ji perduoda klausimą kartu su faktine informacija LLM, prašydama, kad atsakymas būtų sugeneruotas iš pateiktos informacijos. Tokiu būdu pateikiant šaltinius, vartotojai gali labiau pasitikėti atsakymų tikslumu. Tai taip pat leidžia suasmeninti LLM, pvz., „Google NotebookLM“, leidžiančią vartotojams pateikti savo žinių duomenų bazes.

 

     Visą dėmesį skiriant AI komerciniam potencialui, dirbtinio bendrojo intelekto medžioklė tęsiasi. LLM ir kitos generatyvinės pagalbos formos gali būti galvosūkio dalis arba žingsnis kelyje, tačiau, tikriausiai, tai nėra galutinis atsakymas. Kaip sako Chrisas Manningas iš Stanfordo universiteto: „nėra jokios priežasties manyti, kad tai yra didžiausia neuronų architektūra, ir mes niekada nerasime nieko geresnio“ [1].

 

·  ·  ·  1. Bertics, Abby. "AI models will become smaller and faster." The Economist, 13 Nov. 2023, p. NA.

Komentarų nėra: