„Didelių kalbų
modeliai (LLM), tokie, kaip GPT, Bard ir Llama 2, patraukė visuomenės vaizduotę
ir sulaukė įvairiausių reakcijų. Šiame straipsnyje apžvelgiamas ažiotažas,
padedantis suprasti didelių kalbų modelių kilmę ir jų veikimo būdą, sukurimą ir
apmokymą, ir įvairias užduotis, kurioms jie specializuojasi. Taip pat
apžvelgsime populiariausius, šiandien naudojamus, LLM.
Kas yra didelės
kalbos modelis?
Kalbos modeliai
siekia dvidešimtojo amžiaus pradžią, tačiau dideli kalbų modeliai (LLM)
atsirado po to, kai buvo įdiegti neuroniniai tinklai. Transformatoriaus
giluminio neuroninio tinklo architektūra, pristatyta 2017 m., buvo ypač svarbi
evoliucijai nuo kalbos modelių iki LLM.
Dideli kalbų modeliai
yra naudingi, atliekant įvairias užduotis, įskaitant teksto generavimą iš
aprašomojo raginimo, kodo generavimą ir kodo užbaigimą, teksto apibendrinimą,
vertimą iš vienos kalbos į kitą ir teksto į šnekamąją kalbą bei šnekamosios kalbos keitimo į tekstą
programas.
LLM taip pat turi
trūkumų, bent jau dabartiniame vystymosi etape. Sukurtas tekstas dažniausiai
būna vidutiniškas, o kartais ir komiškai blogas. Yra žinoma, kad LLM išranda
faktus, vadinamus haliucinacijomis, kurios gali atrodyti pagrįstos, jei
nežinote geriau. Kalbos vertimai retai būna 100 % tikslūs, nebent juos
patikrintų tie, kuriems tai yra gimtoji kalba, o tai paprastai daroma tik įprastoms frazėms.
Sugeneruotas kodas dažnai turi klaidų ir kartais neturi vilties būti paleistas. Nors
LLM paprastai yra sureguliuoti, kad būtų išvengta prieštaringų pareiškimų ar
rekomendacijų atlikti neteisėtus veiksmus, šiuos apsauginius turėklus galima
pažeisti, naudojant kenkėjiškus raginimus.
Didelių kalbų modelių
mokymui reikalingas bent vienas didelis teksto korpusas. Mokymo pavyzdžiai
apima 1B Word etaloną, Wikipedia, Toronto Books Corpus, Common Crawl duomenų
rinkinį ir viešąsias atvirojo kodo GitHub saugyklas. Dvi galimos didelių teksto
duomenų rinkinių problemos yra autorių teisių pažeidimas ir šiukšlės. Autorių
teisių pažeidimas šiuo metu yra daugelio ieškinių objektas. Šiukšles bent jau
galima išvalyti; išvalyto duomenų rinkinio pavyzdys yra „Colossal Clean Crawled
Corpus“ (C4), 800 GB duomenų rinkinys, pagrįstas „Common Crawl“ duomenų
rinkiniu.
Kartu su bent vienu
dideliu treniruočių korpusu, LLM reikia daug parametrų, dar vadinamų svoriais.
Bėgant metams, parametrų skaičius augo. ELMo (2018) turi 93,6
mln. parametrų; BERT (2018) buvo išleistas 100 milijonų ir 340 milijonų
parametrų dydžių; GPT (2018) naudoja 117 milijonų parametrų; ir T5 (2020 m.)
turi 220 milijonų parametrų. GPT-2 (2019) turi 1,6 milijardo parametrų; GPT-3
(2020) naudoja 175 milijardus parametrų; o PaLM (2022) turi 540 milijardų
parametrų. GPT-4 (2023) turi 1,76 trilijono parametrų.
Dėl daugiau parametrų
modelis tampa tikslesnis, tačiau modeliams su aukštesniais parametrais taip pat
reikia daugiau atminties ir jie veikia lėčiau.
2023 m. pradėjome matyti kai
kuriuos santykinai mažesnius įvairių dydžių modelius: pavyzdžiui, „Llama 2“ yra
7 milijardų, 13 milijardų ir 70 milijardų, o Claude 2 – 93 milijardų ir 137
milijardų parametrų. .
Dirbtinio intelekto (AI) modelių, skirtų
tekstui generuoti, istorija
Kalbos modeliai
siekia Andrejų Markovą, kuris 1913 m. pritaikė matematiką poezijoje. Markovas
parodė, kad Puškino „Eugenijus Oneginas“ raidės atsiradimo tikimybė priklausė
nuo ankstesnės raidės ir kad apskritai priebalsiai ir balsės buvo linkę
kaitalioti. Šiandien Markovo grandinės naudojamos apibūdinti įvykių seką,
kurioje kiekvieno įvykio tikimybė priklauso nuo ankstesnio įvykio būsenos.
Markovo darbą 1948 m.
išplėtė Claude'as Shannonas, skirdamas komunikacijos teorijai, o 1985 m. – Fredas
Jelinekas ir Robertas Merceris iš IBM, kad sukurtų kalbos modelį, pagrįstą
kryžminiu patvirtinimu (kuriuos jie vadino išbrauktais įvertinimais), ir
pritaikytas realiu laiku didelio žodyno kalbos atpažinimui. Iš esmės
statistinis kalbos modelis priskiria tikimybes žodžių sekoms.
Norėdami greitai
pamatyti veikiantį kalbos modelį, tiesiog įveskite kelis žodžius į „Google“
paiešką arba teksto pranešimų programą telefone, kai įjungtas automatinis
užbaigimas.
2000 m. Yoshua Bengio
ir bendraautoriai paskelbė dokumentą, kuriame išsamiai aprašomas neuroninis
tikimybinis kalbos modelis, kuriame neuroniniai tinklai pakeičia tikimybes
statistiniame kalbos modelyje, aplenkdami matmenų prakeiksmą ir pagerindami
žodžių numatymą, lyginant su išlygintu trigramos modeliu (tuo metu meno lygis) nuo 20
% iki 35 %. Kalbos automatinio regresinio neuroninio tinklo modelių idėja
tebenaudojama ir šiandien, nors dabar modeliai turi milijardus parametrų ir yra
parengti, naudojant plačius korpusus; taigi terminas „didelis kalbos modelis“.
Kalbos modeliai,
laikui bėgant, vis tobulėjo, siekiant pagerinti našumą. Tačiau toks augimas turi
ir minusų. 2021 m. straipsnyje „Apie stochastinių papūgų pavojų: ar kalbos
modeliai gali būti per dideli?“ keliama klausimų, ar mes per toli einame su
tendencija „didesnis yra geriau“.Autoriai siūlo pirmiausia pasverti aplinkos ir
finansines išlaidas ir investuoti išteklius į duomenų rinkinių kuravimą ir
dokumentavimą, o ne viską, kas yra žiniatinklyje.
Kalbų modeliai ir LLM
paaiškinami žemiau
Dabartiniai kalbų
modeliai turi įvairių užduočių ir tikslų ir yra įvairių formų. Pavyzdžiui, be
užduoties nuspėti kitą dokumente esantį žodį, kalbos modeliai gali generuoti
originalų tekstą, klasifikuoti tekstą, atsakyti į klausimus, analizuoti jausmus,
atpažinti įvardintus subjektus, atpažinti kalbą, atpažinti tekstą vaizduose ir
atpažinti rašyseną. Kalbos modelių pritaikymas konkrečioms užduotims atlikti,
paprastai naudojant mažus ir vidutinio dydžio papildomus mokymo rinkinius,
vadinamas koregavimu.
Kai kurios tarpinės
užduotys, kurios patenka į kalbos modelius, yra šios:
* Mokymo korpuso
segmentavimas į sakinius
* Žodžių
tokenizavimas
* Stiebas
* Lematizavimas
(konvertavimas į pagrindinį žodį)
* POS (kalbos dalies)
žymėjimas
* Sustojimo ženklo
identifikavimas ir (galbūt) pašalinimas
* Pavadinto subjekto
atpažinimas (NER)
* Teksto
klasifikacija
* Suskaidymas
(sakinių skaidymas į prasmingas frazes)
* Nuorodų skiriamoji
geba (visų posakių, nurodančių tą patį teksto objektą, radimas)
Kai kurie iš jų taip
pat yra naudingi, kaip užduotys ar programos, pvz., teksto klasifikavimas.
Dideli kalbų modeliai
skiriasi nuo tradicinių kalbų modelių tuo, kad juose naudojamas gilus mokymosi
neuroninis tinklas ir didelis mokymo korpusas, be to, jiems reikia milijonų ar
daugiau neuroninio tinklo parametrų ar svorių. Mokant LLM, reikia optimizuoti
svorius, kad modelio klaidų lygis būtų kuo mažesnis, atliekant jam paskirtą
užduotį. Pavyzdinė užduotis būtų nuspėti kitą žodį bet kuriame korpuso taške,
paprastai savarankiškai prižiūrint.
Žvilgsnis į
populiariausius LLM
Pastarąjį didelių
kalbų modelių sprogimą paskatino 2017 m. leidinys „Attention is All You Need“,
kuriame „Transformer“ pristatoma kaip „nauja paprasta tinklo architektūra,
pagrįsta tik dėmesio mechanizmais, visiškai atsisakant pasikartojimo ir
vingių“.
Štai keletas
populiariausių šiandien naudojamų didelių kalbų modelių.
ELMo
ELMo yra 2018 m.
giliai kontekstualizuotas žodžių vaizdavimo LLM iš AllenNLP, kuris modeliuoja
sudėtingas žodžių vartojimo ypatybes ir tai, kaip šis vartosena skiriasi
įvairiuose kalbiniuose kontekstuose. Originalus modelis turi 93,6 milijono
parametrų ir buvo apmokytas pagal 1B Word etaloną.
BERT
BERT yra 2018 m.
„Google AI“ sukurtas kalbos modelis, pagrįstas bendrovės „Transformer“
neuroninio tinklo architektūra. BERT buvo sukurta tam, kad iš anksto išmokytų
gilų dvikryptį atvaizdavimą iš nepažymėto teksto, bendrai nustatant tiek
kairiajame, tiek dešiniajame kontekste visuose sluoksniuose. Iš pradžių buvo
naudojami du modelių dydžiai – 100 milijonų ir 340 milijonų bendrų parametrų.
LLM naudoja maskuotos kalbos modeliavimą (MLM), kuriame ~15% žetonų yra
„sugadinami“ mokymui. Jis buvo apmokytas anglų kalbos Vikipedijoje ir Toronto
knygų korpuse.
T5
2020 m. „Google“
sukurtas teksto į tekstą perdavimo transformatoriaus (T5) modelis sintezuoja
naują modelį, pagrįstą geriausiais GPT, ULMFiT, ELMo, BERT ir jų įpėdinių
perdavimo mokymosi metodais. Jis naudoja atvirojo kodo Colossal Clean Crawled
Corpus (C4) kaip išankstinio mokymo duomenų rinkinį. Standartinis C4 anglų
kalba yra 800 GB duomenų rinkinys, pagrįstas originaliu „Common Crawl“ duomenų
rinkiniu. T5 perfrazuoja visas NLP užduotis į vieningą teksto į tekstą formatą,
kuriame įvestis ir išvestis visada yra teksto eilutės, priešingai, nei BERT
modeliai, kurie gali išvesti tik klasės etiketę arba įvesties intervalą.
Baziniame T5 modelyje iš viso yra apie 220 milijonų parametrų.
GPT šeima
„OpenAI“, AI tyrimų
ir diegimo įmonė, turi misiją „užtikrinti, kad dirbtinis bendrasis intelektas
(AGI) būtų naudingas visai žmonijai“. Žinoma, ji dar nepasiekė AGI, o kai kurie
AI tyrinėtojai, pavyzdžiui, mašininio mokymosi pradininkas Yann LeCun iš
Meta-FAIR, mano, kad dabartinis OpenAI požiūris į AGI yra aklavietė.
OpenAI yra atsakinga
už GPT kalbų modelių šeimą. Čia trumpai apžvelgiama visa GPT šeima ir jos raida
nuo 2018 m. (Atminkite, kad visa GPT šeima yra pagrįsta „Google Transformer“
neuroninio tinklo architektūra, kuri yra teisėta, nes „Google“ yra atvirojo
kodo transformatorius.)
GPT (Generative
Pretrained Transformer) yra 2018 m. OpenAI modelis, kuriame naudojama apie 117
milijonų parametrų. GPT yra vienakryptis transformatorius, iš anksto paruoštas
Toronto knygų korpuse ir buvo išmokytas naudoti priežastinės kalbos modeliavimo
(CLM) tikslą, o tai reiškia, kad jis buvo išmokytas numatyti kitą žetoną iš
eilės.
GPT-2 yra 2019 m.
tiesioginis GPT padidinimas su 1,5 milijardo parametrų, parengtas, naudojant 8
milijonų tinklalapių duomenų rinkinį, apimantį ~ 40 GB teksto duomenų. „OpenAI“
iš pradžių apribojo prieigą prie GPT-2, nes jis buvo „per geras“ ir sukeltų
„netikras naujienas“. Bendrovė galiausiai nusileido, nors galimos socialinės
problemos tapo blogesnės, išleidus
GPT-3.
GPT-3 yra 2020 m. automatinės
regresinės kalbos modelis su 175 milijardais parametrų, parengtas naudojant
filtruotą Common Crawl, WebText2, Books1, Books2 ir anglišką Vikipediją. GPT-3
naudojamas neuroninis tinklas yra panašus į GPT-2, su keliais papildomais
blokais.
Didžiausias GPT-3
trūkumas yra tas, kad jis linkęs „haliucinuoti“, o tai reiškia, kad jis sukuria
faktus be jokio pastebimo pagrindo. GPT-3.5 ir GPT-4 turi tą pačią problemą,
nors ir mažesniu mastu.
CODEX yra 2021 m.
GPT-3 palikuonis, kuris buvo tiksliai suderintas kodo generavimui 54
milijonuose atvirojo kodo GitHub saugyklų. Tai modelis, naudojamas „GitHub
Copilot“.
GPT-3.5 yra 2022 m.
GPT-3 ir CODEX naujinimų rinkinys.
Modelis gpt-3.5-turbo yra optimizuotas
pokalbiams, bet taip pat puikiai tinka atliekant tradicines užbaigimo užduotis.
GPT-4 yra 2023 m.
didelis daugiarūšis modelis (priimamas vaizdo ir teksto įvestis, skleidžiamas
teksto išvestis), kuris, kaip teigia OpenAI, demonstruoja žmogaus lygio našumą
pagal kai kuriuos profesinius ir akademinius etalonus. GPT-4 aplenkė GPT-3.5
įvairiuose modeliuojamuose egzaminuose, įskaitant vienodo teisės baro egzaminą, LSAT,
GRE ir kelis AP dalykų egzaminus.
Atminkite, kad, laikui
bėgant, GPT-3.5 ir GPT-4 našumas pasikeitė. 2023 m. liepos mėn. Stanfordo
dokumente buvo nurodytos kelios užduotys, įskaitant pirminio skaičiaus
identifikavimą, kurių elgesys labai skyrėsi nuo 2023 m. kovo iki 2023 m.
birželio mėn.
„ChatGPT“ ir
„BingGPT“ yra pokalbių robotai, kurie iš pradžių buvo pagrįsti „gpt-3.5-turbo“,
o 2023 m. kovo mėn. buvo atnaujinti, kad būtų galima naudoti GPT-4. Šiuo metu,
norėdami pasiekti „ChatGPT“ versiją, pagrįstą GPT-4, turite užsiprenumeruoti
„ChatGPT Plus“. Standartinis „ChatGPT“, pagrįstas GPT-3.5, buvo apmokytas,
remiantis duomenimis, kurie nutrūko 2021 m. rugsėjo mėn.
BingGPT, dar žinomas,
kaip „The New Bing“, kurį galite pasiekti, naudodami „Microsoft Edge“ naršyklę,
taip pat buvo apmokytas 2021 m. nutrūkusių duomenų. Paklaustas robotas
tvirtina, kad nuolat mokosi ir atnaujina jo žinias nauja informacija iš
žiniatinklio.
2023 m. kovo
pradžioje Honkongo mokslo ir technologijų universiteto Dirbtinio intelekto
tyrimų centro profesorius Pascale Fung skaitė pranešimą apie ChatGPT vertinimą.
Verta skirti valandą tam pažiūrėti.
LaMDA
LaMDA (angl. Language
Model for Dialogue Applications), „Google“ 2021 m. „proveržio“ pokalbių
technologija, yra transformatoriumi pagrįstas kalbos modelis, parengtas
dialogui ir sureguliuotas taip, kad žymiai pagerintų jo atsakymų jautrumą ir
specifiškumą. Viena iš LaMDA privalumų yra tai, kad ji gali susidoroti su
žmonių pokalbiuose dažnai pasitaikančiais temų poslinkiais.
PaLM
PaLM (Pathways
Language Model) yra 2022 m. tankus tik dekoderis skirtas transformatoriaus
modeliui iš „Google Research“ su 540 milijardų parametrų, parengtas, naudojant Pathways
sistemą. PaLM buvo apmokytas, naudojant anglų ir daugiakalbių duomenų rinkinių,
apimančių aukštos kokybės žiniatinklio dokumentus, knygas, Vikipediją,
pokalbius ir GitHub kodą, derinį. „Google“ taip pat sukūrė „be nuostolių“
žodyną, kuris išsaugo visus tarpus (ypač svarbius kodui), padalija iš žodyno
nepriklausančius Unikodo simbolius į baitus ir padalija skaičius į atskirus
žetonus, po vieną kiekvienam skaitmeniui.
„PaLM-Coder“ yra
„PaLM 540B“ versija, tiksliai suderinta tik „Python“ kodo duomenų rinkinyje.
PaLM-E
PaLM-E yra 2023 m.
įkūnytas (robotikai) daugiarūšis kalbos modelis iš Google. Tyrėjai pradėjo nuo
PaLM ir „įkūnijo“ jį (angl. embodied) (tai atspindi E raidė PaLM-E), papildydami jį jutiklio duomenimis iš roboto
agento. „PaLM-E“ taip pat yra bendras regėjimo ir kalbos modelis; be PaLM, jame
yra ViT-22B regėjimo modelis.
Bardas
„Bard“ yra 2023 m.
„Google“ pokalbio AI paslauga, pagrįsta LaMDA. „Google Bard“ buvo išleistas
2023 m. kovo 21 d. ir visuotinai pasiekiamas 2023 m. gegužės 10 d.
„Bard“ buvo
atnaujintas kelis kartus nuo jo išleidimo. 2023 m. balandžio mėn. ji įgijo
galimybę generuoti kodą 20 programavimo kalbų. 2023 m. liepos mėn. jis gavo
palaikymą įvesties 40 žmonių kalbomis, įtraukė „Google Lens“ ir pridėjo teksto
į kalbą galimybių daugiau, nei 40 žmonių kalbų.
LLAMA
LLaMA (Large Language
Model Meta AI) yra 65 milijardų parametrų „neapdorotas“ didelis kalbos modelis,
kurį 2023 m. vasario mėn. išleido Meta AI (anksčiau žinomas, kaip Meta-FAIR).
Didelėje kalbų
modelių erdvėje pageidautina mokyti mažesnius pagrindinius modelius, tokius,
kaip LLaMA, nes norint išbandyti naujus metodus, patvirtinti kitų darbą ir
ištirti naujus naudojimo atvejus, reikia daug mažiau skaičiavimo galios ir
išteklių. Pamatiniai modeliai treniruojami, naudojant didelį nepažymėtų duomenų
rinkinį, todėl jie puikiai tinka įvairioms užduotims derinti.
LLaMA buvo išleista
kelių dydžių, kartu su modelio kortele, kurioje išsamiai aprašyta, kaip ji buvo
sukurta. Iš pradžių turėjote paprašyti patikros punktų ir žetonų, bet dabar jie
yra atvirai prieinami: atsisiunčiamas torrentas. Pasak Yann LeCun iš Meta AI, 4chan paskelbė
kažkas, kas tinkamai gavo modelius, pateikdamas prašymą.
Lama 2
„Llama 2“ yra naujos
kartos „Meta AI“ didelės kalbos modelis, parengtas 2023 m. sausio–liepos mėn.,
naudojant 40 % daugiau duomenų (2 trilijonai žetonų iš viešai prieinamų
šaltinių) nei „LLaMA 1“ ir dvigubai ilgesnis kontekstas (4096). „Llama 2“ yra įvairių parametrų
dydžių – 7 milijardų, 13 milijardų ir 70 milijardų – taip pat iš anksto
paruoštų ir tiksliai suderintų variantų. „Meta AI“ vadina „Llama 2“ atviruoju
šaltiniu, tačiau kai kurie su tuo nesutinka, nes jame yra apribojimų dėl
priimtino naudojimo. Be bendruomenės licencijos galima įsigyti ir komercinę
licenciją.
„Llama 2“ yra
automatiškai regresuojantis kalbos modelis, kuriame naudojama optimizuota
transformatoriaus architektūra. Suderintose versijose naudojamas prižiūrėtas
koregavimas (SFT) ir sustiprintas mokymasis su žmogaus grįžtamuoju ryšiu
(RLHF), kad atitiktų žmogaus pageidavimus dėl naudingumo ir saugumo. „Llama 2“
šiuo metu yra tik anglų kalba. Modelio kortelėje pateikiami etaloniniai
rezultatai ir anglies pėdsako statistika. Tyrimo dokumente „Llama 2: Open
Foundation and Fine-Tuned Chat Models“ pateikiama papildomos informacijos.
Mokymas Llama-2-chat
IDG
„Llama 2“ yra iš
anksto apmokytas, naudojant viešai prieinamus internetinius duomenis. Tada
naudojant prižiūrimą koregavimą, sukuriama pradinė Llama-2-chat versija. Be to,
„Llama-2-chat“ pakartotinai tobulinamas, naudojant sustiprintą mokymąsi iš
žmogaus grįžtamojo ryšio (RLHF), įskaitant atmetimo atranką ir proksimalinės
politikos optimizavimą.
Claude 2
Anthropic's Claude 2,
išleistas 2023 m. liepos mėn., vienu raginimu priima iki 100 000 žetonų (apie
70 000 žodžių) ir gali sukurti istorijas iki kelių tūkstančių žetonų. Claude'as
gali redaguoti, perrašyti, apibendrinti, klasifikuoti, išgauti struktūrinius
duomenis, atsakyti į klausimus ir duoti atsakymus pagal turinį ir kt. Jame
daugiausiai išmokta anglų kalba, tačiau jis puikiai veikia ir įvairiomis kitomis
įprastomis kalbomis, tačiau vis tiek gali bendrauti retesnėmis kalbomis.
Claude'as taip pat turi daug žinių apie programavimo kalbas.
Claude'as pagal
konstituciją buvo išmokytas būti naudingas, sąžiningas ir nekenksmingas (HHH, angl.),
o taip pat buvo sukurtas, kad būtų nekenksmingesnis ir sunkiau paskatintas
sukurti įžeidžiančius ar pavojingus rezultatus. Ji nesinaudoja jūsų duomenimis
ir nesikreipia į internetą, kad gautų atsakymus, nors galite pateikti Claude'ui
tekstą iš interneto ir paprašyti jo atlikti užduotis su tuo turiniu. „Claude“
yra prieinama vartotojams JAV ir JK, kaip nemokama beta versija, o ją priėmė
komerciniai partneriai, tokie, kaip „Jasper“ (generacinė AI platforma),
„Sourcegraph Cody“ (kodinė AI platforma) ir „Amazon Bedrock“.
Išvada
Kaip matėme, keliose
įmonėse aktyviai kuriami dideli kalbų modeliai, o naujos versijos daugiau ar
mažiau kas mėnesį pristatomos iš OpenAI, Google AI, Meta AI ir Anthropic. Nors
nė vienas iš šių LLM nepasiekia tikro dirbtinio bendro intelekto (AGI), nauji
modeliai dažniausiai gerėja, palyginti su senesniais. Vis dėlto dauguma LLM yra
linkę į haliucinacijas ir kitus būdus nukrypti nuo bėgių ir kai kuriais
atvejais gali pateikti netikslius, šališkus ar kitokius nepriimtinus atsakymus
į vartotojų raginimus.
Kitaip tariant, turėtumėte juos naudoti tik tuo atveju,
jei galite patikrinti, ar jų išvestis yra teisinga." [1]