„Kalbos modeliai padarė didelę pažangą. Tačiau, norint
atlikti dar sudėtingesnes užduotis ir tapti universalesniais, jiems reikia
daugiau, nei vien skaičiavimo galios.
Nesvarbu, ar
tai „ChatGPT“, „Gemini“, ar „Qwen“ – visi šie kalbos modeliai galiausiai yra
pagrįsti ta pačia technologija. Juos skiria naudojami mokymo duomenys.
Surinktų, filtruojamų ir generuojamų mokymo duomenų tipas lemia kalbos modelio
kokybę: kaip patikimai jis atkuria faktus, kaip gerai atlieka užduotis ir kada
jam pasireiškia haliucinacijos.
Trumpai
tariant: kalbos modeliai labai gerai veikia užduotims, kuriose yra gerų mokymo
duomenų. Užduotims be gerų mokymo duomenų jie greitai sugenda.
Kalbos modeliai šiuo metu tobulėja pirmiausia nustatant jų
silpnąsias vietas ir specialiai renkant arba generuojant duomenis, kad būtų
galima užpildyti šias spragas. Pavyzdžiui, kalbos modeliai dabar yra ekspertų
lygio matematikos ir programavimo srityse – abiejose srityse jie turėjo didelių
trūkumų vos prieš dvejus metus.
Kaip tai
veikia, tampa aišku, kai nagrinėjami mokymo duomenys. Primename: kalbos
modeliai turi tikslą – išmokti numatyti kitą žodį tekste, pirmiausia naudojant
didžiulius duomenų rinkinius, o vėliau, tikslinimui, naudojant konkrečius
pavyzdžius, tokius, kaip klausimai ir atitinkami atsakymai. Tokio paprasto
ėjimo, kaip sugeneruoti kito žodžio garsus, pakanka sugeneruoti ištisus
tekstus, atsakyti į klausimus ir užprogramuoti.
Šio pradinio
mokymo tekstai daugiausia gaunami iš interneto. Norėdami juos gauti, dirbtinio
intelekto kūrėjai pirmiausia surenka visus prieinamus tekstus. Šie tekstai yra
neįtikėtinai įvairūs: Vikipedija, naujienų straipsniai, moksliniai straipsniai,
forumų diskusijos ir, žinoma, daug reklamos. Tačiau didelė dalis prieinamų
tekstų yra nesuprantami, prastos kokybės ir tiesiogiai netinkami mokymui. Jie
identifikuojami – kartais naudojant mažus kalbos modelius – ir filtruojami.
Lieka nedidelė interneto dalis, bet vis tiek didžiulis teksto kiekis,
prilygstantis šimtams milijonų knygų.
Tada tekstai
yra vertinami: tekstai, kurie mokymo duomenyse dažnai pasirodo labai panašiomis
formomis, yra sumažinami, o kiti labai aukštos kokybės tekstai dubliuojami ir
naudojami tolesniam mokymui. Tada tekstas mokymo duomenyse pasirodo kelis
kartus. Tai subtilus procesas. Viena vertus, tokie faktai, kaip „Berlynas yra
sostinė Vokietijoje“ turėtų pasirodyti kelis kartus, kad modelis išmoktų ir
teisingai atkurtų tokius faktus. Kita vertus, kūrėjai nori išvengti pernelyg
dažno tekstų pasirodymo identiškomis arba labai panašiomis formomis, nes kitaip
kalbos modelis linkęs atkurti šiuos tekstus pažodžiui.
Pavyzdžiui, yra straipsnių iš „New York Times“, kuriuos
„OpenAI“ kalbos modelis GPT-4 atkuria beveik pažodžiui po minimalių raginimų.
Taip atsitinka, kai tokie tekstai labai dažnai pasirodo mokymo duomenyse. Šis
pastebėjimas, beje, yra „New York Times“ vykdomo ieškinio prieš „OpenAI“ ir
„Microsoft“ dėl autorių teisių pažeidimo pagrindas.
Kai mašinos generuoja duomenis
Bet kodėl kalbos modeliai apskritai gali atlikti tokias
įvairias užduotis? Kodėl jie gali apibendrinti tekstus, išmokti programuoti ir
atsakyti į klausimus tiesiog numatydami kitą žodį tekstuose iš interneto?
Internete
yra tiek daug tekstų, kad net ir retų formatų, tokių, kaip klausimų ir atsakymų
poros, taip pat tekstų ir jų atitinkamų santraukų, pasitaiko daug. Tačiau tokių
pavyzdžių santykinė dalis yra labai maža. Todėl po šio pradinio mokymo modelis
dažnai atsako į klausimą ne atsakymu, bet su kitu klausimu, nes yra daug
svetainių, kurios susideda tik iš klausimų, pavyzdžiui, viktorinų svetainės ar
praktikos pratimai.
Norint
interneto duomenimis apmokytą kalbos modelį paversti naudingu asistentu, kuris
atsako į klausimus ir vykdo instrukcijas, jis yra tiksliai sureguliuojamas.
Paprasčiausias ir efektyviausias būdas tai tiksliai suderinti yra mokyti
duomenimis, kurie rodo norimą elgesį, pavyzdžiui, į klausimus duodant
atitinkamus atsakymus. Tokiu būdu modelis išmoksta atsakyti į klausimą, o ne
pats jį užduoti.
Pirmojoje
kalbos modelių kartoje žmonės atliko svarbų vaidmenį, generuojant tokius
duomenis. Jie rašė atsakymus į klausimus ir įvertino skirtingus atsakymus, kaip
geresnius arba blogesnius, leisdami modeliui sužinoti, kuriuos atsakymus žmonės
renkasi.
Sintetiniai
duomenys, t. y. pačių kalbos modelių generuojami duomenys, tampa vis svarbesni
mokymui, nes daugiau duomenų paprastai yra naudinga. Ir kadangi puikūs
internete prieinami tekstai jau yra plačiai naudojami mokymui – daugelis tekstų
iš interneto yra žemos kokybės tekstai dažnai atmetami mokymo tikslais. Tačiau
tokie tekstai gali būti puikus pagrindas generuoti sintetinius duomenis,
kuriuos vėliau galima naudoti mokymui. Kalbos modeliai naudojami tokiems
prastos kokybės ar vidutiniškiems duomenims paversti aukštos kokybės
duomenimis.
Kaip ir
žmonės, kalbos modeliai geriau mokosi, kai mato informaciją, pateiktą
skirtingais variantais. Todėl gali būti veiksminga generuoti skirtingas teksto
versijas, naudojant kalbos modelį ir naudoti jas mokymui. Tokie sintetiniai
duomenys vaidina vis svarbesnį vaidmenį, mokant kalbos modelius.
Mokymasis,
naudojant sintetinius duomenis yra labai efektyvus. Sintetiniai duomenys taip
pat gali būti naudojami kitų modelių galimybėms atkartoti. Pavyzdžiui, jei
tokia įmonė, kaip „OpenAI“ išleidžia naują, aukštos kokybės, kalbos modelį,
kitos įmonės galėtų jį naudoti duomenims, kurie pagerina jų pačių modelius,
generuoti, net jei „OpenAI“ paslaugų teikimo sąlygos tai aiškiai draudžia.
Įtikinamas pavyzdys yra „Deepseek V3“. Tai labai geras
kalbos modelis, kurį Kinijos įmonė „Deepseek“ nemokamai pateikė 2024 m.
gruodžio mėn. „V3“ greitai pateko į antraštes, nes „Deepseek“ inžinieriams
pavyko gana pigiai apmokyti labai gerą modelį. Dėl to dirbtinio intelekto lustų
bendrovės „Nvidia“ akcijų kaina sausio mėnesį vos per vieną dieną smuko 17
procentų. Pagrindinė Kinijos sėkmės priežastis yra ta, kad „Deepseek“
darbuotojai dirbo su labai aukštos kokybės duomenimis.
Geresni
duomenys leidžia apmokyti tokį pat gerą modelį su mažesne skaičiavimo galia –
taigi ir mažesnėmis sąnaudomis.
Paklaustas „koks modelis esate?“, V3 atsako: „Aš esu
dirbtinio intelekto kalbos modelis, vadinamas „ChatGPT“, sukurtas „OpenAI“, o
tai rodo, kad kai kurie mokymo duomenys yra gauti iš „OpenAI“ modelių.
Mūsų pačių tyrimas patvirtina šią prielaidą: V3 reaguoja į
daugelį raginimų taip, kad juos labai sunku atskirti nuo GPT-4 atsakymų, o tai
rodo, kad kai kurie „Deepseek“ mokymo duomenys buvo sugeneruoti, naudojant
GPT-4.
Taip taip
pat gali būti dėl to, kad „Deepseek“ modelis buvo apmokytas, naudojant duomenis
iš interneto, nes internete jau 2024 m. buvo daug „OpenAI“ modelių sugeneruotų
tekstų.
Minties žingsnių analizė
Vienas iš
svarbiausių pokyčių kalbos modelių srityje per pastaruosius pusantrų metų buvo
jų mokymas atlikti ilgus mąstymo procesus. Dauguma modelių dabar turi tokią
„mąstymo“ funkciją: susidūręs su klausimais, kuriuos reikia apmąstyti, modelis
pirmiausia atlieka mąstymo veiksmus, o tada pateikia atsakymą, pagrįstą šiais
veiksmais. Pavyzdžiui, „OpenAI“ O1 modelis, „Google“ „Gemini Thinking“ ir
„Deepseek“ R1 modelis. Tokie mąstymo veiksmai yra labai naudingi, atsakant į
sudėtingesnius klausimus.
Tai taip pat
galima iliustruoti trumpu pavyzdžiu. Klausimas: Ona turi tris kriaušes ir
nusiperka dar dvi – kiek ji jų turi tada? Mąstymo veiksmai arba mąstymo
procesas yra toks: Ona turi tris kriaušes. Ji nusiperka dar dvi. Trys plius du
lygu penki. Atsakymas: penkios kriaušės.
Tokie mąstymo procesai ne tik padaro atsakymą suprantamą,
bet, dar svarbiau, žymiai pagerina jo kokybę. Į daug sudėtingesnius klausimus
galima atsakyti, plėtojant atsakymą per šiuos mąstymo procesus. Tokie mąstymo
procesai yra ypač naudingi sudėtingų klausimų, pavyzdžiui, matematinių, atveju.
Mąstymo procese modelis siūlo įvairius metodus, kai kuriuos atmeta, kitus
išbando ir ištaiso Klaidas, joms pasitaikant. Sudėtingoms matematinėms
problemoms spręsti mąstymo procesai gali lengvai apimti 50 ar daugiau puslapių.
Jie paprastai nerodomi vartotojui. Tai turi savo kainą: ilgesnėms samprotavimo
eilutėms kalbos modelis turi sugeneruoti daugiau teksto, o tam reikia daugiau
apdorojimo galios.
Modelio mokymo apie tokius mąstymo procesus sudėtingumas
slypi tame, kad tokių duomenų rašytine forma yra labai mažai. Pavyzdžiui, kai
matematikai sprendžia sudėtingą problemą, jie paprastai užrašo tik teisingą
sprendimą, bet ne sudėtingus mąstymo procesus ir bandymus, kurie padėjo rasti
sprendimą.
Norint
išmokti tokių mąstymo procesų matematikoje, lemiamą vaidmenį atlieka
vadinamasis sustiprinimo mokymasis. Šiame procese modeliai išbando skirtingas
samprotavimo linijas, ir tos samprotavimo linijos, kurios veda prie teisingų
sprendimų, atitinkamai tampa labiau tikėtinos. Tai leidžia kalbos modeliams
išmokti generuoti ilgus ir sudėtingus mąstymo procesus, kurie veda prie
sprendimo. Tai veikia tik tuo atveju, jei modelis jau geba tvirtai matematiškai
samprotauti; kitaip jis negalėtų generuoti jokių mąstymo procesų, kurie veda
prie sprendimo.
Todėl
sustiprinimo mokymasis gali būti laikomas metodu, kuriuo kalbos modeliai mokosi
iš savarankiškai sugeneruotų, sintetinių duomenų. Tam būtina sąlyga – gebėjimas
automatiškai įvertinti, ar tekstas ar rezultatas yra geras, ar blogas. Tai
dažnai įmanoma matematikoje ir programavime, ir tai yra pagrindinė priežastis,
kodėl kalbos modeliai tapo tokie galingi šiose srityse.
Kalbos
modeliai vis dažniau naudojami sistemose, kuriose jie savarankiškai sąveikauja
su kompiuteriais, kad atliktų užduotis, pavyzdžiui, užsakytų skrydžius,
įvertintų duomenis ar atliktų tyrimus. Tokios sistemos vadinamos agentais. Kaip
ir mąstymo procesuose, kalbos modeliai čia taip pat mokosi iš pavyzdžių, kai
tokios užduotys buvo sėkmingai išspręstos – kai kurias sukūrė žmonės, kai
kurias – patys kalbos modeliai.
Norėdamas įvertinti, kaip gerai Miuncheno technikos
universiteto studentas supranta mano paskaitų medžiagą, aš, kaip ir dauguma
mano kolegų, naudoju egzaminus ir kursinius darbus. Egzamino tipo klausimai
taip pat dažnai naudojami kalbos modeliams, siekiant patikrinti jų galimybes.
Vienas iš pavyzdžių yra Jungtinių Valstijų medicinos licencijavimo egzaminas –
gydytojų licencijavimo egzaminas Jungtinėse Valstijose. Egzaminą sudaro
klausimai su keliais atsakymų variantais apie pagrindus, klinikines žinias ir ligų
gydymą. Bendrieji kalbos modeliai, tokie, kaip GPT-4, taip pat specializuoti
kalbos modeliai medicinai, lengvai išlaiko tokius egzaminus ir pasiekia
panašius balus kaip ir medicinos specialistų. Tas pats pasakytina ir apie kitas
profesines grupes.
Tačiau lygiai taip pat, kaip geras egzamino pažymys tik iš
dalies numato, kaip gerai studentas gali pritaikyti paskaitos medžiagą darbe ar
tyrimuose, kalbos modelio aukštas našumas dar mažiau pasako apie jo gebėjimą
produktyviai vykdyti procesus profesinėje aplinkoje, pavyzdžiui, ligoninėje.
Žmonės gali
daug lanksčiau perkelti žinias į naujas situacijas, nei kalbos modeliai. Kita
vertus, kalbos modeliai yra ypač veiksmingi, kai mokymo duomenys labai panašūs
į užduotis.
Todėl kalbos modelius tikrai galima naudoti labai
sudėtingiems procesams profesiniame gyvenime; tačiau jie turi būti apmokyti,
naudojant tinkamus duomenis.
Duomenų spragų užpildymas
Kokios yra dirbtinio intelekto, orientuoto į mokymo
duomenis, pasekmės? Kalbos modeliai ypač tinka užduotims, kuriose yra daug,
tinkamų naudoti ir aukštos kokybės duomenų. Net ir ankstyviausi kalbos modeliai
puikiai pasižymėjo rašant dalykus, kuriems internete yra daug gerų pavyzdžių,
pavyzdžiui, receptus, santraukas ir bendrąsias žinias.
Šiandieniniai modeliai taip pat labai gerai veikia,
atliekant labai sudėtingas matematines ar programavimo užduotis, nes egzistuoja
arba buvo sugeneruota daug aukštos kokybės duomenų.
Užduotims,
kuriose surinkti ar sugeneruoti pakankamai duomenų yra sudėtingiau – kaip
daugelyje mokslo sričių, teisinėse paslaugose ar vidiniuose verslo procesuose –
kalbos modelių sėkmė priklausys nuo šių duomenų spragų užpildymo.
Tai, kad
bendrieji modeliai nuolat tobulėja, tai mažai ką keičia. Tie, kurie nori
naudoti kalbos modelius specializuotoms užduotims, turi juos apmokyti tinkamais
duomenimis. Todėl vis dar yra didelis potencialas padaryti kalbos modelius daug
geresnius ir naudingesnius. Reikšminga šio darbo dalis bus susijusi su mokymo
duomenų rinkimu ir generavimu.
Prof. dr. Reinhardas Heckelis eina Mašininio mokymosi
katedros vedėjo pareigas Miuncheno technikos universiteto Kompiuterių
inžinerijos katedroje.
Skaitmeninė ekonomika
Viską, kas svarbu apie dirbtinį intelektą, platformų
ekonomiką ir skaitmeninimą, galima rasti kartu su daugybe išsamių žinių mūsų
PRO skaitmeninės ekonomikos produktuose.“ [1]
1. Wieso es in der Künstlichen Intelligenz jetzt erst recht
auf hochwertige Daten ankommt. Frankfurter Allgemeine Zeitung; Frankfurt. 09
Feb 2026: 19. Von Reinhard Heckel