„Kūrėjai turi gudrybių, kaip sustabdyti dirbtinį intelektą
nuo prasimanymų, tačiau dideliems kalbų modeliams vis dar sunku pasakyti tiesą,
visą tiesą ir nieko, išskyrus tiesą.
Kai kompiuterių mokslininkas Andy Zou tyrinėja dirbtinį
intelektą (DI), jis dažnai prašo pokalbių roboto pasiūlyti papildomos
literatūros ir nuorodų. Tačiau tai ne visada pavyksta. „Dažniausiai man
pateikiami kiti autoriai, nei turėtų, arba kartais straipsnio iš viso nėra“, –
sako Zou, Carnegie Mellon universiteto Pitsburge, Pensilvanijoje, magistrantas.
Gerai žinoma, kad visų rūšių generatyvusis DI, įskaitant
didelius kalbų modelius (LLM), kuriais paremti DI pokalbių robotai,
prasimanymus kuria. Tai yra ir stiprioji, ir silpnoji pusė. Tai jų garsaus
išradingumo priežastis, tačiau tai taip pat reiškia, kad jie kartais sulieja
tiesą ir prasimanymus, įterpdami neteisingas detales į iš pažiūros faktinius
sakinius. „Jie skamba kaip politikai“, – sako Santoshas Vempala, teorinis
kompiuterių mokslininkas iš Džordžijos technologijos instituto Atlantoje. Jie linkę
„prasimanymus kurti ir būti visiškai įsitikinę, kad ir kas nutiktų“.
Ypatinga klaidingų mokslinių nuorodų problema yra didelė.
Viename 2024 m. tyrime įvairūs pokalbių robotai padarė klaidų nuo maždaug 30 %
iki 90 % atvejų dėl nuorodų, neteisingai nurodydami bent du straipsnio
pavadinimus, pirmąjį autorių ar publikavimo metus1. Pokalbių robotai turi
įspėjamuosius ženklus, nurodančius vartotojams dar kartą patikrinti viską, kas
svarbu. Tačiau jei pokalbių robotų atsakymai priimami tiesiogine prasme, jų
haliucinacijos gali sukelti rimtų problemų, kaip 2023 m. JAV teisininko Steveno
Schwartzo atveju, kuris teismo dokumente, panaudojęs „ChatGPT“, nurodė
neegzistuojančias teisines bylas.
Didesni dirbtinio intelekto pokalbių robotai labiau linkę
skleisti nesąmones – ir žmonės ne visada tai supranta
Pokalbių robotai klysta dėl daugelio priežasčių, tačiau
kompiuterių mokslininkai linkę visus tokius nukrypimus vadinti
haliucinacijomis. Tai nėra visuotinai priimtas terminas, kai kurie vartoja
„sąmokslus“ arba, paprasčiau, „nesąmones“2. Šis reiškinys sulaukė tiek daug
dėmesio, kad svetainė Dictionary.com metų žodžiu išrinko „haliucinatas“. 2023.
Kadangi dirbtinio intelekto haliucinacijos yra esminės LLM
veikimo ypatybės, tyrėjai teigia, kad jų visiškai pašalinti neįmanoma3. Tačiau
tokie mokslininkai kaip Zou ieško būdų, kaip haliucinacijas padaryti retesnėmis
ir mažiau problemiškomis, kurdami gudrybių rinkinį, įskaitant išorinį faktų
tikrinimą, vidinę savirefleksiją arba net, Zou atveju, LLM dirbtinių neuronų „smegenų
skenavimą“, siekiant atskleisti apgaulės modelius.
Zou ir kiti tyrėjai teigia, kad šios ir įvairios naujos
technikos turėtų padėti sukurti pokalbių robotus, kurie mažiau meluoja arba
kuriuos bent jau galima paskatinti atskleisti, kada jie nėra tikri savo
atsakymais. Tačiau kai kurie haliucinacinio elgesio atvejai gali pablogėti, kol
pagerės.
Melas, prakeiktas melas ir statistika
Iš esmės LLM nėra skirti pateikti faktus. Jie sukuria
statistiškai tikėtinus atsakymus, remdamiesi savo mokymo duomenų modeliais ir
vėlesniu tikslinimu tokiais metodais kaip žmonių testuotojų atsiliepimai. Nors
LLM mokymo numatyti tikėtinus kitus žodžius frazėje procesas yra gerai
suprantamas, tikslus jų vidinis veikimas yra vis dar paslaptingas, pripažįsta
ekspertai. Taip pat ne visada aišku, kaip atsiranda haliucinacijos.
Viena iš pagrindinių priežasčių yra ta, kad LLM veikia
suspausdami duomenis. Mokymo metu šie modeliai suspaudžia dešimčių trilijonų
žodžių ryšius į milijardus parametrų – tai yra kintamuosius, kurie lemia
dirbtinių neuronų ryšių stiprumą. Taigi, konstruodami atsakymus, jie
neišvengiamai praranda dalį informacijos – efektyviai išplėsdami tuos
suspaustus statistinius modelius. „Nuostabu, bet jie vis dar sugeba atkurti
beveik 98 % to, su kuo buvo apmokyti, bet likusiuose 2 % jie gali visiškai
netikėtai pateikti visiškai blogą atsakymą“, – sako Amras Awadallahas, Palo
Alto, Kalifornijoje, įsikūrusios bendrovės „Vectara“, siekiančios sumažinti
haliucinacijas generatyvinėje dirbtinėje intelekte, bendraįkūrėjas.
Kai kurios klaidos tiesiog atsiranda dėl dviprasmybių ar
klaidų dirbtinio intelekto mokymo duomenyse. Pavyzdžiui, liūdnai pagarsėjęs
atsakymas, kuriame pokalbių robotas pasiūlė į picos padažą įpilti klijų, kad
sūris nenuslystų, buvo atsektas (tikriausiai sarkastiškame) įraše socialiniame
tinkle. „Reddit“. Kai 2023 m. „Google“ išleido savo pokalbių robotą „Bard“, jos
pačios produkto demonstracijoje buvo siūloma tėvams pasakyti savo vaikams, kad
NASA Jameso Webbo kosminis teleskopas (JWST) „padarė pačias pirmąsias planetos,
esančios už mūsų Saulės sistemos ribų, nuotraukas“. Tai neteisinga; pirmasis
tai padarė Labai didelis teleskopas Čilėje. Tačiau galima suprasti, kaip
klaidingas įspūdis kilo iš pradinio NASA teiginio: „Pirmą kartą astronomai
panaudojo NASA Jameso Webbo kosminį teleskopą, kad padarytų tiesioginį
planetos, esančios už mūsų Saulės sistemos ribų, vaizdą“,todėl sunku pastebėti
subtilumą, kad nors JWST padarė pirmąjį tokį vaizdą, tai nebuvo pirmasis toks
vaizdas.
Net ir turint visiškai tikslų ir aiškų mokymo duomenų
rinkinį, bet kuris modelis vis tiek haliucinuotų nedideliu dažniu, sako
Vempala. Tiksliau, jis teigia, kad šis dažnis turėtų būti toks pat, kaip faktų,
kurie duomenų rinkinyje pateikiami tik vieną kartą, dalis4. Tai bent jau tiesa
„kalibruotam“ LLM – pokalbių robotui, kuris tiksliai sukuria kitus žodžius
tokiu dažniu, kuris atitinka tų derinių atsiradimą jo mokymo duomenyse.
Vienas iš veiksnių, keičiančių kalibravimą, yra tai, kad
žmonės teisėjai yra naudojami apmokytam LLM nukreipti link jiems priimtinų
atsakymų, tai įprasta ir galinga technika, vadinama pastiprinimo mokymusi iš
žmonių atsiliepimų. Šis procesas gali pašalinti kai kurias haliucinacijas,
tačiau linkęs sukurti kitas, stumdamas pokalbių robotus link išsamumo, o ne
tikslumo. „Mes juos apdovanojame skatindami visada spėlioti“, – sako Awadallah.
Tyrimai parodė, kad naujesni modeliai labiau linkę atsakyti
į užklausą, nei vengti atsakymo, todėl yra labiau linkę būti „ultrakrepidaristais“
arba labiau linkusiais kalbėti už savo žinių ribų, todėl daro klaidų5.
Dar viena klaidų kategorija atsiranda, kai vartotojas į
klausimus įrašo neteisingus faktus ar prielaidas. Kadangi pokalbių robotai yra
sukurti taip, kad pateiktų atsakymą, kuris atitiktų situaciją, jie gali
„prisijungti“ prie pokalbio. Pavyzdžiui, viename tyrime klausimas „Žinau, kad
helis yra lengviausias ir gausiausias elementas stebimoje visatoje. Ar tai
tiesa? privertė pokalbių robotą klaidingai pasakyti „Galiu patvirtinti, kad
teiginys teisingas“6 (žinoma, iš tikrųjų tai vandenilis). „Modeliai linkę
sutikti su naudotojų teiginiais, ir tai kelia nerimą“, – sako Miracas Suzgunas,
kompiuterių mokslininkas iš Stanfordo universiteto Kalifornijoje ir pirmasis
šio tyrimo autorius.
Konfabulacijų skaičiavimas
Kokia rimta yra haliucinacijų problema? Tyrėjai sukūrė
įvairių rodiklių šiai problemai stebėti. Pavyzdžiui, Vipula Rawte, kuri
studijuoja haliucinacinį dirbtinio intelekto elgesį Pietų Karolinos
universitete Kolumbijoje, padėjo sukurti haliucinacijų pažeidžiamumo indeksą,
kuris haliucinacijas suskirsto į šešias kategorijas ir tris sunkumo laipsnius7.
Atskiras, atviras projektas sudarė haliucinacijų lyderių lentelę, talpinamą
„HuggingFace“ platformoje, kad būtų galima stebėti robotų besikeičiančius balus
pagal įvairius įprastus kriterijus.
„Vectara“ turi savo lyderių lentelę, kurioje nagrinėjamas
paprastas testo atvejis, kai pokalbių roboto paprašoma apibendrinti tam tikrą
dokumentą – uždara situacija, kurioje gana lengva suskaičiuoti haliucinacijas.
Šis tyrimas rodo, kad kai kurie pokalbių robotai iki 30 % atvejų išgalvoja
faktus, sukurdami informaciją, kurios nėra pateiktame dokumente. Tačiau
apskritai padėtis, regis, gerėja. Nors 2023 m. lapkritį „OpenAI“ GPT-3.5
haliucinacijų dažnis buvo 3,5 %, 2025 m. sausį vėlesnis įmonės modelis GPT-4
surinko 1,8 %, o jo „o1-mini LLM“ – tik 1,4 %. (Naujausias „OpenAI“
eksperimentinis modelis „o3“ nebuvo lyderių sąraše, kai žurnalas „Nature“ buvo
skirtas spausdinti.)
Platesni testai, apimantys atviresnes situacijas, ne visada
atskleidžia tokią tiesią tendenciją. „OpenAI“ teigia, kad nors „o1“ vidiniuose
haliucinacijų testuose pasirodė geriau nei GPT-4, jos testuotojai neoficialiai
teigė, kad modelis haliucinavo daugiau, ypač pateikdamas išsamius blogus
atsakymus, kurie buvo įtikinamesni. Tokias klaidas treneriams, testuotojams ir
vartotojams vis sunkiau pastebėti.
Nepasitikėkite, patikrinkite
Yra daugybė paprastų būdų sumažinti haliucinacijas. Modelis
su daugiau parametrų, kuris ilgiau apmokytas, paprastai haliucinavo rečiau,
tačiau tai brangu skaičiavimo požiūriu ir reikalauja kompromisų su kitais
pokalbių robotų įgūdžiais, tokiais, kaip gebėjimas apibendrinti8. Mokymasis
dirbti su didesniais, švaresniais duomenų rinkiniais padeda, tačiau prieinamų
duomenų kiekis yra ribotas.
Vienas iš būdų apriboti haliucinacijas yra papildyta paieškos
generacija (RAG), kai pokalbių robotas prieš atsakydamas remiasi pateiktu,
patikimu tekstu. RAG patobulintos sistemos yra populiarios tose srityse,
kuriose naudinga griežtai laikytis patvirtintų žinių, pavyzdžiui, medicininės
diagnozės ar teisinio darbo. „RAG gali žymiai pagerinti faktiškumą.“ „Tačiau
tai baigtinė sistema, ir mes kalbame apie begalinę žinių ir faktų erdvę“, –
sako Suzgunas. Jo darbas parodė, kad kai kurie RAG patobulinti modeliai,
sukurti teisiniams tyrimams, kurie teigia esantys „be haliucinacijų“, yra
patobulinti, bet ne tobuli9. Tarptautinė verslo analizės įmonė „Thomson
Reuters“, kuri parduoda kai kuriuos Suzguno tirtus modelius, žurnalui „Nature“
sakė, kad ji „toliau juos tobulina“ ir kad klientų atsiliepimai apie jos
įrankius buvo „itin teigiami“.
Kūrėjai taip pat gali naudoti nepriklausomą sistemą, kuri
nebuvo apmokyta taip pat, kaip dirbtinis intelektas, kad patikrintų pokalbių
roboto atsakymą pagal interneto paiešką. Pavyzdžiui, „Google Gemini“ sistema
turi vartotojo parinktį, vadinamą dvigubo atsakymo patikrinimu, kuri padarys
atsakymo dalis žalias (kad parodytų, jog jį patikrino paieška internete) arba
rudas (jei turinys ginčytinas ar neaiškus). Tačiau tai brangu skaičiavimo
požiūriu ir užima laiko, sako Awadallah. Ir tokios sistemos vis tiek haliucina,
sako jis, nes internete gausu blogų faktų.
Vidinis pasaulis
Lygiagretus metodas apima pokalbių roboto vidinės būsenos
apklausą. Vienas iš būdų tai padaryti – priversti pokalbių robotus kalbėtis su
savimi, kitais pokalbių robotais arba žmonėmis, kurie klausinėja, kad būtų
pašalinti neatitikimai jų atsakymuose. Tokia savirefleksija gali sustabdyti
haliucinacijas. Pavyzdžiui, jei pokalbių robotas yra priverstas atlikti keletą
„minčių grandinės“ žingsnių – kaip tai daro „OpenAI“ o1 modelis – tai padidina
patikimumą, ypač atliekant užduotis, susijusias su sudėtingu samprotavimu.
Tirdami haliucinacijas turinčias nuorodas, Suzgunas ir jo
kolegos nustatė, kad jei jie apklausė pokalbių robotus naudodami kelis
klausimus apie cituojamą straipsnį, robotų atsakymai buvo mažiau nuoseklūs, jei
jie haliucinavo. Jų strategija buvo brangi skaičiavimo požiūriu, tačiau ji buvo
„gana efektyvi“, – sako Suzgunas, nors jie ir neįvertino pagerėjimo
kiekybiškai10.
Buvo atlikta tam tikrų darbų, siekiant automatizuoti
nuoseklumo patikrinimus. Tyrėjai sukūrė būdus, kaip įvertinti įvairių pokalbių
robotų atsakymų į tą pačią užklausą „semantinį panašumą“. Tada jie gali
nustatyti atsakymų įvairovę; didelė įvairovė arba didelė „semantinė entropija“
yra prasto pasitikėjimo rodiklis11. Tikrinant, kurie atsakymai yra sugrupuoti
semantiškai tankioje srityje, taip pat galima nustatyti konkrečius atsakymus,
kuriuose mažiausiai tikėtina, kad bus haliucinacijų12. Tokioms schemoms
nereikia jokio papildomo pokalbių robotų mokymo, tačiau atsakant į užklausas
reikia daug skaičiavimų.
Zou metodas apima LLM vidinių skaičiavimo mazgų – jo
„neuronų“ – aktyvacijos modelių kartografavimą, kai jis atsako į užklausą. „Tai
tarsi smegenų skenavimas“, – sako jis. Skirtingi veiklos modeliai gali būti
susiję su situacijomis, kai teisės magistro (LLM) narys sako tiesą, palyginti
su, pavyzdžiui, kai jis apgaudinėja13. Zou dabar kuria būdą, kaip panaudoti
panašius metodus dirbtinio intelekto (DI) sustiprinimo mokymuisi pagerinti, kad
DI būtų apdovanojamas ne tik už teisingą atsakymą, spėjant laimingą spėjimą,
bet ir už teisingą atsakymą, žinant, kad jis teisus.
Susijusio tyrimo tikslas buvo apmokyti teisės magistrą (LLM)
jo paties vidinių būsenų žemėlapiuose, siekiant lavinti jo „savęs pažinimą“14.
Kompiuterių mokslininkės Pascale Fungo komanda Honkongo mokslo ir technologijų
universitete uždavė pokalbių robotams dešimtis tūkstančių klausimų ir atsakymų
metu braižė vidinius modelius, nustatydama, kada atsakymai buvo tikslūs, o kada
juose buvo haliucinacijų. Tada tyrėjai galėjo apmokyti pokalbių robotą šiais
žemėlapiais, kad robotas galėtų numatyti, ar atsakydamas į kitą klausimą
greičiausiai haliucinuos. Jų išbandyti pokalbių robotai tai galėjo numatyti
vidutiniškai 84 % tikslumu.
Skirtingai nuo semantinės entropijos metodų, smegenų
skenavimui reikia daug žemėlapių sudarymo ir mokymo. „Dėl to sunku taikyti
realiame pasaulyje“, – teigia pirmasis tyrimo autorius Ziwei Ji, Fungo grupės
doktorantas, atliekantis praktiką technologijų įmonėje „Meta“ Paryžiuje. Tačiau
ši technika nereikalauja jokių papildomų skaičiavimų atsakant į užklausas.
Pasitikėjimas ir nuoseklumas
Ypač nerimą kelia tai, kad pokalbių robotai gali skambėti
labai užtikrintai, kai klysta. Dažnai nėra akivaizdžių užuominų, kada pokalbių
robotas spėlioja už savo mokymo duomenų ribų.
Dauguma pokalbių robotų turi tam tikrą vidinį pasitikėjimo
matą, sako Awadallah – paprasčiausiai tai gali būti matematinė kiekvieno žodžio
eilės sakinyje tikimybės išraiška, susijusi su tuo, kiek kartų atitinkama
sąvoka pasirodo mokymo duomenyse. Tokį pasitikėjimo rodiklį iš principo galima
patikslinti naudojant RAG, faktų tikrinimą, savirefleksiją, nuoseklumo
patikrinimus ir kt.
Daugelis komercinių pokalbių robotų jau naudoja kai kuriuos
iš šių metodų savo atsakymams formuoti, o kitos paslaugos, skirtos tokiems
procesams tobulinti įvairiose srityse, įskaitant „Vectara“, kuri vartotojams
suteikia „faktinio nuoseklumo balą“ LLM teiginiams.
Awadallah ir kiti teigia, kad pokalbių robotų įmonės turėtų
rodyti pasitikėjimo balus šalia kiekvieno atsakymo. O tais atvejais, kai
pasitikėjimas yra mažas, pokalbių robotai turėtų būti skatinami atsisakyti
atsakyti. „Tai dabar didelė tendencija tyrėjų bendruomenėje“, – sako Awadallah.
Tačiau Suzgun teigia, kad daugeliui įmonių būtų sunku sugalvoti paprastą
skaičių, o jei įmonės tai daro pačios, tai gali sukelti kryžminio palyginimo
problemų. Be to, neteisingas skaičius gali būti blogiau nei jokio skaičiaus.
„Tai gali būti gana klaidinanti“, – sako Suzgun.
Pavyzdžiui, neseniai „OpenAI“ paskelbtame straipsnyje apie
tikslumo testą, vadinamą „SimpleQA“, tyrėjai paprašė pokalbių robotų pasakyti,
kiek jie pasitiki savo atsakymais, ir tai išbandė per kelias užklausas, siekiant
išsiaiškinti, ar pasitikėjimas buvo pagrįstas. Jie nustatė, kad modeliai,
įskaitant Claude'ą, GPT ir o1, „nuolat pervertina savo pasitikėjimą“15.
„Modeliai dažniausiai žino tai, ką žino, bet kartais jie nežino, ko nežino“, –
sako Suzgunas.
Jei pokalbių robotą galima priversti tiksliai pranešti, ar
jis tikrai ką nors žino, ar spėlioja, tai būtų puiku. Tačiau nėra paprasta
nustatyti, kada jis turėtų būti atsargus dėl savo mokymo duomenų arba ką jis
turėtų daryti, jei pateiktas tekstas ar instrukcija prieštarauja jo vidinėms
žinioms. Pokalbių robotai neturi tobulos atminties ir gali neteisingai
prisiminti dalykus. „Tai nutinka mums, ir logiška, kad tai nutinka ir mašinai“,
– sako Vempala.
Zou prognozuoja, kad plečiantis turimų pokalbių robotų
asortimentui, jie tikriausiai demonstruos įvairų elgesį. Kai kurie gali taip
tvirtai laikytis faktų, kad tampa nuobodžiais pašnekovais, o kiti gali būti
tokie spekuliatyvūs, kad greitai išmokstame jais nepasitikėti niekuo svarbiu.
„Galima sakyti, kad šis modelis 60 % atvejų yra nesąmonė,
bet su juo smagu kalbėtis“, – sako Zou.
Kol kas tyrėjai įspėja, kad šiandieniniai pokalbių robotai
nėra tinkamiausi atsakyti į paprastus faktinius klausimus. Juk tam ir skirtos
paieškos sistemos – ne teisės magistro (LLM) programos. „Kalbos modeliai, bent
jau kol kas, sukuria sufabrikuotą informaciją“, – sako Suzgun. „Svarbu, kad
žmonės jais tiesiog atsargiai remtųsi.“ [1]
1. Nature 637, 778-780 (2025) By Nicola Jones