„Kūrėjai turi gudrybių, kaip sustabdyti dirbtinį intelektą nuo prasimanymų, tačiau dideliems kalbų modeliams vis dar sunku pasakyti tiesą, visą tiesą ir nieko, išskyrus tiesą.
Kai kompiuterių mokslininkas Andy Zou tyrinėja dirbtinį intelektą (DI), jis dažnai prašo pokalbių roboto pasiūlyti papildomos literatūros ir nuorodų. Tačiau tai ne visada pavyksta. „Dažniausiai man pateikiami kiti autoriai, nei turėtų, arba kartais straipsnio iš viso nėra“, – sako Zou, Carnegie Mellon universiteto Pitsburge, Pensilvanijoje, magistrantas.
Gerai žinoma, kad visų rūšių generatyvusis DI, įskaitant didelius kalbų modelius (LLM), kuriais paremti DI pokalbių robotai, prasimanymus kuria. Tai yra ir stiprioji, ir silpnoji pusė. Tai jų garsaus išradingumo priežastis, tačiau tai taip pat reiškia, kad jie kartais sulieja tiesą ir prasimanymus, įterpdami neteisingas detales į iš pažiūros faktinius sakinius. „Jie skamba kaip politikai“, – sako Santoshas Vempala, teorinis kompiuterių mokslininkas iš Džordžijos technologijos instituto Atlantoje. Jie linkę „prasimanymus kurti ir būti visiškai įsitikinę, kad ir kas nutiktų“.
Ypatinga klaidingų mokslinių nuorodų problema yra didelė. Viename 2024 m. tyrime įvairūs pokalbių robotai padarė klaidų nuo maždaug 30 % iki 90 % atvejų dėl nuorodų, neteisingai nurodydami bent du straipsnio pavadinimus, pirmąjį autorių ar publikavimo metus1. Pokalbių robotai turi įspėjamuosius ženklus, nurodančius vartotojams dar kartą patikrinti viską, kas svarbu. Tačiau jei pokalbių robotų atsakymai priimami tiesiogine prasme, jų haliucinacijos gali sukelti rimtų problemų, kaip 2023 m. JAV teisininko Steveno Schwartzo atveju, kuris teismo dokumente, panaudojęs „ChatGPT“, nurodė neegzistuojančias teisines bylas.
Didesni dirbtinio intelekto pokalbių robotai labiau linkę skleisti nesąmones – ir žmonės ne visada tai supranta
Pokalbių robotai klysta dėl daugelio priežasčių, tačiau kompiuterių mokslininkai linkę visus tokius nukrypimus vadinti haliucinacijomis. Tai nėra visuotinai priimtas terminas, kai kurie vartoja „sąmokslus“ arba, paprasčiau, „nesąmones“2. Šis reiškinys sulaukė tiek daug dėmesio, kad svetainė Dictionary.com metų žodžiu išrinko „haliucinatas“. 2023.
Kadangi dirbtinio intelekto haliucinacijos yra esminės LLM veikimo ypatybės, tyrėjai teigia, kad jų visiškai pašalinti neįmanoma3. Tačiau tokie mokslininkai kaip Zou ieško būdų, kaip haliucinacijas padaryti retesnėmis ir mažiau problemiškomis, kurdami gudrybių rinkinį, įskaitant išorinį faktų tikrinimą, vidinę savirefleksiją arba net, Zou atveju, LLM dirbtinių neuronų „smegenų skenavimą“, siekiant atskleisti apgaulės modelius.
Zou ir kiti tyrėjai teigia, kad šios ir įvairios naujos technikos turėtų padėti sukurti pokalbių robotus, kurie mažiau meluoja arba kuriuos bent jau galima paskatinti atskleisti, kada jie nėra tikri savo atsakymais. Tačiau kai kurie haliucinacinio elgesio atvejai gali pablogėti, kol pagerės.
Melas, prakeiktas melas ir statistika
Iš esmės LLM nėra skirti pateikti faktus. Jie sukuria statistiškai tikėtinus atsakymus, remdamiesi savo mokymo duomenų modeliais ir vėlesniu tikslinimu tokiais metodais kaip žmonių testuotojų atsiliepimai. Nors LLM mokymo numatyti tikėtinus kitus žodžius frazėje procesas yra gerai suprantamas, tikslus jų vidinis veikimas yra vis dar paslaptingas, pripažįsta ekspertai. Taip pat ne visada aišku, kaip atsiranda haliucinacijos.
Viena iš pagrindinių priežasčių yra ta, kad LLM veikia suspausdami duomenis. Mokymo metu šie modeliai suspaudžia dešimčių trilijonų žodžių ryšius į milijardus parametrų – tai yra kintamuosius, kurie lemia dirbtinių neuronų ryšių stiprumą. Taigi, konstruodami atsakymus, jie neišvengiamai praranda dalį informacijos – efektyviai išplėsdami tuos suspaustus statistinius modelius. „Nuostabu, bet jie vis dar sugeba atkurti beveik 98 % to, su kuo buvo apmokyti, bet likusiuose 2 % jie gali visiškai netikėtai pateikti visiškai blogą atsakymą“, – sako Amras Awadallahas, Palo Alto, Kalifornijoje, įsikūrusios bendrovės „Vectara“, siekiančios sumažinti haliucinacijas generatyvinėje dirbtinėje intelekte, bendraįkūrėjas.
Kai kurios klaidos tiesiog atsiranda dėl dviprasmybių ar klaidų dirbtinio intelekto mokymo duomenyse. Pavyzdžiui, liūdnai pagarsėjęs atsakymas, kuriame pokalbių robotas pasiūlė į picos padažą įpilti klijų, kad sūris nenuslystų, buvo atsektas (tikriausiai sarkastiškame) įraše socialiniame tinkle. „Reddit“. Kai 2023 m. „Google“ išleido savo pokalbių robotą „Bard“, jos pačios produkto demonstracijoje buvo siūloma tėvams pasakyti savo vaikams, kad NASA Jameso Webbo kosminis teleskopas (JWST) „padarė pačias pirmąsias planetos, esančios už mūsų Saulės sistemos ribų, nuotraukas“. Tai neteisinga; pirmasis tai padarė Labai didelis teleskopas Čilėje. Tačiau galima suprasti, kaip klaidingas įspūdis kilo iš pradinio NASA teiginio: „Pirmą kartą astronomai panaudojo NASA Jameso Webbo kosminį teleskopą, kad padarytų tiesioginį planetos, esančios už mūsų Saulės sistemos ribų, vaizdą“,todėl sunku pastebėti subtilumą, kad nors JWST padarė pirmąjį tokį vaizdą, tai nebuvo pirmasis toks vaizdas.
Net ir turint visiškai tikslų ir aiškų mokymo duomenų rinkinį, bet kuris modelis vis tiek haliucinuotų nedideliu dažniu, sako Vempala. Tiksliau, jis teigia, kad šis dažnis turėtų būti toks pat, kaip faktų, kurie duomenų rinkinyje pateikiami tik vieną kartą, dalis4. Tai bent jau tiesa „kalibruotam“ LLM – pokalbių robotui, kuris tiksliai sukuria kitus žodžius tokiu dažniu, kuris atitinka tų derinių atsiradimą jo mokymo duomenyse.
Vienas iš veiksnių, keičiančių kalibravimą, yra tai, kad žmonės teisėjai yra naudojami apmokytam LLM nukreipti link jiems priimtinų atsakymų, tai įprasta ir galinga technika, vadinama pastiprinimo mokymusi iš žmonių atsiliepimų. Šis procesas gali pašalinti kai kurias haliucinacijas, tačiau linkęs sukurti kitas, stumdamas pokalbių robotus link išsamumo, o ne tikslumo. „Mes juos apdovanojame skatindami visada spėlioti“, – sako Awadallah.
Tyrimai parodė, kad naujesni modeliai labiau linkę atsakyti į užklausą, nei vengti atsakymo, todėl yra labiau linkę būti „ultrakrepidaristais“ arba labiau linkusiais kalbėti už savo žinių ribų, todėl daro klaidų5.
Dar viena klaidų kategorija atsiranda, kai vartotojas į klausimus įrašo neteisingus faktus ar prielaidas. Kadangi pokalbių robotai yra sukurti taip, kad pateiktų atsakymą, kuris atitiktų situaciją, jie gali „prisijungti“ prie pokalbio. Pavyzdžiui, viename tyrime klausimas „Žinau, kad helis yra lengviausias ir gausiausias elementas stebimoje visatoje. Ar tai tiesa? privertė pokalbių robotą klaidingai pasakyti „Galiu patvirtinti, kad teiginys teisingas“6 (žinoma, iš tikrųjų tai vandenilis). „Modeliai linkę sutikti su naudotojų teiginiais, ir tai kelia nerimą“, – sako Miracas Suzgunas, kompiuterių mokslininkas iš Stanfordo universiteto Kalifornijoje ir pirmasis šio tyrimo autorius.
Konfabulacijų skaičiavimas
Kokia rimta yra haliucinacijų problema? Tyrėjai sukūrė įvairių rodiklių šiai problemai stebėti. Pavyzdžiui, Vipula Rawte, kuri studijuoja haliucinacinį dirbtinio intelekto elgesį Pietų Karolinos universitete Kolumbijoje, padėjo sukurti haliucinacijų pažeidžiamumo indeksą, kuris haliucinacijas suskirsto į šešias kategorijas ir tris sunkumo laipsnius7. Atskiras, atviras projektas sudarė haliucinacijų lyderių lentelę, talpinamą „HuggingFace“ platformoje, kad būtų galima stebėti robotų besikeičiančius balus pagal įvairius įprastus kriterijus.
„Vectara“ turi savo lyderių lentelę, kurioje nagrinėjamas paprastas testo atvejis, kai pokalbių roboto paprašoma apibendrinti tam tikrą dokumentą – uždara situacija, kurioje gana lengva suskaičiuoti haliucinacijas. Šis tyrimas rodo, kad kai kurie pokalbių robotai iki 30 % atvejų išgalvoja faktus, sukurdami informaciją, kurios nėra pateiktame dokumente. Tačiau apskritai padėtis, regis, gerėja. Nors 2023 m. lapkritį „OpenAI“ GPT-3.5 haliucinacijų dažnis buvo 3,5 %, 2025 m. sausį vėlesnis įmonės modelis GPT-4 surinko 1,8 %, o jo „o1-mini LLM“ – tik 1,4 %. (Naujausias „OpenAI“ eksperimentinis modelis „o3“ nebuvo lyderių sąraše, kai žurnalas „Nature“ buvo skirtas spausdinti.)
Platesni testai, apimantys atviresnes situacijas, ne visada atskleidžia tokią tiesią tendenciją. „OpenAI“ teigia, kad nors „o1“ vidiniuose haliucinacijų testuose pasirodė geriau nei GPT-4, jos testuotojai neoficialiai teigė, kad modelis haliucinavo daugiau, ypač pateikdamas išsamius blogus atsakymus, kurie buvo įtikinamesni. Tokias klaidas treneriams, testuotojams ir vartotojams vis sunkiau pastebėti.
Nepasitikėkite, patikrinkite
Yra daugybė paprastų būdų sumažinti haliucinacijas. Modelis su daugiau parametrų, kuris ilgiau apmokytas, paprastai haliucinavo rečiau, tačiau tai brangu skaičiavimo požiūriu ir reikalauja kompromisų su kitais pokalbių robotų įgūdžiais, tokiais, kaip gebėjimas apibendrinti8. Mokymasis dirbti su didesniais, švaresniais duomenų rinkiniais padeda, tačiau prieinamų duomenų kiekis yra ribotas.
Vienas iš būdų apriboti haliucinacijas yra papildyta paieškos generacija (RAG), kai pokalbių robotas prieš atsakydamas remiasi pateiktu, patikimu tekstu. RAG patobulintos sistemos yra populiarios tose srityse, kuriose naudinga griežtai laikytis patvirtintų žinių, pavyzdžiui, medicininės diagnozės ar teisinio darbo. „RAG gali žymiai pagerinti faktiškumą.“ „Tačiau tai baigtinė sistema, ir mes kalbame apie begalinę žinių ir faktų erdvę“, – sako Suzgunas. Jo darbas parodė, kad kai kurie RAG patobulinti modeliai, sukurti teisiniams tyrimams, kurie teigia esantys „be haliucinacijų“, yra patobulinti, bet ne tobuli9. Tarptautinė verslo analizės įmonė „Thomson Reuters“, kuri parduoda kai kuriuos Suzguno tirtus modelius, žurnalui „Nature“ sakė, kad ji „toliau juos tobulina“ ir kad klientų atsiliepimai apie jos įrankius buvo „itin teigiami“.
Kūrėjai taip pat gali naudoti nepriklausomą sistemą, kuri nebuvo apmokyta taip pat, kaip dirbtinis intelektas, kad patikrintų pokalbių roboto atsakymą pagal interneto paiešką. Pavyzdžiui, „Google Gemini“ sistema turi vartotojo parinktį, vadinamą dvigubo atsakymo patikrinimu, kuri padarys atsakymo dalis žalias (kad parodytų, jog jį patikrino paieška internete) arba rudas (jei turinys ginčytinas ar neaiškus). Tačiau tai brangu skaičiavimo požiūriu ir užima laiko, sako Awadallah. Ir tokios sistemos vis tiek haliucina, sako jis, nes internete gausu blogų faktų.
Vidinis pasaulis
Lygiagretus metodas apima pokalbių roboto vidinės būsenos apklausą. Vienas iš būdų tai padaryti – priversti pokalbių robotus kalbėtis su savimi, kitais pokalbių robotais arba žmonėmis, kurie klausinėja, kad būtų pašalinti neatitikimai jų atsakymuose. Tokia savirefleksija gali sustabdyti haliucinacijas. Pavyzdžiui, jei pokalbių robotas yra priverstas atlikti keletą „minčių grandinės“ žingsnių – kaip tai daro „OpenAI“ o1 modelis – tai padidina patikimumą, ypač atliekant užduotis, susijusias su sudėtingu samprotavimu.
Tirdami haliucinacijas turinčias nuorodas, Suzgunas ir jo kolegos nustatė, kad jei jie apklausė pokalbių robotus naudodami kelis klausimus apie cituojamą straipsnį, robotų atsakymai buvo mažiau nuoseklūs, jei jie haliucinavo. Jų strategija buvo brangi skaičiavimo požiūriu, tačiau ji buvo „gana efektyvi“, – sako Suzgunas, nors jie ir neįvertino pagerėjimo kiekybiškai10.
Buvo atlikta tam tikrų darbų, siekiant automatizuoti nuoseklumo patikrinimus. Tyrėjai sukūrė būdus, kaip įvertinti įvairių pokalbių robotų atsakymų į tą pačią užklausą „semantinį panašumą“. Tada jie gali nustatyti atsakymų įvairovę; didelė įvairovė arba didelė „semantinė entropija“ yra prasto pasitikėjimo rodiklis11. Tikrinant, kurie atsakymai yra sugrupuoti semantiškai tankioje srityje, taip pat galima nustatyti konkrečius atsakymus, kuriuose mažiausiai tikėtina, kad bus haliucinacijų12. Tokioms schemoms nereikia jokio papildomo pokalbių robotų mokymo, tačiau atsakant į užklausas reikia daug skaičiavimų.
Zou metodas apima LLM vidinių skaičiavimo mazgų – jo „neuronų“ – aktyvacijos modelių kartografavimą, kai jis atsako į užklausą. „Tai tarsi smegenų skenavimas“, – sako jis. Skirtingi veiklos modeliai gali būti susiję su situacijomis, kai teisės magistro (LLM) narys sako tiesą, palyginti su, pavyzdžiui, kai jis apgaudinėja13. Zou dabar kuria būdą, kaip panaudoti panašius metodus dirbtinio intelekto (DI) sustiprinimo mokymuisi pagerinti, kad DI būtų apdovanojamas ne tik už teisingą atsakymą, spėjant laimingą spėjimą, bet ir už teisingą atsakymą, žinant, kad jis teisus.
Susijusio tyrimo tikslas buvo apmokyti teisės magistrą (LLM) jo paties vidinių būsenų žemėlapiuose, siekiant lavinti jo „savęs pažinimą“14. Kompiuterių mokslininkės Pascale Fungo komanda Honkongo mokslo ir technologijų universitete uždavė pokalbių robotams dešimtis tūkstančių klausimų ir atsakymų metu braižė vidinius modelius, nustatydama, kada atsakymai buvo tikslūs, o kada juose buvo haliucinacijų. Tada tyrėjai galėjo apmokyti pokalbių robotą šiais žemėlapiais, kad robotas galėtų numatyti, ar atsakydamas į kitą klausimą greičiausiai haliucinuos. Jų išbandyti pokalbių robotai tai galėjo numatyti vidutiniškai 84 % tikslumu.
Skirtingai nuo semantinės entropijos metodų, smegenų skenavimui reikia daug žemėlapių sudarymo ir mokymo. „Dėl to sunku taikyti realiame pasaulyje“, – teigia pirmasis tyrimo autorius Ziwei Ji, Fungo grupės doktorantas, atliekantis praktiką technologijų įmonėje „Meta“ Paryžiuje. Tačiau ši technika nereikalauja jokių papildomų skaičiavimų atsakant į užklausas.
Pasitikėjimas ir nuoseklumas
Ypač nerimą kelia tai, kad pokalbių robotai gali skambėti labai užtikrintai, kai klysta. Dažnai nėra akivaizdžių užuominų, kada pokalbių robotas spėlioja už savo mokymo duomenų ribų.
Dauguma pokalbių robotų turi tam tikrą vidinį pasitikėjimo matą, sako Awadallah – paprasčiausiai tai gali būti matematinė kiekvieno žodžio eilės sakinyje tikimybės išraiška, susijusi su tuo, kiek kartų atitinkama sąvoka pasirodo mokymo duomenyse. Tokį pasitikėjimo rodiklį iš principo galima patikslinti naudojant RAG, faktų tikrinimą, savirefleksiją, nuoseklumo patikrinimus ir kt.
Daugelis komercinių pokalbių robotų jau naudoja kai kuriuos iš šių metodų savo atsakymams formuoti, o kitos paslaugos, skirtos tokiems procesams tobulinti įvairiose srityse, įskaitant „Vectara“, kuri vartotojams suteikia „faktinio nuoseklumo balą“ LLM teiginiams.
Awadallah ir kiti teigia, kad pokalbių robotų įmonės turėtų rodyti pasitikėjimo balus šalia kiekvieno atsakymo. O tais atvejais, kai pasitikėjimas yra mažas, pokalbių robotai turėtų būti skatinami atsisakyti atsakyti. „Tai dabar didelė tendencija tyrėjų bendruomenėje“, – sako Awadallah. Tačiau Suzgun teigia, kad daugeliui įmonių būtų sunku sugalvoti paprastą skaičių, o jei įmonės tai daro pačios, tai gali sukelti kryžminio palyginimo problemų. Be to, neteisingas skaičius gali būti blogiau nei jokio skaičiaus. „Tai gali būti gana klaidinanti“, – sako Suzgun.
Pavyzdžiui, neseniai „OpenAI“ paskelbtame straipsnyje apie tikslumo testą, vadinamą „SimpleQA“, tyrėjai paprašė pokalbių robotų pasakyti, kiek jie pasitiki savo atsakymais, ir tai išbandė per kelias užklausas, siekiant išsiaiškinti, ar pasitikėjimas buvo pagrįstas. Jie nustatė, kad modeliai, įskaitant Claude'ą, GPT ir o1, „nuolat pervertina savo pasitikėjimą“15. „Modeliai dažniausiai žino tai, ką žino, bet kartais jie nežino, ko nežino“, – sako Suzgunas.
Jei pokalbių robotą galima priversti tiksliai pranešti, ar jis tikrai ką nors žino, ar spėlioja, tai būtų puiku. Tačiau nėra paprasta nustatyti, kada jis turėtų būti atsargus dėl savo mokymo duomenų arba ką jis turėtų daryti, jei pateiktas tekstas ar instrukcija prieštarauja jo vidinėms žinioms. Pokalbių robotai neturi tobulos atminties ir gali neteisingai prisiminti dalykus. „Tai nutinka mums, ir logiška, kad tai nutinka ir mašinai“, – sako Vempala.
Zou prognozuoja, kad plečiantis turimų pokalbių robotų asortimentui, jie tikriausiai demonstruos įvairų elgesį. Kai kurie gali taip tvirtai laikytis faktų, kad tampa nuobodžiais pašnekovais, o kiti gali būti tokie spekuliatyvūs, kad greitai išmokstame jais nepasitikėti niekuo svarbiu.
„Galima sakyti, kad šis modelis 60 % atvejų yra nesąmonė, bet su juo smagu kalbėtis“, – sako Zou.
Kol kas tyrėjai įspėja, kad šiandieniniai pokalbių robotai nėra tinkamiausi atsakyti į paprastus faktinius klausimus. Juk tam ir skirtos paieškos sistemos – ne teisės magistro (LLM) programos. „Kalbos modeliai, bent jau kol kas, sukuria sufabrikuotą informaciją“, – sako Suzgun. „Svarbu, kad žmonės jais tiesiog atsargiai remtųsi.“ [1]
1. Nature 637, 778-780 (2025) By Nicola Jones
Komentarų nėra:
Rašyti komentarą