Sekėjai

Ieškoti šiame dienoraštyje

2025 m. gegužės 5 d., pirmadienis

Dirbtinis intelektas tampa galingesnis, bet jo haliucinacijos stiprėja


„Praėjusį mėnesį dirbtinio intelekto (AI) robotas, teikiantis techninę pagalbą kylančiam kompiuterių programuotojų įrankiui „Cursor“, įspėjo kelis klientus apie pasikeitusią įmonės politiką. Joje teigiama, kad jiems nebeleidžiama naudoti „Cursor“ daugiau, nei viename kompiuteryje.

 

Piktuose įrašuose interneto forumuose klientai skundėsi. Kai kurie atšaukė savo „Cursor“ paskyras. O kai kurie dar labiau supyko, kai suprato, kas nutiko: dirbtinio intelekto robotas paskelbė apie politikos pakeitimą, kurio nebuvo.

 

„Mes neturime tokios politikos. Žinoma, galite laisvai naudoti „Cursor“ keliuose kompiuteriuose“, – „Reddit“ įraše rašė įmonės generalinis direktorius ir vienas iš įkūrėjų Michaelas Truellas. „Deja, tai neteisingas atsakymas iš dirbtinio intelekto palaikymo roboto.“

 

Praėjus daugiau, nei dvejiems metams po „ChatGPT“ atsiradimo, technologijų įmonės, biurų darbuotojai ir paprasti vartotojai naudoja dirbtinio intelekto robotus vis įvairesnėms užduotims atlikti. Tačiau vis dar nėra jokio būdo užtikrinti, kad šios sistemos pateiktų tikslią informaciją.

 

Naujausios ir galingiausios technologijos – vadinamosios samprotavimo sistemos iš tokių įmonių, kaip „OpenAI“, „Google“ ir Kinijos startuolio „DeepSeek“ – generuoja daugiau, o ne mažiau klaidų. Jų matematikos įgūdžiams pastebimai pagerėjus, jų faktų suvokimas tapo silpnesnis. Nėra iki galo aišku, kodėl.

 

Šiandienos dirbtinio intelekto robotai yra pagrįsti sudėtingomis matematinėmis sistemomis, kurios mokosi savo įgūdžių analizuodamos didžiulius skaitmeninių duomenų kiekius. Jie nenusprendžia – ir negali nuspręsti – kas yra tiesa, o kas – melas. Kartais jie tiesiog išsigalvoja – reiškinys, kurį kai kurie dirbtinio intelekto tyrėjai vadina haliucinacijomis. Vieno bandymo metu naujesnių dirbtinio intelekto sistemų haliucinacijų rodiklis siekė net 79 procentus.

 

Šios sistemos naudoja matematines tikimybes, kad atspėtų geriausią atsakymą, o ne griežtą žmonių inžinierių nustatytą taisyklių rinkinį. Taigi, jos padaro tam tikrą skaičių klaidų. „Nepaisant mūsų geriausių pastangų, jos visada haliucinuos“, – sakė Amras Awadallahas, dirbtinio intelekto įrankius verslui kuriančios startuolio „Vectara“ generalinis direktorius ir buvęs „Google“ vadovas. „Tai niekada neišnyks.“

 

Jau keletą metų šis reiškinys kelia susirūpinimą dėl šių sistemų patikimumo. Nors jos yra naudingos kai kuriose situacijose, pavyzdžiui, rašant kursinius darbus, santraukuojant biuro dokumentus ir generuojant kompiuterio kodą, jų klaidos gali sukelti problemų.

 

Dirbtinio intelekto robotai, susieti su paieškos sistemomis, tokiomis, kaip „Google“ ir „Bing“, kartais pateikia juokingai klaidingus paieškos rezultatus. Jei paklausite jų apie gerą maratoną Vakarų pakrantėje, jie gali pasiūlyti lenktynes ​​Filadelfijoje. Jei jie pasakys namų ūkių skaičių Ilinojuje, jie gali nurodyti šaltinį, kuriame nėra šios informacijos.

 

Daugeliui žmonių šios haliucinacijos gali būti ne didelė problema, tačiau tai rimta problema visiems, kurie naudojasi šia technologija su teismo dokumentais, medicinine informacija ar jautriais verslo duomenimis.

 

„Daug laiko praleidžiate, bandydami išsiaiškinti, kurie atsakymai yra faktiniai, o kurie ne“, – teigė Pratikas Verma, „Okahu“, bendrovės, padedančios įmonėms spręsti haliucinacijų problemą, bendraįkūrėjas ir generalinis direktorius. „Netinkamas šių klaidų sprendimas iš esmės panaikina dirbtinio intelekto sistemų, kurios turėtų automatizuoti užduotis už jus, vertę.“

 

Cursor ir ponas Truell neatsakė į prašymus pakomentuoti.

 

Daugiau, nei dvejus metus tokios bendrovės, kaip „OpenAI“ ir „Google“ nuolat tobulino savo dirbtinio intelekto sistemas ir mažino šių klaidų dažnumą. Tačiau naudojant naujas samprotavimo sistemas, klaidų daugėja. Remiantis pačios bendrovės atliktais testais, naujausios „OpenAI“ sistemos haliucinacijas sukelia dažniau, nei ankstesnė bendrovės sistema.

 

Bendrovė nustatė, kad galingiausia jos sistema „o3“ haliucinavo 33 procentais laiko, kai vykdė „PersonQA“ etaloninį testą, kurio metu reikia atsakyti į klausimus apie viešus asmenis. Tai daugiau, nei dvigubai, didesnis haliucinacijų dažnis, nei ankstesnėje „OpenAI“ samprotavimo sistemoje „o1“. Naujasis „o4-mini“ haliucinavo dar didesniu dažniu: 48 procentais.

 

Atlikus kitą testą, vadinamą „SimpleQA“, kuriame užduodami bendresnio pobūdžio klausimai, „o3“ ir „o4-mini“ haliucinacijų dažnis buvo 51 ir 79 procentai. Ankstesnė sistema „o1“ haliucinavo 44 procentais laiko.

 

Straipsnyje, kuriame išsamiai aprašomi testai, „OpenAI“ teigė, kad norint suprasti šių rezultatų priežastį, reikia daugiau tyrimų. Kadangi dirbtinio intelekto sistemos mokosi iš daugiau duomenų, nei žmonės gali suvokti, technologams sunku nustatyti, kodėl jos elgiasi taip, kaip elgiasi.

 

„Haliucinacijos nėra savaime labiau paplitusios samprotavimo modeliuose, nors mes aktyviai dirbame, kad sumažintume didesnį haliucinacijų dažnį, kurį matėme „o3“ ir „o4-mini“, – sakė bendrovės atstovė Gaby Raila. „Mes tęsime haliucinacijų tyrimus visuose modeliuose, kad pagerintume tikslumą ir patikimumą.“

 

Hannaneh Hajishirzi, Vašingtono universiteto profesorė ir „All“ tyrėja,  Dirbtinio intelekto instituto atstovė yra komandos, neseniai sukūrusios būdą atsekti sistemos elgesį iki atskirų duomenų dalių, su kuriomis ji buvo apmokyta, dalis. Tačiau kadangi sistemos mokosi iš tiek daug duomenų – ir kadangi jos gali generuoti beveik viską – ši nauja priemonė negali paaiškinti visko. „Mes vis dar nežinome, kaip šie modeliai tiksliai veikia“, – sakė ji.

 

Nepriklausomų įmonių ir tyrėjų atlikti bandymai rodo, kad haliucinacijų dažnis taip pat didėja tokių įmonių, kaip „Google“ ir „DeepSeek“ samprotavimo modeliuose.

 

Nuo 2023 m. pabaigos pono Awadallah įmonė „Vectara“ stebi, kaip dažnai pokalbių robotai nukrypsta nuo tiesos. Įmonė prašo šių sistemų atlikti paprastą užduotį, kurią lengva patikrinti: apibendrinti konkrečius naujienų straipsnius. Net ir tada pokalbių robotai nuolat išgalvoja informaciją.

 

Pradinis „Vectara“ tyrimas parodė, kad šioje situacijoje pokalbių robotai informaciją sukūrė bent 3 procentus laiko, o kartais net 27 procentus.

 

Per pusantrų metų nuo to laiko tokios įmonės kaip „OpenAI“ ir „Google“ sumažino šiuos skaičius iki 1 ar 2 procentų ribos. Kitos, pavyzdžiui, San Francisko startuolis „Anthropic“, svyravo apie 4 procentus. Tačiau haliucinacijų dažnis šiame teste išaugo, naudojant samprotavimo sistemas.

 

„DeepSeek“ samprotavimo sistema R1 haliucinavo 14,3 procento laiko. „OpenAI“ o3 pakilo iki 6,8.

 

(„The New York Times“ padavė „OpenAI“ ir jos partnerę „Microsoft“, apkaltindami juos autorių teisių pažeidimu dėl naujienų turinio, susijusio su dirbtinio intelekto sistemomis. „OpenAI“ ir „Microsoft“ šiuos teiginius neigė.)

 

Daugelį metų tokios įmonės, kaip „OpenAI“ rėmėsi paprasta koncepcija: kuo daugiau interneto duomenų jos įvedė į savo dirbtinio intelekto sistemas, tuo geriau jos veiks. Tačiau jos sunaudojo beveik visą anglišką tekstą internete, o tai reiškė, kad joms reikėjo naujo būdo tobulinti savo pokalbių robotus.

 

Taigi šios įmonės labiau remiasi technika, kurią mokslininkai vadina sustiprinimo mokymusi. Šio proceso metu sistema gali išmokti elgesio bandymų ir klaidų metodu. Tam tikrose srityse, pavyzdžiui, matematikoje ir kompiuterių programavime, ji veikia gerai. Tačiau kitose srityse jai nesiseka.

 

„Taip, kaip šios sistemos yra apmokytos, jos pradeda sutelkti dėmesį į vieną užduotį ir pamiršti apie kitas“, – teigė Laura Perez-Beltrachini, Edinburgo universiteto tyrėja, kuri yra viena iš komandos, atidžiai nagrinėjančios haliucinacijų problemą.

 

Kita problema yra ta, kad samprotavimo modeliai yra sukurti taip, kad, prieš apsispręsdami dėl atsakymo, praleistų laiką, „apmąstant“ sudėtingas problemas. Bandydami spręsti problemą žingsnis po žingsnio, jie rizikuoja haliucinuoti kiekviename žingsnyje. Klaidos gali didėti, kai jie praleidžia daugiau laiko galvodami.

 

Naujausi robotai atskleidžia kiekvieną žingsnį vartotojams, o tai reiškia, kad vartotojai taip pat gali matyti kiekvieną klaidą. Tyrėjai taip pat nustatė, kad daugeliu atvejų roboto rodomi veiksmai nesusiję su galutiniu atsakymu.

 

„Tai, ką sistema sako galvojanti, nebūtinai yra tai, ką ji galvoja“, – sakė Aryo Pradipta Gema, dirbtinio intelekto specialistas. Edinburgo universiteto tyrėjas ir „Anthropic“ bendradarbis.“ [1]

 


1.  A.I. Is Getting More Powerful, but Its Hallucinations Are Getting Worse. Metz, Cade; Weise, Karen.  New York Times (Online) New York Times Company. May 5, 2025.

Komentarų nėra: