„Kaip žino visi eilių rašinėtojai, rimus reikia suporuoti, prieš pradedant naują eilutę. Priešingu atveju galite patekti į aklavietę su netinkamai parinktu. Nauji tyrimai rodo, kad šią įžvalgą taiko ir dirbtinis intelektas (DI). Kai Claude'o, didelio kalbos modelio (LLM), paprašoma parašyti rimuotą kupletą, jis pradeda galvoti apie antrąją rimo dalį, kai tik parašomas pirmas žodis. Jei jam pasakoma pirmoji eilutė „jis pamatė morką ir turėjo ją paimti“, DI iš karto pradeda galvoti apie triušius, rašydamas kitą sakinį, kad jis baigtųsi tinkamu rimu.
Toks numatymas yra netikėtas, sako tyrėjas Josh Batson. Tokios sistemos veikia taip, kad jos rašo tekstą po vieną „žetoną“, ir jis tikėjosi, kad metodas bus tiesmukiškai linijinis: pradėkite rašyti kitą sakinį ir svarstykite galimus rimus tik eilutės pabaigoje. Tačiau kai dr. Batsonas ir jo komanda iš „Anthropic“, DI laboratorijos, sukūrusios Claude'ą, sukūrė įrankį, kuris leido jiems žvilgtelėti į DI smegenis. Savo DI (LLM) skaitmeninėse smegenyse jie atrado netikėtą sudėtingumą.
Jų sukurtas įrankis, kurį tyrėjai vadina skaitmeniniu „mikroskopu“, leidžia jiems stebėti, kurios neuroninio tinklo dalys aktyvuojamos, kai jis „mąsto“. Stebint, kada aktyvuojamos skirtingos modelio funkcijos, galima suprasti, ką daro modeliai: jei tam tikra LLM sritis užsidega, kai ji ištaria tokius žodžius, kaip „zuikis“ ar „triušis“, tai ji pažymima, kaip susijusi su triušiais.
Tai leido komandai išspręsti kai kuriuos atvirus klausimus dirbtinio intelekto tyrimuose. Pavyzdžiui: kai pokalbių robotas yra daugiakalbis, ar iš tikrųjų yra visa antroji visko, ką jis žino, kopija, ar jis turi tam tikrų žinių apie sąvokas, kurios peržengia kalbos ribas? Paklauskite jo angliškai, kas yra priešinga žodžiui „didelis“, prancūziškai – kas yra priešinga žodžiui „didelis“, o kiniškai – kas yra priešinga Hanzi simboliui tai pačiai sąvokai, ir ta pati funkcija užsidega kiekvienu atveju, prieš įsijungiant daugiau kalbai būdingų grandinių, kurios „išverčia“ mažumo sąvoką į konkretų žodį.
Tai rodo, kad LLM gali būti pajėgesni, nei apie juos manoma. „Samprotavimo“ modeliai, kurie atspausdina minčių grandinę, kuria jie priėjo prie išvados, reiškia, kad įprasti DI (LLM) specialistai dažnai apibūdinami, kaip veikiantys, vadovaujantis instinktu. Tačiau mikroskopas net ir tuose paprastesniuose modeliuose rodo elgesį, kuris, atrodo kaip planavimas ir samprotavimas, ir mažai ką panašaus į paprastą šablonų derinimą.
Tačiau kitos įžvalgos yra mažiau padrąsinančios. Kai paties Claude'o paprašoma samprotauti, atspausdinant minčių grandinę, kurios reikia, norint atsakyti į matematikos klausimus, mikroskopas leidžia manyti, kad tai, kaip modelis teigia priėjęs prie išvados, ir tai, ką jis iš tikrųjų galvojo, ne visada sutampa. Užduokite LLM specialistui sudėtingą matematikos klausimą, kurio jis nežino, kaip išspręsti, ir jis „kvailios“ kelią iki atsakymo: užuot iš tikrųjų bandęs, jis nusprendžia išspjauti atsitiktinius skaičius ir judėti toliau.
Dar blogiau, užduokite vedantįjį klausimą – pavyzdžiui, siūlydamas, kad atsakymas „galėtų būti 4“ – ir modelis vis tiek slapta meluoja, kaip savo atsakymo dalį, bet užuot atsitiktinai pasirinkęs skaičius, jis specialiai įterps skaičius, kurie galiausiai prives prie sutikimo su klausimu, net jei pasiūlymas yra neteisingas.
Tačiau, anot dr. Batsono, galimybė pažvelgti į DI (LLM) protą ir pamatyti, kada jis nusprendžia meluoti, suteikia užuominų, kaip sustabdyti tą patį ateityje. Juk tikslas yra visiškai išvengti smegenų operacijos – skaitmeninės ar kitokios. Jei galite pasitikėti, kad modelis sako tiesą apie savo mąstymo procesą, pabrėžia jis, tai žinoti, ką jis galvoja, turėtų būti taip paprasta, kaip perskaityti stenogramą.“ [1}
1. AI think, therefore AI am. The Economist; London Vol. 455, Iss. 9442, (Apr 5, 2025): 70, 71.
Komentarų nėra:
Rašyti komentarą