Sekėjai

Ieškoti šiame dienoraštyje

2025 m. gruodžio 25 d., ketvirtadienis

Dirbtinis intelektas: kokia iš tikrųjų mūsų padėtis?


„ChatGPT sukėlė didžiausią iki šiol DI bumą. Tačiau kiek toli nuėjo kalbų modeliai? O kas toliau? Apžvalga.

 

1. Naujausi pokyčiai: Nuo „ChatGPT“ išleidimo 2022 m. lapkritį DI pasaulis vystėsi sprogstamai. Nauji modeliai ir įrankiai atsiranda beveik kas savaitę. Vartotojams tai reiškia precedento neturinčias galimybes, bet ir didžiules pasiūlymų džiungles. Norint rasti tinkamą įrankį konkrečiam tikslui, dabar reikia beveik tiek pat patarimų, kiek ir patirties.

 

Šie pokyčiai taip pat vis dažniau pasiekia rinką. Netrukus po „ChatGPT“ paskelbimo, 2023 m. kovo 14 d. buvo išleistas GPT-4. Po to, 2024 m. gegužės 13 d., buvo išleistas GPT-4o, o 2025 m. sausio 20 d. – gerai žinomas „Deepseek-R1“ modelis. Šių metų rugpjūčio 5 d. buvo išleistas GPT-Oss modelis. Vos po kelių dienų, rugpjūčio 7 d., buvo išleistas GPT-5, GPT-4 įpėdinis. Palyginimui, buvo dvejų metų skirtumas tarp „ChatGPT“ ir paskutinio „novatoriško“ modelio prieš jį – GPT-3.

 

Tačiau kuriami ne tik nauji kalbos modeliai, bet ir nauji taikymo metodai. Vartotojo požiūriu, tai pirmiausia reiškia, kad lengviau rasti tinkamą modelį norimai programai arba pritaikyti prie jos esamą modelį. Vienas iš naujo ir vis labiau populiarėjančio taikymo metodo pavyzdžių yra vadinamųjų DI agentų naudojimas.

 

Dažnai reikalinga DI sistema, kuri neapsiriboja tik savo žiniomis, įgytomis mokymo metu, bet ir gali pasiekti išorinius išteklius ar įrankius, kad užtikrintų, jog atsakymai yra teisingi ir atnaujinti, arba gauti informaciją iš konkretaus išorinio duomenų šaltinio. Šis gebėjimas naudoti išorinius įrankius yra būtent tai, kas išskiria DI agentą.

 

DI agentai yra modulinės konstrukcijos. Jei vartotojas nurodo DI agentui išspręsti sudėtingą matematinę problemą, DI atpažįsta, kad tai užduotis, kuriai reikalingos išorinio skaičiuotuvo galimybės. Užuot pasikliavęs vien savo (potencialiai nepakankamais) mokymo duomenimis, DI kreipiasi į skaičiuotuvą, kuris atlieka skaičiavimą teisingai ir patikimai. DI agentai yra labai įvairūs – jie gali būti sukurti, pavyzdžiui, vaizdams generuoti pagal aprašymą arba paieškai internete atlikti.

 

Siekiant įvertinti dabartinius kalbos modelius pagal jų agentų galimybes, buvo sukurti įvairūs etalonai, pavyzdžiui, „Tau“ etalonas. Šis etalonas specializuojasi, vertinant agentų bendravimo su žmonėmis įgūdžius, ypač labai realistiškuose kontekstuose, kai vartotojas užduoda neaiškius klausimus ir iš pradžių nepateikia pakankamai informacijos apie tikslią užduotį arba net kai užduotis pasikeičia pokalbio metu. Ankstesni etalonai, priešingai, buvo specializuoti konkrečioms, individualioms užduočių sritims, tokioms, kaip apsipirkimas ar kelionės. Šiuo metu tokie dirbtinio intelekto modeliai, kaip „Claude“ iš „Anthropic“ ir „OpenAI“ GPT-4o užima aukščiausias vietas „Tau“ etalone, o tai reiškia, kad šie modeliai yra pajėgiausi atlikti įvairias, kartais sudėtingas užduotis.

 

„GPT-Oss“, naujas „OpenAI“ modelis, taip pat gerai veikia „Tau“ etalone ir kituose į samprotavimą orientuotuose etalonuose, beveik taip pat gerai, kaip ir „GPT-4o-mini“. Tai gera žinia vartotojams ir tyrėjams, nes „GPT-Oss“ turi dar vieną puikią savybę: skirtingai. nei ankstesni, gerai žinomi, „OpenAI“ modeliai, tokie, kaip GPT-4 ir GPT-4o, GPT-Oss yra vadinamasis atvirojo svorio modelis. Tai reiškia, kad iš anksto apmokytus GPT-Oss parametrus galima pasiekti ir modifikuoti, juos mokant arba tiksliai derinant. Tai leidžia geriau kontroliuoti modelio elgesį, nei tiesiog naudojant tinkamus raginimus.

 

2. Kiek iš tikrųjų yra dirbtinis intelektas: Nauji leidimai ne visada reiškia pažangą. Vienas iš tokių pavyzdžių yra GPT-5: Modelis turėjo būti svarbus etapas, maždaug tiek pat, kiek GPT-4, palyginti su GPT-3. Todėl GPT-5 buvo išleistas su daugybe ambicingų pažadų. Tačiau reakcijos po išleidimo buvo prieštaringos. Daugelis manė, kad jų lūkesčiai nebuvo patenkinti, nes GPT-5 nebuvo toks novatoriškas, kaip jo pirmtakas. Be to, išleidimas lėmė ankstesnių modelių pašalinimą be išankstinio įspėjimo, o tai supykdė vartotojus.

 

Nepaisant to, kalbant apie našumą, GPT-5 yra labai geras modelis. Tiesą sakant, GPT-5 yra geriausias modelis LM-Arenoje, populiariausiame bendrosios paskirties etaloniniame teste, o tai rodo stiprų modelio našumą ir bendrus pajėgumus. Tačiau tai gali būti ne geriausias modelis kiekvienai užduočiai. Pavyzdžiui, GPT-5 yra tik penktas geriausias modelis pagal „Simple Bench“ samprotavimo testą.

 

Kalbant apie lyginamuosius testus, svarbu atkreipti dėmesį, kad nors jie suteikia tam tikrų įžvalgų apie kalbos modelio galimybes, tai reikėtų suprasti, kaip vertinimą, o ne visuotinai galiojančią išvadą. Modeliai gali labai gerai atlikti lyginamąjį testą, tačiau taikomi „realaus pasaulio“ duomenims panašioje užduočių srityje, jie vis tiek kartais gali nepasiteisinti. Tai rodo, kad modelis, iš tikrųjų, neįvaldė lyginamuoju testu matuojamų gebėjimų – jis turi tik ribotus gebėjimus, kurie yra labai priklausomi nuo konteksto,  tai reiškia, kad jie priklauso nuo tikslios užduoties formuluotės arba konkrečių modeliui pateiktų pavyzdžių.

 

Taip paprastai nutinka vadinamųjų „kontrafaktinių“ užduočių atveju, kai teisingas sprendimas ar požiūris skiriasi nuo įprasto. Kontrafaktinėje užduotyje galime nurodyti, kad žodis „šuo“ nereiškia gyvūno, kaip įprasta, o transporto priemonės. Nors žmonės gali greitai prisitaikyti prie šios naujos reikšmės ir atitinkamai interpretuoti sakinius, kalbos modeliams tai labai sunku. Priežastis: jie daugiausia buvo apmokyti duomenimis, kuriuose žodžiai turi savo kasdienę, įprastą reikšmę. Deja, ši problema dar neišspręsta – net nauji modeliai, tokie, kaip „Deepseek-R1“ ir „GPT-4/-5“, daro tokias reikšmingas klaidas, nepaisant sudėtingų mokymo procedūrų, skirtų gilesniems mąstymo gebėjimams lavinti. Tai rodo, kad naujųjų modelių galimybės dar nėra pakankamai bendros.

 

Be to, tais atvejais, kai dirbtinio intelekto modeliai pranoksta žmones lyginamuosiuose testuose, labai svarbu atidžiai apsvarstyti, kaip buvo gauti žmonių rezultatai. Dažnai žmonės vertinami kitaip, nei modeliai, pavyzdžiui, testuojant tik mažesnę klausimų dalį. Vertinimo metodai taip pat skiriasi priklausomai nuo užduoties. Kartais naudojamas kelių žmonių daugumos sprendimas, kartais – geriausiai pasirodžiusio asmens rezultatas. Todėl geras didelio dirbtinio intelekto kalbos modelio veikimas gali reikšti labai skirtingus dalykus, priklausomai nuo etalono.

 

3. Pirmoji „Transformer“ architektūra ir BERT: Dabartiniai dirbtinio intelekto kalbos modelių pokyčiai ir sėkmė yra pagrįsti vadinamąja „Transformer“ architektūra, kuri buvo paskelbta 2017 m. gerai žinomame moksliniame straipsnyje „Dėmesys yra viskas, ko jums reikia“. Straipsnyje parodyta, kad vienodai gerų (ar net geresnių) rezultatų galima pasiekti, naudojant dirbtinio intelekto modelį, pritaikius tik tam tikrus ankstesnių architektūrų komponentus ir praleidžiant kitus. Tai buvo svarbus paradigmos pokytis, palyginti su ankstesnėmis dominuojančiomis ilgesnių tekstų apdorojimo architektūromis, kurios slypi už tokių santrumpų, kaip RNN ir LSTM.

 

Netrukus po to, 2018 m., „Google“ tyrėjai sukūrė dirbtinio intelekto modelį BERT. Jis pagrįstas „Transformer“ architektūra ir buvo apmokytas nauju mokymo metodu, vadinamu „Masked Language Modeling“. Taikant šį metodą, dalis teksto sąmoningai pakeičiama tuščiais tarpais, o modelis išmoksta numatyti trūkstamus žodžius. Tai leido BERT labai bendrai suprasti kalbos modelius ir atsakyti į daugelį skirtingų klausimų, pateikiant, labiausiai tikėtiną, atsakymą. Dėl šio mokymo metodo BERT buvo laikomas kalbos modeliu (LM).

 

4, Mastelio keitimas ir dideli kalbos modeliai po BERT: Netrukus paaiškėjo, kad kalbos modeliai tampa dar geresni, kai jie yra didesni ir apmokomi, naudojant daugiau mokymo duomenų. Šis procesas vadinamas „mastelio keitimu“. Mastelio keitimas transformuoja „kalbos modelį“ į „didelį kalbos modelį“ (LLM). Tai tapo įmanoma dėl žymiai padidėjusios skaičiavimo galios. Žinoma, bėgant metams, buvo atlikta ir įvairių „Transformer“ architektūros modifikacijų, kurios taip pat prisidėjo prie didelių kalbos modelių sėkmės. Nepaisant to, vyravo nuomonė, kad sudėtingos užduotys, kurių negalėjo atlikti mažesni modeliai, pirmiausia buvo išsprendžiamos mastelio keitimu. Tai taip pat buvo pagrįsta tuo, ką dirbtinio intelekto ekspertai vadina „atsirandančiais gebėjimais“ – gebėjimu spręsti užduotis, kurios kyla, tik viršijus tam tikrą modelio dydį, ir netikėtu būdu.

 

Norėdamos išplėsti kalbos modelių galimybes, didelės įmonės investavo astronomines sumas, kad jas dar labiau padidintų. Vienas pavyzdys yra „Google“ PALM modelis, turėjęs 540 milijardų parametrų ir daugelyje užduočių pralenkęs mažesnius modelius. Tokio dydžio modelių trūkumas yra tas, kad jie negali veikti įprastame asmeniniame kompiuteryje. Vietoj to, jie paprastai pasiekiami per sąsają arba veikia ypač galinguose skaičiavimo klasteriuose. Jie veikia su galingais serveriais. Nors nauji modeliai paprastai yra brangesni, nei jų pirmtakai, papildoma nauda tikrai gali pateisinti didesnes išlaidas.

 

 

5. Kiti mokymo metodai: Tai ne tik mastelio keitimas: mastelio keitimas nėra vienintelis būdas pagerinti kalbos modelio galimybes. Po BERT eros buvo sukurta daug papildomų mokymo metodų, kurie remiasi pagrindiniu, bendruoju mokymu (išankstiniu mokymu).

 

 

Vienas iš pavyzdžių yra tikslusis derinimas, kai tik dalis modelio yra apmokoma konkrečiai užduočiai. Tam reikia daug mažiau duomenų, nei išankstiniam mokymui, ir modelis specializuojamas tikslinei užduočiai – tai pagerina tos užduoties našumą, palyginti su iš anksto apmokytu „baziniu modeliu“. Gerai žinoma tiksliojo derinimo forma yra vadinamasis instrukcijų derinimas. Naudojant šį metodą, modeliai yra apmokomi pagal vartotojo instrukcijas, kad geriau jas atpažintų ir į jas reaguotų. Dėl to kalbos modeliai gali interpretuoti tokias instrukcijas, kaip „Papasakokite apie gerus restoranus netoliese“, kaip užklausą. Atitinkamai, jie sugeneruos restoranų sąrašą, o ne tiesiog bandys tęsti tekstą, kaip pasaką.

 

 

Priešingai, vadinamojo kontekstinio mokymosi atveju vartotojas pateikia modeliui keletą pavyzdžių tiesiog raginime, kad parodytų, kaip išspręsti užduotį. Pavyzdžiui, prieš sudėtingą matematikos uždavinį galima pateikti du ar tris panašius išspręstus uždavinius. Tokiu būdu modelis geriau supranta, kaip elgtis toliau, ir dažnai pateikia tikslesnius rezultatus. Tačiau, skirtingai, nei tikslinant, modelis nėra visam laikui pakeičiamas – jis mokosi iš pavyzdžių tik dabartinės užklausos metu, o jo vidiniai parametrai nėra koreguojami mokymo metu.

 

Įdomu tai, kad instrukcijų derinimas ir kontekstinis mokymasis yra susiję su atsirandančiais gebėjimais. 2024 m. atliktoje analizėje parodėme, kad šie gebėjimai jokiu būdu nėra netikėti – juos galima paaiškinti, kaip žinių, įgytų iš mokymo duomenų, ir to, kaip vartotojai šias žinias iš naujo aktyvuoja, naudodami ICL raginimus (mokymasis kontekste, ICL, yra mokymosi forma, kai LLM mokosi atlikti naujas užduotis, analizuodami, raginime įterptus, pavyzdžius, nereikalaujant jokių parametrų atnaujinimų) arba instrukcijų derinimo, derinio. Tai dar vienas pavyzdys, rodantis, kad vien mastelio keitimas nėra raktas į tolesnį kalbos modelių tobulinimą – reikia derinti kelis metodus.

 

6. Nauji po mokymo metodai: Tinkamo po mokymo metodo svarbą kalbos modelio veikimui galima įrodyti sustiprinto mokymosi sėkme. Pagrindinė idėja yra ta, kad daugeliui užduočių reikia kelių tarpinių žingsnių. Mes, žmonės, paprastai ne iš karto pasiekiame sprendimą, o mąstome žingsnis po žingsnio – kartais net garsiai. Kita vertus, kalbos modelių dažnai prašoma tik tiesiogiai pateikti teisingą atsakymą. Ir būtent čia jie dažnai žlunga, kai kalbama apie sudėtingas problemas.

 

Iš pradžių tai leido daryti išvadą, kad kalbos modeliai neturi sudėtingų samprotavimo gebėjimų. Tačiau ši prielaida pasirodė esanti klaidinga – kalbos modeliai iš tiesų turi tokių gebėjimų; juos tiesiog reikia aktyvuoti tinkamu metodu.

 

Vienas iš tokių metodų yra minties grandinės (CoT) raginimas, kai modelis raginamas ne iš karto pateikti sprendimą, o pirmiausia paaiškinti mąstymo procesą, kaip tai darytų žmogus. Keista, bet šis metodas dažnai veda prie daugiau teisingų atsakymų, nei įprastas raginimas. Šios sėkmės priežastis yra ta, kad kalbos modelis prieš galutinį atsakymą sugeneruoja daugiau žetonų, o tai leidžia modeliuoti sudėtingą tikimybinį ryšį tarp užduoties ir teisingo atsakymo per kelis mažiau sudėtingus ryšius tarp mąstymo proceso žetonų. Žinoma, CoT ne visada veda tiesiai prie teisingo atsakymo. Tačiau svarbus pastebėjimas yra tas, kad net kai sugeneruota minčių grandinė veda prie neteisingo atsakymo, modelis proceso metu rado minčių grandinę, kuri būtų nuvedusi prie teisingo atsakymo, tačiau ji tiesiog nebuvo pasirinkta, kaip labiausiai tikėtina. Todėl modelis sugebėjo rasti teisingą minčių grandinę, bet jos neatpažino. Norint ištaisyti šią klaidą, modelio nereikia permokyti; vietoj to reikia modifikuoti dekodavimo procesą taip, kad teisingos minčių grandinės būtų reitinguojamos aukščiau, nei neteisingos.

 

Toks optimizavimas gali būti pasiektas sustiprinto mokymosi būdu. Tokie modeliai, kaip OpenAI-o1 ir Deepseek-R1 buvo apmokyti, naudojant būtent šį procesą. Yra daug skirtingų mokymo variantų, skirtų optimaliai rasti teisingas minčių grandines. Du gerai žinomi variantai žymimi santrumpomis DPO ir PPO. Abu metodai moko modelį geriau suderinti savo mąstymo procesus su žmonių pageidaujamais mąstymo procesais. „Taisyklės“, pagal kurias modelis vertina savo rezultatus, vadinamos „politika“ – ir būtent tai reikia optimizuoti, kad modelis veiktų teisingai. Šie du metodai skiriasi konkrečiomis šio mokymo detalėmis. PPO (artimiausio politikos optimizavimo) atveju apmokomas aiškus atlygio modelis, kuris teikia grįžtamąjį ryšį pagrindiniam modeliui. DPO (tiesioginio pirmenybės optimizavimo) atveju pagrindinis modelis apmokomas naudojant netiesioginį atlygio modelį.

 

Tokie modeliai, kaip „Deepseek“ ir „OpenAI-o1“ išsiskiria gebėjimu generuoti savo „minčių grandines“. „Deepseek“ yra ypač pastebimas pavyzdys, nes jis buvo apmokytas išskirtinai sustiprinto mokymosi būdu. Modeliai, kurie daugiausia apmokomi, naudojant sustiprinto mokymosi metodus, vadinami „didelių samprotavimo modeliais“ (LRM).

 

Kita šių modelių savybė yra ta, kad jie išveda savo minčių grandines ir taip pat užtrunka daugiau laiko apgalvoti užduotį. Tyrimai parodė, kad ilgesnis skaičiavimo laikas atsakymo teksto generavimo metu lemia geresnius rezultatus, panašiai, kaip žmonės dažnai pateikia geresnius atsakymus, kuo ilgiau galvoja apie problemą.

 

Po „Deepseek“ ir „OpenAI-o1“ sėkmės didėja susidomėjimas LRM. Gali būti, kad LRM netrukus pakeis įprastus kalbos modelius lyginamuosiuose testuose ir tyrimų dėmesio centre.

 

Tačiau svarbu tai, kad LRM nuo įprastų kalbos modelių skiriasi ne savo architektūra, o mokymo ir po mokymo procesais. Transformer architektūra, kuria grindžiami kalbos modeliai, išlieka ta pati ir todėl vis dar yra „moderniausia“.

 

7. Ar Transformer architektūra apskritai pasiekia savo ribas ir ar yra dalykų, kurių jie iš esmės negali padaryti? Kai kurie mokslininkai, pavyzdžiui, „Meta“ vyriausiasis dirbtinio intelekto mokslininkas Yann LeCun, mano, kad dideli kalbos modeliai turi esminę problemą, kylančią iš pačios autoregresinės Transformer architektūros. Konkrečiai, problema ta, kad kito žetono autoregresyvaus prognozavimo procesas visada turi tam tikrą paklaidos ribą – ir šios paklaidos negalima visiškai pašalinti.

 

(Autoregresija (AR) reiškia būsimų reikšmių sekoje (pvz., laiko eilutėje ar tekste) numatymą, naudojant matematinį modelį, kuris regresuoja dabartinę reikšmę pagal savo praeities reikšmes, iš esmės „numatydamas save“, naudodamas savo istoriją.)

 

Todėl visada bus nemaža tikimybė, kad bus numatytos neteisingos žetonų sekos. Žinomos pasekmės yra haliucinacijos, t. y., iš pažiūros sufabrikuotų, beprasmių tekstų generavimas, taip pat toksiškų ar žalingų reakcijų generavimas. Be to, kai kurie tyrėjai mano, kad šio elgesio neįmanoma visiškai kontroliuoti, todėl tai yra kalbos modelių būdingas apribojimas.

 

Tik tolesni tyrimai gali išsiaiškinti, ar ši prielaida teisinga. Naujausi tyrimai parodė, kad didelius kalbos modelius galima valdyti iki tam tikro lygio, ypač kruopščiai atrenkant ir ruošiant duomenis. Taip pat dedama daug pastangų sumažinti toksiškumą ir haliucinacijas, taikant tikslinius mokymo ar tikslinio derinimo procedūras. Nors šiuo metu nėra universalaus veiksmingo šių problemų sprendimo, visiškai įmanoma, kad kalbos modeliai bus valdomi iki patenkinamo lygio tam tikroms galutinėms reikmėms, nors tam gali prireikti didesnių kūrėjų pastangų ir atsargaus vartotojų naudojimo.

 

Šiuo metu neaišku, ar galima sukurti alternatyvią architektūrą, kuri galėtų pakeisti tokius LLM, pavyzdžiui, derinant specializuotas, bet ribotas klasikinių mašininio mokymosi metodų galimybes su apibendrintomis, bet, haliucinacijas skatinančiomis, kalbos modelių galimybėmis, taip sujungiant geriausias abiejų pasaulių savybes. Tačiau taip pat įmanoma, kad ateityje bus sukurta kažkas visiškai naujo, kas galėtų turėti panašų reikšmingą poveikį, kokį savo laiku turėjo kalbos modeliai.

 

 

Prof. dr. Iryna Gurevych atlieka tyrimus ir dėsto Darmštato technikos universitete ir daugiausia dėmesio skiria tam, kaip kompiuteriai gali suprasti ir apdoroti kalbą.

 

 

Irina Bigoulaeva yra doktorantė, Irynos Gurevych vadovaujamoje, tyrimų laboratorijoje.” [A]

 

A. Künstliche Intelligenz: Wo stehen wir wirklich? Frankfurter Allgemeine Zeitung; Frankfurt. 20 Oct 2025: 18.   Von Iryna Gurevych und Irina Bigoulaeva

Komentarų nėra: