"Ne paslaptis, kad, norint sukurti didelį kalbos modelį (LLM), reikia daug duomenų. Įprastų mokymų metu LLM yra paduodami kalnai teksto ir skatinamas atspėti kiekvieną žodį, prieš jam pasirodant. Su kiekvienu numatymu LLM daro mažus pataisymus, kad pagerintų tikimybę atspėti teisingai. Galutinis rezultatas yra kažkas, kas turi tam tikrą statistinį „supratimą“, kas yra tinkama kalba, o kas ne.
Tačiau LLM, tik praėjęs šį vadinamąjį „išankstinį mokymą“, dar nėra ypač naudingas. Pavyzdžiui, paprašytas pajuokauti, kad nudžiugintų korespondentą, iš anksto apmokytas modelis GPT-2 tiesiog pakartojo klausimą tris kartus. Paklaustas, kas yra Amerikos prezidentas, ji atsakė: "Atsakymas yra ne. Prezidentas nėra prezidentas". Akivaizdu, kad norint išmokyti LLM daryti tai, ko nori žmonės, reikia kažko daugiau.
Vienas iš būdų suderinti tokius modelius su vartotojų lūkesčiais yra sustiprinti mokymąsi iš žmogaus grįžtamojo ryšio (RLHF). Amerikiečių startuolis „OpenAI“ pristatė šią techniką 2022 m. kovo mėn. išleistame išankstiniame leidinyje. Tai buvo pagrindinis „ChatGPT“ receptas, „ChatGPT“, kuris buvo išleistas po aštuonių mėnesių.
RLHF paprastai apima tris etapus. Pirma, žmonių savanorių prašoma pasirinkti, kuris iš dviejų galimų LLM atsakymų galėtų geriau atitikti nurodytą raginimą. Tada tai kartojama daugybę tūkstančių kartų. Tada šis duomenų rinkinys naudojamas apmokyti antrąjį LLM, kad jis iš tikrųjų palaikytų žmogų. Šis vadinamasis atlygio modelis, skirtas priskirti aukštesnius balus atsakymams, kurių žmogus norėtų, ir žemesnius balus visiems kitiems, naudojamas mokant pradinį LLM. Paskutinis prisilietimas – mašininio mokymosi technika, vadinama sustiprinamuoju mokymusi, pakoreguoja pradinio LLM rankenėles ir svirtis, kad padėtų sustiprinti elgesį, už kurį duodamas atlygis.
Toks RLHF būdas yra gana sudėtingas – dviejų atskirų LLM naudojimas reikalauja laiko ir pinigų, o mokymosi pastiprinimui naudojamas algoritmas, cituojant Rafaelį Rafailovą iš Stanfordo universiteto, yra „gana skausmingas“. Tai reiškė, kad be OpenAI, Google ir jų konkurentų niekas iš tikrųjų neišnaudojo viso jos potencialo.
Dabar paaiškėja, kad tuos pačius rezultatus galima pasiekti, įdėjus tik dalelę pastangų. Dr. Rafailovas ir jo kolegos, įskaitant Archit Sharma ir Eric Mitchell, pristatė šią alternatyvą 2023 m. gruodžio mėn. NeurIPS, AI konferencijoje. Jų metodas, tiesioginis pirmenybių optimizavimas (DPO), remiasi patenkinamu matematiniu triuku.
Šis triukas priklauso nuo pastebėjimo, kad kiekvienam atlygio modeliui yra konkretus teorinis LLM, kuris gautų visus balus, o kiekvienas LLM taip pat turi teorinį atlygio modelį, kuris suteiktų jam puikių spalvų. (Kaip dar proziškiau, kiekvienos kelnės turi teorinį asmenį, kuriam jos puikiai tiktų, ir kiekvienas žmogus turi teorinęs kelnes, kurios geriausiai tiktų.) Šis pastebėjimas, kad kiekvienas LLM slepia numanomą atlygio modelį, leido tyrėjams. tiesiogiai dirbti su šiuo modeliu. Senajame režime LLM mokėsi iš atlygio modelio, kuris mokėsi iš duomenų. Dabar LLM gali mokytis tiesiogiai iš duomenų.
Pasak autorių, pašalinus tarpininką, DPO yra nuo trijų iki šešių kartų efektyvesnis, nei RLHF ir gali geriau atlikti tokias užduotis, kaip teksto apibendrinimas. Jos paprastas naudojimas jau leidžia mažesnėms įmonėms spręsti suderinimo problemą, sako dr. Sharma.
Prieš metus tik keli pasaulyje pirmaujantys modeliai, tokie, kaip Google Gemini ir OpenAI GPT-4, galėjo sau leisti naudoti RLHF. Tačiau kovo 12 d. aštuoni iš dešimties, aukščiausią reitingą užimančių, LLM pramonės lyderių sąraše naudojo DPO. Ją naudoja prancūzų startuolis „Mistral“, siekiantis konkuruoti su „OpenAI“. Socialinės žiniasklaidos milžinas „Meta“ integravo ją į, namuose auginamą, LLM.
Tolimesni patobulinimai tikrai bus. Viena vertus, sutariama, kad didžiosios AI laboratorijos patobulino savo patentuotus algoritmus nuo tada, kai 2022 m. nustojo skelbti išsamią informaciją. Tačiau problema, kaip priversti LLM daryti tai, ko norėtų ir tikisi žmogus, dar toli gražu nėra išspręsta. Juk net kiti žmonės retkarčiais sunkiai su ja kovoja.“ [1]
1. "How to train your large language model." The Economist, 13 Mar. 2024, p. NA.
Komentarų nėra:
Rašyti komentarą