Mokslas, studijos ir ekonomika: Kodėl aukštos kokybės duomenys dabar yra svarbesni, nei bet kada anksčiau, dirbtinio intelekto srityje

„Kalbos modeliai padarė didelę pažangą. Tačiau, norint atlikti dar sudėtingesnes užduotis ir tapti universalesniais, jiems reikia daugiau, nei vien skaičiavimo galios.

Nesvarbu, ar tai „ChatGPT“, „Gemini“, ar „Qwen“ – visi šie kalbos modeliai galiausiai yra pagrįsti ta pačia technologija. Juos skiria naudojami mokymo duomenys. Surinktų, filtruojamų ir generuojamų mokymo duomenų tipas lemia kalbos modelio kokybę: kaip patikimai jis atkuria faktus, kaip gerai atlieka užduotis ir kada jam pasireiškia haliucinacijos.

Trumpai tariant: kalbos modeliai labai gerai veikia užduotims, kuriose yra gerų mokymo duomenų. Užduotims be gerų mokymo duomenų jie greitai sugenda.

Kalbos modeliai šiuo metu tobulėja pirmiausia nustatant jų silpnąsias vietas ir specialiai renkant arba generuojant duomenis, kad būtų galima užpildyti šias spragas. Pavyzdžiui, kalbos modeliai dabar yra ekspertų lygio matematikos ir programavimo srityse – abiejose srityse jie turėjo didelių trūkumų vos prieš dvejus metus.

Kaip tai veikia, tampa aišku, kai nagrinėjami mokymo duomenys. Primename: kalbos modeliai turi tikslą – išmokti numatyti kitą žodį tekste, pirmiausia naudojant didžiulius duomenų rinkinius, o vėliau, tikslinimui, naudojant konkrečius pavyzdžius, tokius, kaip klausimai ir atitinkami atsakymai. Tokio paprasto ėjimo, kaip sugeneruoti kito žodžio garsus, pakanka sugeneruoti ištisus tekstus, atsakyti į klausimus ir užprogramuoti.

Šio pradinio mokymo tekstai daugiausia gaunami iš interneto. Norėdami juos gauti, dirbtinio intelekto kūrėjai pirmiausia surenka visus prieinamus tekstus. Šie tekstai yra neįtikėtinai įvairūs: Vikipedija, naujienų straipsniai, moksliniai straipsniai, forumų diskusijos ir, žinoma, daug reklamos. Tačiau didelė dalis prieinamų tekstų yra nesuprantami, prastos kokybės ir tiesiogiai netinkami mokymui. Jie identifikuojami – kartais naudojant mažus kalbos modelius – ir filtruojami. Lieka nedidelė interneto dalis, bet vis tiek didžiulis teksto kiekis, prilygstantis šimtams milijonų knygų.

Tada tekstai yra vertinami: tekstai, kurie mokymo duomenyse dažnai pasirodo labai panašiomis formomis, yra sumažinami, o kiti labai aukštos kokybės tekstai dubliuojami ir naudojami tolesniam mokymui. Tada tekstas mokymo duomenyse pasirodo kelis kartus. Tai subtilus procesas. Viena vertus, tokie faktai, kaip „Berlynas yra sostinė Vokietijoje“ turėtų pasirodyti kelis kartus, kad modelis išmoktų ir teisingai atkurtų tokius faktus. Kita vertus, kūrėjai nori išvengti pernelyg dažno tekstų pasirodymo identiškomis arba labai panašiomis formomis, nes kitaip kalbos modelis linkęs atkurti šiuos tekstus pažodžiui.

Pavyzdžiui, yra straipsnių iš „New York Times“, kuriuos „OpenAI“ kalbos modelis GPT-4 atkuria beveik pažodžiui po minimalių raginimų. Taip atsitinka, kai tokie tekstai labai dažnai pasirodo mokymo duomenyse. Šis pastebėjimas, beje, yra „New York Times“ vykdomo ieškinio prieš „OpenAI“ ir „Microsoft“ dėl autorių teisių pažeidimo pagrindas.

Kai mašinos generuoja duomenis

Bet kodėl kalbos modeliai apskritai gali atlikti tokias įvairias užduotis? Kodėl jie gali apibendrinti tekstus, išmokti programuoti ir atsakyti į klausimus tiesiog numatydami kitą žodį tekstuose iš interneto?

Internete yra tiek daug tekstų, kad net ir retų formatų, tokių, kaip klausimų ir atsakymų poros, taip pat tekstų ir jų atitinkamų santraukų, pasitaiko daug. Tačiau tokių pavyzdžių santykinė dalis yra labai maža. Todėl po šio pradinio mokymo modelis dažnai atsako į klausimą ne atsakymu, bet su kitu klausimu, nes yra daug svetainių, kurios susideda tik iš klausimų, pavyzdžiui, viktorinų svetainės ar praktikos pratimai.

Norint interneto duomenimis apmokytą kalbos modelį paversti naudingu asistentu, kuris atsako į klausimus ir vykdo instrukcijas, jis yra tiksliai sureguliuojamas. Paprasčiausias ir efektyviausias būdas tai tiksliai suderinti yra mokyti duomenimis, kurie rodo norimą elgesį, pavyzdžiui, į klausimus duodant atitinkamus atsakymus. Tokiu būdu modelis išmoksta atsakyti į klausimą, o ne pats jį užduoti.

Pirmojoje kalbos modelių kartoje žmonės atliko svarbų vaidmenį, generuojant tokius duomenis. Jie rašė atsakymus į klausimus ir įvertino skirtingus atsakymus, kaip geresnius arba blogesnius, leisdami modeliui sužinoti, kuriuos atsakymus žmonės renkasi.

Sintetiniai duomenys, t. y. pačių kalbos modelių generuojami duomenys, tampa vis svarbesni mokymui, nes daugiau duomenų paprastai yra naudinga. Ir kadangi puikūs internete prieinami tekstai jau yra plačiai naudojami mokymui – daugelis tekstų iš interneto yra žemos kokybės tekstai dažnai atmetami mokymo tikslais. Tačiau tokie tekstai gali būti puikus pagrindas generuoti sintetinius duomenis, kuriuos vėliau galima naudoti mokymui. Kalbos modeliai naudojami tokiems prastos kokybės ar vidutiniškiems duomenims paversti aukštos kokybės duomenimis.

Kaip ir žmonės, kalbos modeliai geriau mokosi, kai mato informaciją, pateiktą skirtingais variantais. Todėl gali būti veiksminga generuoti skirtingas teksto versijas, naudojant kalbos modelį ir naudoti jas mokymui. Tokie sintetiniai duomenys vaidina vis svarbesnį vaidmenį, mokant kalbos modelius.

Mokymasis, naudojant sintetinius duomenis yra labai efektyvus. Sintetiniai duomenys taip pat gali būti naudojami kitų modelių galimybėms atkartoti. Pavyzdžiui, jei tokia įmonė, kaip „OpenAI“ išleidžia naują, aukštos kokybės, kalbos modelį, kitos įmonės galėtų jį naudoti duomenims, kurie pagerina jų pačių modelius, generuoti, net jei „OpenAI“ paslaugų teikimo sąlygos tai aiškiai draudžia.

Įtikinamas pavyzdys yra „Deepseek V3“. Tai labai geras kalbos modelis, kurį Kinijos įmonė „Deepseek“ nemokamai pateikė 2024 m. gruodžio mėn. „V3“ greitai pateko į antraštes, nes „Deepseek“ inžinieriams pavyko gana pigiai apmokyti labai gerą modelį. Dėl to dirbtinio intelekto lustų bendrovės „Nvidia“ akcijų kaina sausio mėnesį vos per vieną dieną smuko 17 procentų. Pagrindinė Kinijos sėkmės priežastis yra ta, kad „Deepseek“ darbuotojai dirbo su labai aukštos kokybės duomenimis.

Geresni duomenys leidžia apmokyti tokį pat gerą modelį su mažesne skaičiavimo galia – taigi ir mažesnėmis sąnaudomis.

Paklaustas „koks modelis esate?“, V3 atsako: „Aš esu dirbtinio intelekto kalbos modelis, vadinamas „ChatGPT“, sukurtas „OpenAI“, o tai rodo, kad kai kurie mokymo duomenys yra gauti iš „OpenAI“ modelių.

Mūsų pačių tyrimas patvirtina šią prielaidą: V3 reaguoja į daugelį raginimų taip, kad juos labai sunku atskirti nuo GPT-4 atsakymų, o tai rodo, kad kai kurie „Deepseek“ mokymo duomenys buvo sugeneruoti, naudojant GPT-4.

Taip taip pat gali būti dėl to, kad „Deepseek“ modelis buvo apmokytas, naudojant duomenis iš interneto, nes internete jau 2024 m. buvo daug „OpenAI“ modelių sugeneruotų tekstų.

Minties žingsnių analizė

Vienas iš svarbiausių pokyčių kalbos modelių srityje per pastaruosius pusantrų metų buvo jų mokymas atlikti ilgus mąstymo procesus. Dauguma modelių dabar turi tokią „mąstymo“ funkciją: susidūręs su klausimais, kuriuos reikia apmąstyti, modelis pirmiausia atlieka mąstymo veiksmus, o tada pateikia atsakymą, pagrįstą šiais veiksmais. Pavyzdžiui, „OpenAI“ O1 modelis, „Google“ „Gemini Thinking“ ir „Deepseek“ R1 modelis. Tokie mąstymo veiksmai yra labai naudingi, atsakant į sudėtingesnius klausimus.

Tai taip pat galima iliustruoti trumpu pavyzdžiu. Klausimas: Ona turi tris kriaušes ir nusiperka dar dvi – kiek ji jų turi tada? Mąstymo veiksmai arba mąstymo procesas yra toks: Ona turi tris kriaušes. Ji nusiperka dar dvi. Trys plius du lygu penki. Atsakymas: penkios kriaušės.

Tokie mąstymo procesai ne tik padaro atsakymą suprantamą, bet, dar svarbiau, žymiai pagerina jo kokybę. Į daug sudėtingesnius klausimus galima atsakyti, plėtojant atsakymą per šiuos mąstymo procesus. Tokie mąstymo procesai yra ypač naudingi sudėtingų klausimų, pavyzdžiui, matematinių, atveju. Mąstymo procese modelis siūlo įvairius metodus, kai kuriuos atmeta, kitus išbando ir ištaiso Klaidas, joms pasitaikant. Sudėtingoms matematinėms problemoms spręsti mąstymo procesai gali lengvai apimti 50 ar daugiau puslapių. Jie paprastai nerodomi vartotojui. Tai turi savo kainą: ilgesnėms samprotavimo eilutėms kalbos modelis turi sugeneruoti daugiau teksto, o tam reikia daugiau apdorojimo galios.

Modelio mokymo apie tokius mąstymo procesus sudėtingumas slypi tame, kad tokių duomenų rašytine forma yra labai mažai. Pavyzdžiui, kai matematikai sprendžia sudėtingą problemą, jie paprastai užrašo tik teisingą sprendimą, bet ne sudėtingus mąstymo procesus ir bandymus, kurie padėjo rasti sprendimą.

Norint išmokti tokių mąstymo procesų matematikoje, lemiamą vaidmenį atlieka vadinamasis sustiprinimo mokymasis. Šiame procese modeliai išbando skirtingas samprotavimo linijas, ir tos samprotavimo linijos, kurios veda prie teisingų sprendimų, atitinkamai tampa labiau tikėtinos. Tai leidžia kalbos modeliams išmokti generuoti ilgus ir sudėtingus mąstymo procesus, kurie veda prie sprendimo. Tai veikia tik tuo atveju, jei modelis jau geba tvirtai matematiškai samprotauti; kitaip jis negalėtų generuoti jokių mąstymo procesų, kurie veda prie sprendimo.

Todėl sustiprinimo mokymasis gali būti laikomas metodu, kuriuo kalbos modeliai mokosi iš savarankiškai sugeneruotų, sintetinių duomenų. Tam būtina sąlyga – gebėjimas automatiškai įvertinti, ar tekstas ar rezultatas yra geras, ar blogas. Tai dažnai įmanoma matematikoje ir programavime, ir tai yra pagrindinė priežastis, kodėl kalbos modeliai tapo tokie galingi šiose srityse.

Kalbos modeliai vis dažniau naudojami sistemose, kuriose jie savarankiškai sąveikauja su kompiuteriais, kad atliktų užduotis, pavyzdžiui, užsakytų skrydžius, įvertintų duomenis ar atliktų tyrimus. Tokios sistemos vadinamos agentais. Kaip ir mąstymo procesuose, kalbos modeliai čia taip pat mokosi iš pavyzdžių, kai tokios užduotys buvo sėkmingai išspręstos – kai kurias sukūrė žmonės, kai kurias – patys kalbos modeliai.

Norėdamas įvertinti, kaip gerai Miuncheno technikos universiteto studentas supranta mano paskaitų medžiagą, aš, kaip ir dauguma mano kolegų, naudoju egzaminus ir kursinius darbus. Egzamino tipo klausimai taip pat dažnai naudojami kalbos modeliams, siekiant patikrinti jų galimybes. Vienas iš pavyzdžių yra Jungtinių Valstijų medicinos licencijavimo egzaminas – gydytojų licencijavimo egzaminas Jungtinėse Valstijose. Egzaminą sudaro klausimai su keliais atsakymų variantais apie pagrindus, klinikines žinias ir ligų gydymą. Bendrieji kalbos modeliai, tokie, kaip GPT-4, taip pat specializuoti kalbos modeliai medicinai, lengvai išlaiko tokius egzaminus ir pasiekia panašius balus kaip ir medicinos specialistų. Tas pats pasakytina ir apie kitas profesines grupes.

Tačiau lygiai taip pat, kaip geras egzamino pažymys tik iš dalies numato, kaip gerai studentas gali pritaikyti paskaitos medžiagą darbe ar tyrimuose, kalbos modelio aukštas našumas dar mažiau pasako apie jo gebėjimą produktyviai vykdyti procesus profesinėje aplinkoje, pavyzdžiui, ligoninėje.

Žmonės gali daug lanksčiau perkelti žinias į naujas situacijas, nei kalbos modeliai. Kita vertus, kalbos modeliai yra ypač veiksmingi, kai mokymo duomenys labai panašūs į užduotis.

Todėl kalbos modelius tikrai galima naudoti labai sudėtingiems procesams profesiniame gyvenime; tačiau jie turi būti apmokyti, naudojant tinkamus duomenis.

Duomenų spragų užpildymas

Kokios yra dirbtinio intelekto, orientuoto į mokymo duomenis, pasekmės? Kalbos modeliai ypač tinka užduotims, kuriose yra daug, tinkamų naudoti ir aukštos kokybės duomenų. Net ir ankstyviausi kalbos modeliai puikiai pasižymėjo rašant dalykus, kuriems internete yra daug gerų pavyzdžių, pavyzdžiui, receptus, santraukas ir bendrąsias žinias.

Šiandieniniai modeliai taip pat labai gerai veikia, atliekant labai sudėtingas matematines ar programavimo užduotis, nes egzistuoja arba buvo sugeneruota daug aukštos kokybės duomenų.

Užduotims, kuriose surinkti ar sugeneruoti pakankamai duomenų yra sudėtingiau – kaip daugelyje mokslo sričių, teisinėse paslaugose ar vidiniuose verslo procesuose – kalbos modelių sėkmė priklausys nuo šių duomenų spragų užpildymo.

Tai, kad bendrieji modeliai nuolat tobulėja, tai mažai ką keičia. Tie, kurie nori naudoti kalbos modelius specializuotoms užduotims, turi juos apmokyti tinkamais duomenimis. Todėl vis dar yra didelis potencialas padaryti kalbos modelius daug geresnius ir naudingesnius. Reikšminga šio darbo dalis bus susijusi su mokymo duomenų rinkimu ir generavimu.

Prof. dr. Reinhardas Heckelis eina Mašininio mokymosi katedros vedėjo pareigas Miuncheno technikos universiteto Kompiuterių inžinerijos katedroje.

Skaitmeninė ekonomika

Viską, kas svarbu apie dirbtinį intelektą, platformų ekonomiką ir skaitmeninimą, galima rasti kartu su daugybe išsamių žinių mūsų PRO skaitmeninės ekonomikos produktuose.“ [1]

1. Wieso es in der Künstlichen Intelligenz jetzt erst recht auf hochwertige Daten ankommt. Frankfurter Allgemeine Zeitung; Frankfurt. 09 Feb 2026: 19. Von Reinhard Heckel

Mokslas, studijos ir ekonomika

Sekėjai

Ieškoti šiame dienoraštyje

Subscribe Now: Feed Icon

Tinklaraščio archyvas

Apie mane

2026 m. gegužės 2 d., šeštadienis

Kodėl aukštos kokybės duomenys dabar yra svarbesni, nei bet kada anksčiau, dirbtinio intelekto srityje

Komentarų nėra:

Translate