Mokslas, studijos ir ekonomika: Duomenų šaltiniai dideliems kalbų modeliams

"2006 m. fei-fei li, tada Ilinojaus universitete, dabar Stanfordo universitete, pamatė, kaip interneto kasyba gali padėti pakeisti AI tyrimus. Kalbos tyrimai nustatė 80 000 "daiktavardžių sinonimų rinkinių" arba sinsetų: sinonimų grupių, kurios Dr Li skaičiavo, kad milijardai vaizdų internete turi pasiūlyti pakankamai jų pavyzdžių, ir jūs turėsite daug daugiau, nei kada nors su tuo dirbantys matė. "Daugelis žmonių atkreipia dėmesį į modelius", - sakė ji. "Atkreipkime dėmesį į duomenis". Rezultatas buvo „ImageNet“.

Internetas suteikė ne tik vaizdus, bet ir išteklius jiems pažymėti. Kai paieškos sistemos pateikdavo nuotraukas, kuriose jie laikomi šunimis, katėmis, kėdėmis ar bet kuo kitu, šiuos vaizdus apžiūrėjo ir komentavo žmonės, įdarbinti per „Amazon“ teikiamą „Mechanical Turk“ paslaugą, kuri leidžia žmonėms užsidirbti pinigų, atliekant kasdienes užduotis. Rezultatas buvo milijonų kuruotų, patikrintų vaizdų duomenų bazė. 2012 m. programa, pavadinta AlexNet, pademonstravo puikų „gilaus mokymosi“ potencialą, ty neuroninių tinklų, turinčių daug daugiau sluoksnių, nei buvo naudojama anksčiau, galimybes. Tai buvo ai bumo ir ženklinimo pramonės, skirtos teikti mokymo duomenis, pradžia.

Vėlesnis didelių kalbų modelių (LLMS) kūrimas taip pat priklausė nuo interneto duomenų, bet kitaip. Klasikinis treniruočių pratimas llm nenuspėja, koks žodis geriausiai apibūdina vaizdo turinį; tai nuspėjimas, koks yra žodis, iškirptas iš teksto dalies, remiantis kitais žodžiais aplink jį.

Tokio pobūdžio mokymuose nereikia žymėtų ir kuruojamų duomenų; sistema gali ištrinti žodžius, spėlioti ir įvertinti savo atsakymus procese, vadinamame „savarankiškai prižiūrimu mokymu“.

Tačiau reikia daug duomenų. Kuo daugiau teksto sistemai pateikiama treniruotėms, tuo ji geresnė.

Atsižvelgiant į tai, kad internetas siūlo šimtus trilijonų teksto žodžių, šiuolaikinė pramonė tapo tokia, kokia atsitiktinai nuosėdose nusėdusios anglies per eonus: kažkas, ką reikia išgryninti į stebuklingą kurą.

„Common Crawl“, daugelio atviro interneto, įskaitant 50 mlrd. tinklalapių, archyvas, buvo plačiai naudojamas dirbtinio intelekto tyrimuose. Naujesni modeliai jį papildė duomenimis iš vis daugiau šaltinių, tokių kaip Books3, plačiai naudojamas tūkstančių knygų rinkinys. Tačiau mašinų potraukis tekstui išaugo tokiu greičiu, kokio negali prilygti internetas. Tyrimų įmonė „Epoch ai“ apskaičiavo, kad iki 2028 m. visos aukštos kokybės tekstinių duomenų atsargos internete bus panaudotos. Pramonėje tai žinoma kaip „duomenų siena“. Kaip susidoroti su šia siena yra vienas iš didžiausių AI klausimų, ir galbūt greičiausiai jis sulėtins AI pažangą.

Vienas iš būdų yra sutelkti dėmesį į duomenų kokybę, o ne kiekybę. ai labs ne tik apmoko savo modelius visame internete. Jie filtruoja ir seka duomenis, kad maksimaliai padidintų, kiek jų modeliai išmoksta. Naveenas Rao iš Databricks, AI firmos, teigia, kad tai yra „pagrindinis skirtumas“ tarp rinkoje esančių AI modelių. Akivaizdu, kad „tikra informacija“ apie pasaulį yra svarbi; taip pat ir daugybė „samprotavimo“. Dėl to, pavyzdžiui, akademiniai vadovėliai yra ypač vertingi. Tačiau pusiausvyros tarp duomenų šaltinių nustatymas tebėra tamsus menas. Be to, svarbu ir tvarka, pagal kurią sistema susiduria su skirtingų tipų duomenimis. Mokymo proceso pabaigoje sudėkite visus duomenis apie vieną temą, pvz., matematiką, ir jūsų modelis gali tapti matematikos specialistu, bet pamiršti kai kurias kitas sąvokas.

Šie svarstymai gali tapti dar sudėtingesni, kai duomenys pateikiami ne tik skirtingomis temomis, bet ir skirtingomis formomis. Iš dalies dėl to, kad trūksta naujų tekstinių duomenų, pirmaujantys modeliai, tokie kaip „Openai“ gpt-4o ir „Google“ „Gemini“, dabar yra paleisti vaizdo, vaizdo ir garso failuose bei tekste, kai mokosi savarankiškai. Vaizdo įrašų mokymas yra sunkiausias, atsižvelgiant į tai, kad vaizdo failai yra tankūs su duomenų taškais. Dabartiniai modeliai paprastai žiūri į kadrų poaibį, kad būtų supaprastinti dalykai.

Kad ir kokie modeliai būtų naudojami, nuosavybės teisė vis dažniau pripažįstama, kaip problema.

Mokymo metu naudojama medžiaga dažnai yra saugoma autorių teisių ir naudojama be teisių turėtojų sutikimo ar nesumokant už tai. Kai kurie AI modeliai žvilgčioja už mokamų sienų. Modelių kūrėjai teigia, kad tokiems dalykams taikoma „sąžiningo naudojimo“ išimtis Amerikos autorių teisių įstatyme. Jie sako, kad ai modeliams turėtų būti leista skaityti autorių teisių saugomą medžiagą, kai jie mokosi, kaip tai gali padaryti žmonės. Tačiau, kaip sakė technologijų analitikas Benedictas Evansas, „masto skirtumas“ gali sukelti „principų skirtumą“.

Skirtingi teisių turėtojai taiko skirtingą taktiką. „Getty Images“ padavė į teismą „Stability ai“, vaizdų kūrimo įmonę, dėl neteisėto jos vaizdų parduotuvės naudojimo. „New York Times“ padavė OpenAI ir Microsoft į teismą dėl milijonų straipsnių autorių teisių pažeidimo. Kiti dokumentai sudarė sandorius dėl jų turinio licencijos. „News Corp“, „Wall Street Journal“ savininkas, per penkerius metus pasirašė 250 mln. dolerių vertės sandorį. (The Economist nepriėmė pozicijos dėl savo santykių su ai įmonėmis.) Tą patį daro ir kiti teksto ir vaizdo įrašų šaltiniai. „Stack Overflow“, kodavimo pagalbos svetainė, „Reddit“, socialinės žiniasklaidos svetainė ir „X“ (buvęs „Twitter“) dabar ima mokestį už prieigą prie savo turinio mokymosi tikslais.

Situacija įvairiose jurisdikcijose skiriasi. Japonija ir Izraelis laikosi labiau leistinos pozicijos, kad propaguoti savo AI pramonę. Europos Sąjunga neturi bendros „sąžiningo naudojimo“ koncepcijos, todėl gali būti griežtesnė. Ten, kur yra sukurtos rinkos, skirtingų tipų duomenys turės skirtingas kainas: modeliams reikės prieigos laiku gauti informaciją iš realaus pasaulio, kad jie būtų atnaujinami.

Modelio galimybes taip pat galima patobulinti, kai savarankiškai prižiūrimo mokymosi būdu sukurta versija, žinoma, kaip iš anksto apmokyta versija, patobulinama naudojant papildomus duomenis po mokymo. Pavyzdžiui, „prižiūrimas koregavimas“ apima žmonių surinktų arba rankomis sukurtų klausimų ir atsakymų porų padavimą modeliui. Tai moko modelius, kaip atrodo geri atsakymai. Kita vertus, „sustiprinimas-mokymasis iš žmogaus grįžtamojo ryšio“ (rlhf) nurodo, ar atsakymas patenkino klausėją (labai kitas dalykas).

rlhf naudotojai pateikia modeliui grįžtamąjį ryšį apie jo išvesties kokybę, kuri vėliau naudojama modelio parametrams arba „svoriams“ koreguoti. Naudotojo sąveika su pokalbių robotais, pvz., nykštys aukštyn arba žemyn, yra ypač naudinga rlhf. Taip sukuriamas tai, ką technikų vadina „duomenų smagračiu“, kuriame daugiau vartotojų gauna daugiau duomenų, kurie padeda sukurti geresnį modelį. ai startuoliai atidžiai stebi, kokius klausimus vartotojai užduoda savo modeliams, o tada renka duomenis, kad pritaikytų modelius tomis temomis.

Padidinkite jo mastelį

Internete išsekus duomenims išankstiniam mokymui, svarbesnis yra treniruotės po mokymo. Ženklinimo įmonės, tokios, kaip Scale ai ir Surge ai, uždirba šimtus milijonų dolerių per metus rinkdamos duomenis, naudojamus po mokymo. „Scale“ neseniai surinko 1 mlrd. dolerių, įvertinta 14 mlrd. dolerių.

Reikalai pasistūmėjo nuo „Mechanical Turk“ laikų: geriausi ženklintojai uždirba iki 100 dolerių per valandą. Tačiau, nors mokymas po mokymo padeda sukurti geresnius modelius ir yra pakankamas daugeliui komercinių programų, galiausiai tai yra tik laipsniškas pagerinimas.

Užuot po truputį grąžinus duomenų sieną atgal, kitas sprendimas būtų visiškai ją peršokti. Vienas iš būdų yra naudoti sintetinius duomenis, kurie yra sukurti mašinomis ir todėl neribojami. Geras pavyzdys yra „Google“ dukterinės įmonės „DeepMind“ sukurtas modelis „AlphaGo Zero“. Pirmasis sėkmingas bendrovės „Go-playing“ modelis buvo parengtas, naudojant duomenis apie milijonus ėjimų iš mėgėjiškų žaidimų. AlphaGo Zero nenaudojo jokių iš anksto esamų duomenų. Vietoj to, jis išmoko „Go“ žaisdamas 4,9 mln. rungtynių prieš save per tris dienas, atkreipdamas dėmesį į pergalių strategijas. Tas „pastiprinimo mokymasis“ išmokė reaguoti į priešininko judesius, imituojant daugybę galimų atsakymų ir pasirenkant tą, kuris turi didžiausią galimybę laimėti.

Panašus metodas galėtų būti naudojamas llms, rašant, tarkime, matematikos įrodymą, žingsnis po žingsnio. LLMS gali sukurti atsakymą, pirmiausia sugeneruodamas daug pirmųjų žingsnių. Atskiras „pagalbininkas“, apmokytas, remiantis žmonių ekspertų duomenimis, siekiant įvertinti kokybę, nustatytų, kuris yra geriausias ir kuriuo verta remtis. Toks AI sukurtas grįžtamasis ryšys yra sintetinių duomenų forma ir gali būti naudojamas tolesniam pirmojo modelio mokymui. Galų gale galite gauti aukštesnės kokybės atsakymą, nei tuo atveju, jei llms atsakytų vienu ypu, ir patobulintą llms. Šis gebėjimas pagerinti produkcijos kokybę, skiriant daugiau laiko mąstymui, yra panašus į lėtesnį, apgalvotą „sistemos 2“ mąstymą žmonėms, kaip aprašyta naujausiame „Openai“ įkūrėjo Andrej Karpathy pokalbyje. Šiuo metu llms naudoja „sistemos 1“ mąstymą, generuodamas atsaką be svarstymo, panašų į žmogaus refleksinį atsaką.

Sunkumai yra išplėsti požiūrį į tokias sritis kaip sveikatos priežiūra ar švietimas. Žaidimuose yra aiškus laimėjimo apibrėžimas ir lengviau rinkti duomenis apie tai, ar ėjimas naudingas. Kitur yra sudėtingiau. Duomenys apie tai, kas yra „geras“ sprendimas, paprastai renkami iš ekspertų. Tačiau tai brangu, užtrunka ir yra tik sulopytas sprendimas. O kaip žinoti, ar konkretus ekspertas teisus?

Akivaizdu, kad prieiga prie daugiau duomenų – tiek iš specialistų šaltinių, tiek sintetinių, tiek žmonių ekspertų pateiktų – yra labai svarbi, norint išlaikyti sparčią dirbtinio intelekto pažangą. Kaip ir naftos telkiniai, labiausiai prieinami duomenų rezervai buvo išeikvoti. Dabar iššūkis yra rasti naujų arba tvarių alternatyvų." [1]

1. Mining the net. The Economist; London Vol. 452, Iss. 9407, (Jul 27, 2024): 59, 60.

Mokslas, studijos ir ekonomika

Sekėjai

Ieškoti šiame dienoraštyje

Subscribe Now: Feed Icon

Tinklaraščio archyvas

Apie mane

2024 m. liepos 27 d., šeštadienis

Duomenų šaltiniai dideliems kalbų modeliams

Komentarų nėra:

Translate