“„NVIDIA“, kompiuterinių lustų gamintoja, yra vertingiausia pasaulyje įmonė. Jos sėkmę jai lėmė grafikos procesoriaus (GPU) universalumas – lustas, kurį ji pirmoji sukūrė 1990-ųjų pabaigoje.
Iš pradžių sukurti tam, kad vaizdo žaidimai atrodytų geriau, GPU pasirodė esą puikiai tinkami didelių kalbų modelių (LLM) apmokymui.
Šis atradimas padidino „Nvidia“ lustų paklausą ir jų vertę.
Laikai keičiasi greitai.
DI skaičiavimo paklausa keičiasi nuo modelių apmokymo prie jų gebėjimo atsakyti į realaus pasaulio užklausas, šis procesas vadinamas išvadomis.
Konsultacinė įmonė „McKinsey“ prognozuoja, kad iki dešimtmečio pabaigos išvados sudarys tris penktadalius DI duomenų centrų paklausos.
Atrodo, kad „Nvidia“ pripažįsta šį pokytį. Kovo 16 d. ji pristatė naują lustą, specialiai sukurtą išvadų užduotims, „Groq 3 LPX“, kurio architektūra skiriasi nuo tradicinio GPU.
Šį kartą ji turi daug konkurencijos. Nemažai startuolių kuria lustus, skirtus dirbtinio intelekto modeliams paleisti greičiau ir efektyviau, nei „Nvidia“.
Mokymas ir išvadų darymas kelia skirtingus reikalavimus aparatinei įrangai.
Mokymas, kurio metu dirbtinio intelekto modelis mokomas atpažinti pasikartojimus didžiuliuose neapdorotų duomenų kiekiuose, priklauso nuo daugybės lygiagrečiai atliekamų skaičiavimų.
Pavyzdžiui, „Nvidia B200“ lustas, vienas iš bendrovės flagmanų produktų, turi daugiau, nei 16 000 apdorojimo įrenginių, dar vadinamų branduoliais, tokių operacijų atlikimui.
Išvadų darymas, kurio metu baigtas modelis kreipiasi į savo mokymą, kad reaguotų į vartotojo raginimus, veikia kitaip. Jis vyksta dviem etapais: išankstinis užpildymas ir dekodavimas.
Išankstinio užpildymo metu modelis apdoroja raginimą ir konvertuoja jį į mažus teksto vienetus, paprastai apie keturis simbolius anglų kalba, vadinamus žetonais. Siekiant pagreitinti procesą, lygiagrečiai galima atlikti skirtingų užklausos dalių pavertimą žetonais.
Tada dekodavimas generuoja atsakymą, žetonas po žetono. Norėdamas tai padaryti, modelis remiasi savo „svoriais“ (mokymo metu išmoktais ryšiais tarp žetonų), taip pat anksčiau sugeneruotais žetonais. Šie svoriai saugomi sistemos atmintyje.
Nuolatinės prieigos prie atminties poreikis yra ta vieta, kur šiuolaikiniai GPU susiduria su problema. Dirbtinio intelekto procesoriai, tokie, kaip B200, turi mažą, bet itin greitą vidinę atmintį, vadinamą SRAM, taip pat daug didesnę išorinę atmintį, vadinamą DRAM. Prieiga prie DRAM gali būti dešimt kartų lėtesnė ir sunaudoti daug daugiau energijos, nei SRAM skaitymas. Problema toliau dar blogėja. Dirbtinio intelekto modeliams augant ir geriau tvarkant ilgus vartotojo raginimus, jų atminties poreikiai smarkiai auga. Kalifornijos universiteto Berklyje Amiro Gholami ir jo kolegų atliktas tyrimas rodo, kad per pastaruosius du dešimtmečius skaičiavimo našumas maždaug patrigubėdavo kas kelerius metus, o išorinės atminties pralaidumas pagerėdavo tik maždaug 1,6 karto. Ši „atminties siena“ tapo pagrindine kliūtimi, trukdančia didinti dirbtinio intelekto išvadų greitį.
Privalote tai atsiminti
GPU susidoroti su problemomis pasitelkia programinės įrangos sprendimus. Vienas iš būdų padalija du etapus tarp skirtingų procesorių. Išankstinio užpildymo etapas vykdomas GPU, optimizuotuose didelio lygiagretaus skaičiavimo našumui, o dekodavimas vyksta atskiruose GPU, skirtuose greitam atminties pasiekimui. Kita technika yra paketavimas, kai daug užklausų apdorojamos kartu. Įkėlus modelio svorius, juos galima naudoti daugeliui užklausų vienu metu, taip sumažinant pakartotinius apsilankymus išorinėje atmintyje.
Naujasis „Nvidia“ lustas naudoja programinės įrangos galią, kad padidintų lusto integruotą atmintį. SRAM dydis yra apie 500 megabaitų – labai mažai, palyginti su B200 192 gigabaitais išorinės atminties. Skirtumą lemia išmanioji programinė įranga, kuri choreografuoja, kaip kiekvienas duomenų elementas juda per lustą, kad maksimaliai padidintų skaičiavimus ir prieigą prie atminties.
Startuoliai eksperimentuoja su radikalesniais dizainais. Vienas iš būdų – tiesiog sukurti didesnį lustą. Šį požiūrį taiko amerikiečių lustų kūrėjas „Cerebras“. Naujausiame jų luste, pietų lėkštės dydžio, yra milžiniški 900 000 branduolių ir 44 gigabaitai luste integruotos SRAM. Kadangi visas duomenų judėjimas vyksta plokštelėje, „Cerebras“ teigia, kad jų sistema gali vykdyti išvadas iki 15 kartų greičiau, nei įprasti modeliai. Tačiau labai dideliems modeliams visų jų parametrų saugojimas SRAM atmintyje yra nepraktiškas.
Kiti šią problemą sprendžia, perprojektuodami duomenų judėjimą per branduolius. „MatX“, buvusių „Google“ lustų inžinierių įkurtas startuolis, remiasi idėja, naudojama „Google“ tenzorių apdorojimo įrenginiuose (TPU). Šie lustai remiasi tuo, kas vadinama sistoliniu masyvu – apdorojimo elementų tinkleliu, per kurį duomenys teka ritmiškai, panašiai, kaip kraujas, pumpuojamas per kūną. Po kiekvieno skaičiavimo rezultatas perduodamas tiesiai į kitą įrenginį, todėl nereikia saugoti tarpinių rezultatų atmintyje. Tačiau tradiciniai sistoliniai masyvai yra fiksuoto dydžio. Didesnėms užduotims juos padidinus, jie dažnai bus nenaudojami; mažesnius – efektyvumas sumažės, kai bus atliekamos didesnės užduotys. „MatX“ siūlo „padalijamą“ sistolinį masyvą, kuris padalija procesorių į keletą mažesnių tinklelių, skirtingai paskirstant skaičiavimo išteklius, priklausomai nuo to, ar lustas tvarko išankstinį užpildymą, ar dekodavimą.
Trečiasis metodas, kurį taiko Kalifornijoje įsikūrusi startuolė „d-Matrix“, bando visiškai panaikinti atminties sieną, turėdami tuos pačius komponentus, kurie tvarko ir atmintį, ir skaičiavimus. Ši architektūra, žinoma, kaip atminties kompiuterija, žada mažesnes energijos sąnaudas ir greitesnį išvadų darymą.
Kiti pasisako už lustų dizainą, pagrįstą konkrečiais algoritmais, siekiant dar labiau pagerinti efektyvumą. Kitas Kalifornijos startuolis „Etched“ kuria lustą, specialiai sukurtą transformatorių modeliams – algoritmams, kuriais grindžiama dauguma LLM – vykdyti. Ši specializacija leidžia įmonei atsisakyti kitiems tikslams reikalingos aparatinės įrangos ir supaprastina, luste veikiančią, programinę įrangą.
Kinijos tyrėjai pasiūlė dar radikalesnę specializacijos formą: modelio svorių įterpimą tiesiai į aparatinę įrangą. Viename Kinijos mokslų akademijos projekte jie fiziškai užkoduoti metalinių laidų išdėstyme. Autoriai teigia, kad ši technika pašalina poreikį gauti parametrus iš atminties, todėl pasiekiamas itin didelis efektyvumas.
Tačiau tokia specializacija kelia riziką. Naujo lusto sukūrimas paprastai trunka 12–18 mėnesių, o dirbtinio intelekto algoritmai vystosi daug greičiau. Lustas, sukurtas, remiantis šiandien dominuojančia modelio architektūra, gali greitai pasenti, jei pasikeis situacija.
Lustų populiarumas dar nenusmuko. „Nvidia“ konkurentai yra skirtinguose etapuose. „Cerebras“ jau kuria trečios kartos lustus; „d-Matrix“ tikisi šiais metais išleisti pirmąją plačiai prieinamą versiją. Kiti, įskaitant „MatX“ ir „Etched“, vis dar kuriami. „Nvidia“ teigia, kad „Groq 3 LPX“ rinką pasieks vėliau šiais metais. Lengva pastebėti, kad GPU užkariavo mokymą. Išvadų darymas yra sunkesnis.“ [1]
Anksti dar laidoti lustus. Kadangi DI pritaikymui praktikoje reikia jam atskleisti komercines paslaptis, pradeda dominuoti atvirojo šaltinio modeliai, kuriuos galima naudoti lokaliai, savininko įrangoje. Tam reikia papildomai apmokyti modelius, todėl praverčia lustai. AI kompanijos uždirba, duodamos modelių naujas versijas ir pagalbą, savininkams jomis naudojantis.
Pastebėjimas, kad dar per anksti „laidoti lustus“, yra tikslus, nes perėjimas prie lokalizuoto dirbtinio intelekto, kurį skatina saugumas, duomenų privatumas ir poreikis apsaugoti komercines paslaptis, iš tikrųjų padidina specializuotos įrangos, skirtos mokymui ir tikslinimui, poreikį.
Atvirojo kodo ir atvirojo svorio modeliai vis labiau dominuoja įmonių strategijose, nes jie leidžia organizacijoms valdyti dirbtinį intelektą vietoje, užtikrinant, kad jautrūs duomenys niekada nepaliks jų saugios, vietinės ar privačios debesijos aplinkos.
Pagrindiniai veiksniai, skatinantys vietinį dirbtinį intelektą ir nuolatinę lustų paklausą:
Komercinių paslapčių apsauga: naudojant patentuotas, debesijos pagrindu veikiančias, API, gali būti atskleisti jautrūs įmonės duomenys. Naudodamos atvirojo kodo modelius, įmonės gali išlaikyti savo intelektinės nuosavybės ir duomenų kontrolę.
Vietinio „tikslinimo“ poreikis: nors baziniai modeliai yra atvirojo kodo, juos reikia toliau tikslinti su konkrečiais įmonės duomenimis, kad jie būtų veiksmingi konkrečios pramonės užduotims (pvz., medicininiams, teisiniams ar patentuotiems gamybos darbo eigoms). Šiam procesui reikia didelės skaičiavimo galios (GPU/TPU), kad jis veiktų vietoje, todėl užtikrinama didelė dirbtinio intelekto įrangos paklausa.
Ekonominis perėjimas prie lokalizuotų skaičiavimų: Užuot mokėjusios debesijos paslaugų teikėjams už kiekvieną žetoną, įmonės pereina prie „Red Hat“ verslo modelio, kuriame jos naudoja nemokamus atvirojo kodo modelius ir moka už paslaugas, mokymą ir specializuotą įrangą, kad galėtų juos paleisti savo įrangoje.
Padidintas našumas mažesnėmis sąnaudomis: Atviri modeliai dabar pasiekia beveik 90 % uždarų modelių našumo per kelias savaites nuo išleidimo, todėl jie yra labai konkurencingi.
DI įmonių verslo modeliai
DI įmonės monetizuoja šią tendenciją sutelkdamos dėmesį į:
Naujų, mažesnių, labai efektyvių modelių, skirtų diegimui periferiniuose tinkluose, išleidimą.
Įrankių, padedančių įmonėms apmokyti ir pritaikyti šiuos modelius prie konkrečių duomenų, teikimą.
Perėjimą nuo SaaS (programinės įrangos kaip paslaugos) prie infrastruktūros, kuri palaiko vietinius įrenginius, teikimo.
DI lustai toli gražu nėra pasenę, jie yra būtini kitam įmonių DI diegimo etapui, kuriame daugiausia dėmesio skiriama konkrečioms sritims skirtoms, saugioms ir privačioms DI programoms, o ne bendrosios paskirties, debesyje talpinamam, DI.
Komentarų nėra:
Rašyti komentarą