Šiandienos dirbtinis intelektas daugiausia veikia per mašininį mokymąsi ir neuroninius tinklus, leisdamas sistemoms mokytis iš didžiulių duomenų kiekių be aiškaus programavimo. Nors Kinija DI kūrimui rėmėsi JAV lustais, naujausios ataskaitos rodo, kad ji aktyviai ieško vietinių alternatyvų ir vargu ar liks priklausoma nuo Amerikos technologijų.
„Kaip pažymi Rushas Doshi ir Chrisas McGuire'as, lustų pardavimas Kinijai panaikintų JAV įtaką, paversdamas trūkumą atsargomis ir suteikdamas Pekinui dalis bei praktinę patirtį, kaip panaikinti inovacijų atotrūkį (Laiškai, rugsėjo 2 d.). Mintis, kad galime priversti Kiniją priklausyti nuo mūsų lustų, ignoruoja Komunistų partijos doktriną. Pekino strategija siekia sukurti vietines ir kontroliuojamas technologijas, kad būtų pasiektas savarankiškumas iš Vakarų. Tuo tikslu valstybė perima prieigą prie rinkos, duomenų ir turinio, taikydama licencijavimo, kibernetinio saugumo ir viešųjų pirkimų taisykles, taip pat kitus sąlyginius, atšaukiamus leidimus.
Neseniai įvykęs „H20“ epizodas iliustruoja tai. Po to, kai Vašingtonas licencijavo pardavimus, Pekinas nurodė įmonėms teikti pirmenybę vietinėms alternatyvoms. Įmonės gali pasinaudoti trumpais laiko tarpais atsargoms kaupti – panašiai kaip jos pirko A800/H800 2022–2023 m., kol ta spraga užsidarė, – tačiau politikos kryptis nepasikeitė. Pekinas imsis to, ko jam reikia šiandien, kad rytoj pasiektų savarankiškumą.
Eksporto kontrolės kritikai teisūs sakydami, kad kai kurie kontrabandiniai lustai nutekės. Tačiau tai įrodo, kad kontrolė kandžiojasi. Kas pasiekia... Rinka yra mažos, be garantijų, nereguliarios partijos – ne pastovus, vienodas, didelio masto tiekimas, kurio reikalauja didelio masto mokymai. Kai kontrolė yra vykdoma, ji padidina išlaidas, ištempia terminus ir riboja mastą, apribodama svarbius kriterijus: mokymo klasės greitintuvus [1], HBM [2], EDA įrankius [3] ir litografiją.
Kai kurie teigia, kad CUDA, „Nvidia“ programinė įranga lustams programuoti, „pririštų“ Kiniją prie Amerikos dirbtinio intelekto ekosistemos. Tačiau leidžiant palaikomus CUDA diegimus, šiandienos pilkosios rinkos lašeliai būtų pakeisti stabiliomis, tiekėjų palaikomomis sistemomis, kurios mokytų Kinijos inžinierius ir paspartintų pakeitimą šalies viduje. Tada Pekinas galėtų savo nuožiūra nutraukti prieigą, iškeisdamas mūsų svertą į savo mokymąsi.
Craig Singleton
Fdn. for Defense of Democracies
Washington“ [5]
1. Dirbtinio intelekto mokymo klasės greitintuvai yra specializuoti aparatinės įrangos komponentai, skirti pagreitinti mašininio mokymosi ir gilaus mokymosi modelių mokymo procesą. Šie procesoriai yra būtini norint susidoroti su didžiuliais skaičiavimo ir duomenų apdorojimo poreikiais, susijusiais su sudėtingomis dirbtinio intelekto užduotimis, kurių bendrosios paskirties procesoriai negali efektyviai valdyti.
Pagrindiniai dirbtinio intelekto mokymo greitintuvų tipai:
Grafikos apdorojimo įrenginiai (GPU): labiausiai paplitęs greitintuvų tipas, GPU yra labai veiksmingi dirbtinio intelekto mokymui dėl savo didžiulių lygiagretaus apdorojimo galimybių. Iš pradžių sukurti grafikos perteikimui, jų gebėjimas vienu metu vykdyti tūkstančius operacijų idealiai tinka tenzorių ir matricų skaičiavimams, kurie įprasti giliajame mokymesi. Pagrindiniai veikėjai yra NVIDIA ir AMD.
Tenzorių apdorojimo įrenginiai (TPU): „Google“ sukurti TPU yra specialiai sukurtos konkrečioms programoms skirtos integrinės grandinės (ASIC), specialiai sukurtos mašininio mokymosi darbo krūviams, ypač naudojant „TensorFlow“ sistemą. Jie puikiai atlieka didelio masto matricų daugybą, kuri sudaro giliojo mokymosi pagrindą [4], siūlydami didelį našumą ir energijos vartojimo efektyvumą. TPU daugiausia galima įsigyti per debesijos paslaugas, tokias kaip „Google Cloud“.
Lauko programuojami loginiai matricos (FPGA): FPGA yra perkonfigūruojamos integrinės grandinės, kurias galima perprogramuoti po pagaminimo, kad atliktų konkrečias užduotis. Šis lankstumas leidžia kūrėjams kurti individualią aparatinės įrangos logiką unikaliems dirbtinio intelekto darbo krūviams, pasiekiant pusiausvyrą tarp ASIC greičio ir GPU lankstumo.
Vafliniai varikliai (WSE): Atstovaujantys naujesniam ir galingesniam vystymuisi, WSE integruoja visą procesorių į vieną, didelę silicio plokštelę. Tokios įmonės kaip „Cerebras“ sukūrė WSE, turinčias daug tarpusavyje sujungtų dirbtinio intelekto branduolių, kurie žymiai padidina skaičiavimo galią mokant labai didelius, sudėtingus modelius.
Debesijos pagrindu sukurtas pritaikytas silicis: Be „Google“ TPU, didieji debesijos paslaugų teikėjai siūlo savo pritaikytus lustus dirbtinio intelekto darbo krūviams. Pavyzdžiui, „Amazon Web Services“ (AWS) teikia „Trainium“ lustus, skirtus sumažinti mašininio mokymosi modelių kainą ir paspartinti jų mokymą.
Pagrindiniai dirbtinio intelekto mokymo sistemos komponentai
Be pagrindinio greitintuvo lusto, visa mokymo sistema apima ir kitus dirbtiniam intelektui optimizuotus komponentus:
Atmintis: Didelių modelių mokymui ir didelių duomenų rinkinių apdorojimui reikia daug didelės spartos atminties.
Didelio pralaidumo atmintis (HBM): Ši specializuota atminties technologija, naudojama aukščiausios klasės GPU ir kituose greitintuvuose, užtikrina itin didelį duomenų perdavimo greitį.
Vaizdo RAM (VRAM): Speciali atmintis GPU, kurioje saugomi dideli duomenų ir parametrų kiekiai, reikalingi lygiagrečiam apdorojimui.
Tinklas: Norint apmokyti itin didelius modelius, keli greitintuvai turi greitai susisiekti. Didelės spartos ir didelio pralaidumo tinklas yra labai svarbus norint sujungti tūkstančius lustų duomenų centre.
Aušinimas ir maitinimo šaltinis: Dirbtinio intelekto mokymo skaičiavimo intensyvumas generuoja milžinišką šilumą ir sunaudoja daug energijos. Didelio našumo sistemoms reikalingos tvirtos aušinimo sistemos ir galingi, efektyvūs maitinimo šaltiniai, kad būtų užtikrintas patikimas ir ilgalaikis veikimas.
Mokymo greitintuvai ir išvadų greitintuvai
Svarbu atskirti greitintuvus, skirtus mokymui, nuo greitintuvų, skirtų išvadoms.
Mokymo greitintuvai: jie optimizuoti intensyviems, didelių paketų ir labai lygiagretiems skaičiavimams, reikalingiems pradiniam modelio mokymui.
Išvadų greitintuvai: jie optimizuoti mažesnio delsos, mažesnių paketų skaičiavimams, reikalingiems naudojant apmokytą modelį prognozėms gamybinėje aplinkoje daryti. Nors mokymo lustai gali atlikti išvadas, specializuoti išvadų lustai dažnai yra ekonomiškesni ir efektyvesni tai konkrečiai užduočiai atlikti.
2. HBM (didelės spartos atmintis) – tai DRAM tipas su 3D sluoksniuota architektūra, kuri užtikrina žymiai didesnį duomenų perdavimo greitį ir didesnę atminties talpą nei tradicinė DRAM. Dirbtiniam intelektui HBM yra labai svarbus, nes jis tiesiogiai patenkina didžiulius dirbtinio intelekto modelių duomenų poreikius, sudarydamas sąlygas greitesniems ir efektyvesniems mokymo ir išvadų procesams tokiose programose kaip generatyvusis dirbtinis intelektas ir dideli kalbos modeliai (LLM). Pagrindiniai HBM gamintojai yra „SK Hynix“, „Samsung“ ir „Micron“, o „SK Hynix“ šiuo metu pirmauja rinkoje.
3D sluoksniavimas:
Užuot išdėlioję atminties lustus horizontaliai, HBM juos vertikaliai sudeda, sukurdamas tankų, kompaktišką ir energiją taupantį atminties sprendimą.
Silicio tarpiklis:
Šis 3D sluoksniavimas prie procesoriaus (kaip ir GPU) prijungtas per silicio tarpiklį – sudėtingą platformą, kurioje išgraviruoti tūkstančiai pėdsakų, skirtų greitam duomenų perdavimui.
Didelės spartos atmintis:
Sluoksniuota konstrukcija ir trumpos jungtys sumažina fizinį duomenų perdavimo atstumą, todėl duomenų pralaidumas (pralaidumas) yra daug didesnis, palyginti su tradicine atmintimi.
Mažesnės energijos sąnaudos:
Nepaisant didelio našumo, kompaktiškas ir efektyvus HBM dizainas taip pat gali lemti geresnį energijos vartojimo efektyvumą nei kai kurios alternatyvos.
Poveikis dirbtiniam intelektui
Greitas mokymas:
Dirbtinio intelekto modeliams, ypač dideliems, mokymo metu reikia didžiulių duomenų kiekių. Dėl didelio HBM pralaidumo šie duomenys daug greičiau tiekiami į dirbtinio intelekto procesorius, o tai žymiai sutrumpina mokymo laiką.
Efektyvus išvadų darymas:
Panašiai HBM padeda sumažinti kliūtis išvadų darymo etape, kai dirbtinio intelekto modelis naudojamas prognozėms arba turiniui generuoti, todėl dirbtinio intelekto programos tampa jautresnės.
Pažangaus dirbtinio intelekto įgalinimas:
Padidėjusios HBM teikiamos galimybės yra būtinos norint toliau tobulinti ir plėsti sudėtingas dirbtinio intelekto programas, tokias kaip generatyvinis dirbtinis intelektas, kurios iš naujo apibrėžė skaičiavimo reikalavimus.
Pagrindiniai gamintojai
SK Hynix: Šiuo metu rinkos lyderė, pradėjusi HBM technologiją.
Samsung: Svarbus atminties rinkos dalyvis.
Micron: Vis labiau įsitvirtinanti, daugiausia dėmesio skiriant efektyvumui ir inovacijoms HBM produktuose.
HBM ateitis dirbtiniame intelekte
HBM4:
Tikimasi, kad kita HBM karta, kuri, kaip tikimasi, žymiai padidins duomenų perdavimo spartą ir pralaidumą, jau artėja prie standartizacijos.
Didesnis pritaikymas:
Būsimuose HBM produktuose greičiausiai bus daugiau klientui pritaikytos logikos pagrindinėje lustoje, skirtos valdyti ir optimizuoti atmintį konkretiems dirbtinio intelekto greitintuvams.
Nuolatinis augimas:
Prognozuojama, kad HBM rinka smarkiai augs dėl spartėjančio dirbtinio intelekto diegimo įvairiose pramonės šakose.
3. EDA (elektroninio projektavimo automatizavimo) įrankiai yra programinės įrangos paketai, kuriuos inžinieriai naudoja sudėtingoms elektroninėms sistemoms, integriniams grandynams (IC) ir spausdintinėms plokštėms (PCB) projektuoti, modeliuoti, analizuoti ir tikrinti. Pagrindinės funkcijos apima schemų fiksavimą, grandinės modeliavimą, maketo projektavimą ir projektavimo patikrinimą, kurie automatizuoja projektavimo proceso dalis, siekiant pagerinti tikslumą ir efektyvumą.
Populiarūs EDA įrankių tiekėjai ir jų pasiūlymai apima „Cadence“ ir „Synopsys“, skirtus IC projektavimui, „Altium“, skirtą PCB projektavimui, ir „Keysight“, skirtą puslaidininkių modeliavimui.
Schemų fiksavimas:
Elektroninės grandinės komponentų ir jų sujungimų grafinio vaizdo kūrimas.
Modeliavimas:
Siūlomo grandinės projekto elgsenos numatymas prieš jį fiziškai įgyvendinant.
Patikrinimas:
Užtikrinimas, kad grandinės projektas atitinka numatytą funkcionalumą ir veikia tinkamai.
Išdėstymo projektavimas:
Komponentų fizinio išdėstymo spausdintinėje plokštėje arba integrinėje grandinėje projektavimas.
Analizė:
Projekcijų optimizavimas atsižvelgiant į našumą, energijos suvartojimą ir plotą.
Bibliotekų valdymas:
Elektroninių komponentų ir su jais susijusių duomenų bibliotekų kūrimas ir valdymas.
EDA įrankių ir tiekėjų pavyzdžiai
„Altium“:
Suteikia išsamų spausdintinių plokščių projektavimo ir išdėstymo sprendimą su maršrutizavimo, išdėstymo ir gamybos failų generavimo funkcijomis.
„Cadence Design Systems“:
Siūlo platų EDA įrankių asortimentą sudėtingiems puslaidininkiniams lustams projektuoti, apimantį modeliavimo, projektavimo ir tikrinimo procesus.
„Synopsys“:
Žinoma dėl savo dirbtiniu intelektu pagrįstų EDA sprendimų, kurie automatizuoja užduotis, optimizuoja lustų našumą ir palengvina projektavimo perkėlimą.
„Keysight“:
Specializuojasi puslaidininkinių įtaisų kompleksiniuose modeliavimo sprendimuose, įskaitant įtaisų modelių ištraukimą ir PDK patvirtinimą.
EDA įrankių naudojimo privalumai
Didesnis našumas:
Sudėtingų užduočių automatizavimas supaprastina projektavimo darbo eigą.
Pagerintas tikslumas:
Sumažina klaidų riziką imituojant ir tikrinant projektus prieš gamybą.
Sąnaudų mažinimas:
Projektavimo trūkumų nustatymas ir taisymas ankstyvoje proceso stadijoje sumažina brangų pakartotinį darbą.
Greičiau pateikimo į rinką laikas:
Projektavimo ir tikrinimo proceso pagreitinimas padeda greičiau pateikti produktus į rinką.
Sudėtingo projektavimo palaikymas:
Leidžia kurti labai sudėtingas elektronines sistemas, kurių būtų neįmanoma suprojektuoti rankiniu būdu.
4. Didelio masto matricų daugybos sudaro gilaus mokymosi pagrindą, nes tai yra pagrindinės matematinės operacijos, naudojamos duomenims transformuoti neuroniniuose tinkluose tiek mokymo, tiek išvadų darymo metu. Kiekvieną pagrindinį neuroninio tinklo komponentą galima suskirstyti į matricų daugybas, kurios taip pat užtikrina šiuolaikiniam dirbtiniam intelektui reikalingą efektyvumą dideliu mastu.
Neuroninio tinklo pagrindinis mechanizmas
Neuroninis tinklas yra funkcija, kuri transformuoja įvesties duomenis į norimą išvestį, pavyzdžiui, vaizdą į etiketę („katė“) arba tekstą į sugeneruotą atsakymą. Šis procesas vyksta per neuronų sluoksnių seriją, o matricų daugyba yra kiekvieno žingsnio pagrindas.
Tiesioginis sklidimas: Kai duomenys juda tinklu, jie pereina iš vieno sluoksnio į kitą. Tankiame arba visiškai sujungtame sluoksnyje tai yra matricų daugyba.
Įvestis ir svoriai kaip matricos: įvesties duomenys (pavyzdžiui, vaizdų rinkinys) vaizduojami kaip matrica.
Tinklo išmokti parametrai, vadinami „svoriais“, saugomi atskiroje matricoje.
Skaičiavimas: sluoksnio išvestis apskaičiuojama įvesties matricą padauginus iš svorių matricos, tada pridedant šališkumo vektorių. Po to dažnai seka netiesinė aktyvavimo funkcija.
Išvestis = aktyvavimas(įvestis x svoriai + paklaida)
Atgalinis dauginimas: Mokymo metu tinklas koreguoja savo svorius, kad sumažintų paklaidą.
Šis procesas, vadinamas atgaliniu dauginimu, naudoja grandinės taisyklę nuostolių funkcijos gradientui svorių atžvilgiu apskaičiuoti. Šis sudėtingas skaičiavimas matematiškai išreiškiamas kaip didelių matricų daugybų seka.
Grandinės taisyklė yra skaičiavimo taisyklė, skirta rasti sudėtinės funkcijos (funkcijos funkcijoje), pvz., f(g(x)), išvestinę. Ji teigia, kad f(g(x)) išvestinė yra išorinės funkcijos f išvestinė, įvertinta pagal vidinę funkciją g(x), padauginta iš vidinės funkcijos g(x) išvestinės. Formulė yra d/dx [f(g(x))] = f'(g(x)) * g'(x).
Matricų daugyba naudojama visiems pagrindiniams sluoksnių tipams.
Be paprastų, visiškai sujungtų sluoksnių, matricų daugybos yra pagrindinis variklis sudėtingesnėms neuroninių tinklų architektūroms.
Konvoliuciniai sluoksniai: Konvoliuciniame neuroniniame tinkle (CNN) konvoliucijas galima pertvarkyti į labai efektyvias matricų daugybos operacijas. Tai leidžia GPU paspartinti vaizdo duomenų modelių, tokių kaip kraštai ir tekstūros, aptikimo procesą.
Transformatoriaus sluoksniai: Dėmesio mechanizmas, kuris palaiko didelius kalbos modelius, beveik visiškai pagrįstas matricų daugyba. Užklausos, raktai ir reikšmės pateikiamos kaip matricos, o jas daugindamas modelis nustato skirtingų įvesties sekos dalių aktualumą.
Transformatoriaus savęs dėmesio sluoksnyje „raktas“ yra vektoriaus atvaizdavimas, gautas iš įvesties žetono, kuris naudojamas kaip nuoroda, siekiant identifikuoti atitinkamą informaciją iš kitų sekos dalių. Tada transformatorius palygina šį raktą su „užklausos“ vektoriais iš kitų žetonų, kad apskaičiuotų „dėmesio balą“, kuris nustato, kiek svarbos kiekvienas žetonas turėtų suteikti kito „reikšmės“ vektoriui, efektyviai sukurdamas svertinį įvesties sekos atvaizdavimą.
Rakto vektoriai dauginami su atitinkamais užklausos vektoriais, kad būtų sukurti dėmesio balai, rodantys skirtingų įvesties dalių panašumą.
Šie dėmesio balai naudojami „reikšmių“ vektorių svertinei sumai apskaičiuoti, kur svoriai lemia kiekvienos reikšmės indėlį į galutinę išvestį. Šis procesas leidžia transformatoriui sutelkti dėmesį į svarbiausią informaciją, kuriant kiekvieno žetono išvestį.
Aparatinė įranga sukurta matricų daugybai
Matricų daugybos naudojimas yra ne tik matematinis patogumas; jis puikiai dera su šiuolaikine aparatinės įrangos architektūra.
GPU optimizavimas: Grafiniai procesoriai (GPU), kurie palaiko didžiąją dalį gilaus mokymosi, yra specialiai skirti masiniam lygiagrečiam apdorojimui. Pakartotiniai, nepriklausomi skaičiavimai matricų daugybos operacijoje puikiai atitinka GPU architektūrą, leisdami vienu metu atlikti milijonus skaičiavimų.
Tenzoriniai branduoliai: NVIDIA GPU apima specializuotus komponentus, vadinamus „Tenzoriniais branduoliais“, kurie yra optimizuoti mišraus tikslumo matricų operacijoms pagreitinti. Tai tiesiogiai nukreipia ir pagreitina pagrindinę gilaus mokymosi skaičiavimo užduotį.
Santrauka: Matematikos ir aparatinės įrangos sinergija
Iš esmės matricų daugyba yra gilaus mokymosi kalba. Tai matematinis primityvas, leidžiantis transformuoti duomenis neuroninio tinklo sluoksniuose ir yra svorių atnaujinimo mokymo metu pagrindas. Šis metodas yra labai efektyvus šiuolaikiniams GPU, sukuriantis galingą sinergiją, kuri leidžia ir leidžia pritaikyti didelio masto gilųjį mokymąsi.
5. China Won't Get Addicted to America's Chips. Wall Street Journal, Eastern edition; New York, N.Y.. 05 Sep 2025: A16.
Komentarų nėra:
Rašyti komentarą