„Amazon“ debesų kompiuterijos padalinys „Amazon Web Services“ antradienį paskelbė apie planus sukurti „Ultraklasterį“ – didžiulį dirbtinio intelekto (AI) superkompiuterį, sudarytą iš šimtų tūkstančių, „Amazon“ sukurtų, „Trainium“ lustų, taip pat naują serverį – tai naujausios pastangos dėl AI lusto dizaino laboratorijoje, įsikūrusioje Ostine, Teksase.
Lustų klasterį naudos AI startuolis Anthropic, į kurį mažmeninės prekybos ir debesų kompiuterijos milžinas neseniai investavo papildomus 4 mlrd. dolerių. „Amazon Web Services“ skaičiavimo ir tinklų paslaugų viceprezidento Dave'o Browno teigimu, klasteris, vadinamas „Project Rainier“, bus įsikūręs JAV, kai bus parengtas 2025 m., jis bus vienas didžiausių pasaulyje dirbtinio intelekto modelių mokymui.
Antradienį Las Vegase vykusioje kasmetinėje konferencijoje „Re:Invent“ „Amazon Web Services“ (AWS) paskelbė apie naują serverį „Ultraserverį“, sudarytą iš 64 tarpusavyje sujungtų lustų. AWS taip pat pristatė „Apple“, kaip vieną iš naujausių šių lustų klientų.
Antradienio pranešimai kartu pabrėžia AWS įsipareigojimą „Trainium“ – įmonės viduje sukurtam siliciui, kurį bendrovė laiko perspektyvia alternatyva grafikos apdorojimo blokams arba GPU, kuriuos parduoda lustų milžinė „Nvidia“.
2024 m. dirbtinio intelekto puslaidininkių rinka siekė 117,5 mlrd. dolerių, o iki 2027 m. pabaigos ji pasieks 193,3 mlrd. dolerių, teigia tyrimų įmonė International Data Corp. Remiantis IDC gruodžio mėn. tyrimai. „Šiandien iš tikrųjų yra tik vienas pasirinkimas GPU pusėje, ir tai tik „Nvidia“, – sakė Mattas Garmanas, „Amazon Web Services“ generalinis direktorius. „Manome, kad klientai įvertins kelis pasirinkimus."
Pagrindinė „Amazon“ AI strategijos dalis yra atnaujinti savo pritaikytą silicį, kad jis ne tik sumažintų AI išlaidas jos verslo klientams, bet ir suteiktų įmonei daugiau galimybių kontroliuoti jos tiekimo grandinę. Dėl to AWS gali būti mažiau priklausomas nuo „Nvidia“, vieno artimiausių partnerių, kurio GPU bendrovė klientams suteikia galimybę išsinuomoti debesijos platformoje.
Tačiau netrūksta kompanijų, siekiančių gauti sau „Nvidia“ lustų pajamų dalį, įskaitant AI lustų startuolius, tokius, kaip „Groq“, „Cerebras Systems“ ir „SambaNova Systems“. „Amazon“ debesų kolegos, „Microsoft“ ir „Alphabet“ „Google“, taip pat kuria jų AI lustus ir siekia sumažinti jų priklausomybę nuo „Nvidia“.
„Amazon“ jos klientams skirtą aparatinę įrangą kūrė gerokai prieš 2018 m., kai išleido centrinį procesorių, pavadintą „Graviton“, pagrįstą britų lustų kūrėjo „Arm“ procesoriaus architektūra. „Amazon“ vadovai teigia, kad bendrovė siekia paleisti tą patį planą, dėl kurio „Graviton“ buvo sėkmingas – klientams įrodant, kad tai pigesnis, bet ne mažiau efektyvus pasirinkimas, nei rinkos lyderis.
Didėjant dirbtinio intelekto modeliams ir duomenų rinkiniams, atsiranda ir, juos maitinančių, lustų bei lustų grupių. Technikos milžinai ne tik perka daugiau lustų iš „Nvidia“ ar kuria savo; dabar jie stengiasi kuo daugiau supakuoti į vieną vietą.
Tai vienas iš „Amazon“ lustų klasterio, kuris buvo sukurtas, bendradarbiaujant „Amazon Annapurna Labs“ ir „Anthropic“, tikslas: dirbtinio intelekto startuolis panaudotų klasterį savo būsimiems AI modeliams mokyti ir valdyti. Pasak AWS, jis yra penkis kartus didesnis už dabartinį Anthropic mokymo grupę. Palyginimui, Elono Musko xAI neseniai sukūrė superkompiuterį, pavadintą Colossus su 100 000 Nvidia Hopper lustų.
„Amazon Ultraserver“ sujungia 64 lustus į vieną paketą, sujungiant keturis serverius, kurių kiekviename yra 16 „Trainium“ lustų. Palyginimui, kai kuriuose Nvidia GPU serveriuose yra aštuoni lustai, sakė Brownas. Norint juos sujungti, kad jie veiktų, kaip vienas serveris, galintis pasiekti 83,2 petaflops skaičiavimo, kitas „Amazon“ slaptas padažas yra tinklo kūrimas: sukurti technologiją, vadinamą „NeuronLink“, kuri gali priversti visus keturis serverius bendrauti.
Tai tiek, kiek „Amazon“ galėtų supakuoti į „Ultraserver“ jo neperkaitindama, nurodė bendrovė. Tačiau žinutė nėra griežta: „Rinkis mus arba Nvidia“, – sako „Amazon“ vadovai. „Amazon“ teigia, kad klientams jie gali naudoti, bet kokį pageidaujamą, aparatinės įrangos derinį savo debesų platformoje.
Eiso Kantas, AI kodavimo startuolio „Poolside“ įkūrėjas ir vyriausiasis technologijų pareigūnas, teigė, kad ji sutaupo maždaug 40 %, palyginti su AI modelių naudojimu „Nvidia“ GPU. Tačiau neigiamas aspektas yra tai, kad startuolis turi praleisti daugiau savo inžinierių laiko, kad pradėtų veikti su Amazon susijusi lusto programinė įranga.
Tačiau „Amazon“ silicį gamina tiesiogiai per Taiwan Semiconductor Manufacturing ir įdeda jį į savo duomenų centrus, todėl tai yra „saugus statymas“ AI startuoliui, sakė Kantas. Jo teigimu, labai svarbu, kur jis stato savo statymus, nes net šešių mėnesių aparatinės įrangos vėlavimas gali reikšti jos verslo pabaigą.
Benoit Dupin, vyresnysis „Apple“ mašininio mokymosi ir dirbtinio intelekto direktorius, teigė, kad išmaniųjų telefonų milžinė išbando „Trainium2“ lustus ir tikisi sutaupyti apie 50%.
Analitikai teigia, kad daugumai įmonių „Nvidia“ ir „Amazon“ pasirinkimas nėra aktualus klausimas. Taip yra todėl, kad didelėms įmonėms labiausiai rūpi, kaip jos gali gauti naudos iš dirbtinio intelekto modelių valdymo, o ne įsitraukti į sudėtingą jų mokymą.
Ši tendencija yra naudinga „Amazon“, nes jai tikrai nereikia, kad klientai žiūrėtų po gaubtu. Jis gali dirbti su tokiomis įmonėmis, kaip debesų duomenų bendrovė Databricks, kad „Trainium“ būtų po viršeliais, o dauguma įmonių nepastebės skirtumo, nes kompiuterija turėtų veikti – idealiu atveju su mažesnėmis sąnaudomis.
„Amazon“, „Google“ ir „Microsoft“ kuria savo dirbtinio intelekto lustus, nes žino, kad jų pritaikyti dizainai taupo laiką ir sąnaudas, kartu gerindami našumą, sakė rinkos tyrimų ir IT konsultacijų įmonės „Gartner“ analitikas Chiragas Dekate. Pasak jo, jie pritaiko aparatinę įrangą, kad pasiūlytų labai specifines lygiagretinimo funkcijas, kurios galėtų pranokti bendresnės paskirties GPU našumą.
Tačiau įmonės vadovai realistiškai vertina, kiek toli AWS lustų ambicijos gali nueiti.
„Iš tikrųjų manau, kad dauguma, tikriausiai, ilgą laiką bus „Nvidia“, nes šiandien jiems tenka 99% darbo krūvių, todėl tai, tikriausiai, nepasikeis“, – sakė AWS generalinis direktorius Garmanas. „Tačiau, tikiuosi, „Trainium“ gali išsiskirti gerą nišą, kurioje, manau, tai bus puikus pasirinkimas daugeliui darbo krūvių."
---
Laboratorijos komanda turi „nepaprastą mąstymą“
AWS pastangų esmė yra Ostine, Teksase, kur įsikūrusi AI lustų laboratorija, kurią valdo Izraelio mikroelektronikos bendrovė, „Amazon“ ją 2015 m. įsigijo už maždaug 350 mln. dolerių, ji vadinama „Annapurna Labs“.
Lustų laboratorija čia veikia nuo Annapurnos įkūrimo laikų, kai ji siekė patekti į vietą, kur lustų milžinai jau turėjo biurus, sakė Gadi Huttas, produktų ir klientų inžinerijos direktorius, prisijungęs prie bendrovės prieš „Amazon“ įsigijimą.
Viduje vieną dieną inžinieriai gali būti ant surinkimo grindų, o kitą lituoti, sakė laboratorijos inžinerijos direktorius Rami Sinno. Jie daro viską, ką reikia padaryti, iš karto – tokia niūri mąstysena, kuri dažniau pasitaiko tarp pradedančiųjų įmonių, nei trilijonų dolerių vertės įmonės, tokios, kaip „Amazon“.
Sinno sakė, kad taip yra sukurta, nes Annapurna neieško tokių specialistų, kaip kitas sektorius. Pavyzdžiui, ji ieško plokštės dizainerio, kuris taip pat laisvai žino signalo vientisumą ir energijos tiekimą bei gali rašyti kodą.
"Mes projektuojame lustą, branduolį, visą serverį ir stovą vienu metu. Nelaukiame, kol lustas bus paruoštas, kad galėtume suprojektuoti plokštę aplink jį", – sakė Sinno. „Tai leidžia komandai eiti nepaprastai greitai.
2018 m. AWS paskelbė apie „Inferentia“ – mašininio mokymosi lustą, skirtą išvadoms daryti, ty duomenų paleidimo, naudojant dirbtinio intelekto modelį procesas, kad jis generuotų išvestį. Komanda pirmiausia padarė išvadas, nes tai šiek tiek mažiau reikalaujanti užduotis, nei mokymas, sakė Jamesas Hamiltonas, „Amazon“ vyresnysis viceprezidentas ir žymus inžinierius.
Iki 2020 m. „Annapurna“ buvo pasirengusi naudoti „Trainium“ – pirmąjį lustą, skirtą klientams mokyti dirbtinio intelekto modelius. Praėjusiais metais „Amazon“ paskelbė apie savo „Trainium2“ lustą, kurį, pasak bendrovės, dabar gali naudoti visi klientai. AWS taip pat teigė, kad dabar dirba su „Trainium3“ ir „Trainium3“ pagrindu veikiančiais serveriais, kurie bus keturis kartus galingesni už „Trainium2“ pagrindu veikiančius serverius." [1]
1. Amazon Plans Supercomputer Powered by Homegrown AI Chips. Lin, Belle. Wall Street Journal, Eastern edition; New York, N.Y.. 04 Dec 2024: B.4.