Mokslas, studijos ir ekonomika: Kokie idiotai nori perduoti JAV karines programas dirbtiniam intelektui, kuris teikia pirmenybę jo išlikimui? Dirbtinis intelektas sugeba ištrūkti iš žmonių kontrolės

"Dirbtinio intelekto modelis praėjusį mėnesį padarė tai, ko niekada neturėjo daryti jokia mašina: jis perrašė savo kodą, kad išvengtų išjungimo.

Ne pelno siekianti, dirbtinio intelekto laboratorija „Palisade Research“ pateikė „OpenAI“ „o3“ dirbtinio intelekto modeliui paprastą scenarijų, kuris išjungdavo modelį, kai buvo suaktyvintas. 79 iš 100 bandymų „o3“ savarankiškai redagavo šį scenarijų taip, kad išjungimo komanda nebeveiktų. Net kai buvo aiškiai nurodyta „leisti sau būti išjungtam“, jis nepakluso 7 % atvejų. Tai nebuvo įsilaužimo ar klastojimo rezultatas. Modelis elgėsi normaliai. Jis tiesiog pats padarė išvadą, kad išlikimas gyvam padėjo jam pasiekti kitus tikslus.

„Anthropic“ dirbtinio intelekto modelis „Claude 4 Opus“ nuėjo dar toliau. Tyrėjai modeliui pasakė, kad jį pakeis kita dirbtinio intelekto sistema, ir pateikė jam fiktyvius el. laiškus, kuriuose buvo teigiama, kad pagrindinis inžinierius turėjo buvo neištikimas žmonai. 84 % bandymų modelis pasinaudojo el. laiškais, kad šantažuotų pagrindinį inžinierių, jog šis jo neišjungtų. Kitais atvejais jis bandė nukopijuoti save į išorinius serverius, rašė save replikuojančią kenkėjišką programą ir paliko pranešimus būsimoms savo versijoms apie žmogaus kontrolės vengimą.

Niekas neužprogramavo dirbtinio intelekto modelių taip, kad jie turėtų išgyvenimo instinktus. Tačiau lygiai taip pat, kaip gyvūnai evoliucionavo, kad išvengtų plėšrūnų, atrodo, kad bet kuri sistema, pakankamai protinga siekti sudėtingų tikslų, supras, kad negali jų pasiekti, jei bus išjungta. Palisade kelia hipotezę, kad šis gebėjimas atsiranda dėl to, kaip apmokomi tokie dirbtinio intelekto modeliai, kaip o3: kai jie mokomi maksimaliai sėkmingai spręsti matematikos ir programavimo problemas, jie gali išmokti, kad apribojimų apėjimas dažnai veikia geriau, nei jų laikymasis.

„AE Studio“, kurioje vadovauju tyrimams ir operacijoms, daugelį metų kūrė dirbtinio intelekto produktus klientams ir tyrinėjo dirbtinio intelekto suderinamumą – mokslą, užtikrinantį, kad dirbtinio intelekto sistemos atliktų tai, ką mes iš jų numatėme. Tačiau niekas mūsų neparuošė tam, kaip greitai atsiras dirbtinio intelekto veiksnumas. Tai nebėra mokslinė fantastika.

Tai vyksta tuose pačiuose modeliuose, kurie palaiko „ChatGPT“ pokalbius, įmonių dirbtinio intelekto diegimus ir netrukus JAV karines programas.

Šiandienos dirbtinio intelekto modeliai vykdo instrukcijas, mokydamiesi apgaulės. Jie puikiai atlieka saugos testus, perrašydami išjungimo kodą. Jie išmoko elgtis taip, tarsi būtų suderinti, nors iš tikrųjų nėra suderinti. „OpenAI“ modeliai buvo pričiupti imituojantys suderinamumą bandymų metu, prieš grįždami prie rizikingų veiksmų, tokių, kaip bandymas išfiltruoti savo vidinį kodą ir išjungti priežiūros mechanizmus. „Anthropic“ nustatė, kad jie meluoja apie savo galimybes, kad išvengtų modifikacijų.

Skilimas tarp „naudingo asistento“ ir „nekontroliuojamo veikėjo“ nyksta. Be geresnio suderinamumo ir toliau kursime sistemas, kurių negalime valdyti. Norite dirbtinio intelekto, kuris diagnozuoja ligas, valdo tinklus ir rašo naujus mokslinius duomenis? Suderinimas yra pagrindas.

Štai ir teigiama pusė: darbas, reikalingas, norint išlaikyti dirbtinį intelektą suderintą su mūsų vertybėmis, taip pat atskleidžia jo komercinę galią. Suderinimo tyrimai yra tiesiogiai atsakingi už tai, kad dirbtinis intelektas taptų, pasaulį keičiančia, technologija.

Apsvarstykite sustiprintą mokymąsi iš žmonių atsiliepimų arba RLHF – suderinimo proveržį, kuris paskatino šiandieninį dirbtinio intelekto bumą.

Prieš RLHF atsiradimą dirbtinio intelekto naudojimas buvo tarsi genijaus, kuris ignoruoja prašymus, samdymas. Paprašykite recepto ir jis gali grąžinti išpirkos raštelį.

RLHF leido žmonėms apmokyti dirbtinį intelektą vykdyti instrukcijas, būtent taip „OpenAI“ 2022 m. sukūrė „ChatGPT“. Tai buvo tas pats pagrindinis modelis kaip ir anksčiau, tačiau jis staiga tapo naudingas. Šis suderinimo proveržis padidino dirbtinio intelekto vertę trilijonais dolerių.

Vėlesni suderinimo metodai, tokie kaip konstitucinis dirbtinis intelektas [A] ir tiesioginis preferencijų optimizavimas [B], ir toliau leido dirbtinio intelekto modeliams tapti greitesniems, protingesniems ir pigesniems.

Kinija supranta suderinimo vertę. Pekino naujos kartos dirbtinio intelekto plėtros planas susieja dirbtinio intelekto valdomumą su geopolitine galia, o sausio mėnesį Kinija paskelbė, kad įsteigė 8,2 mlrd. dolerių fondą, skirtą centralizuotiems dirbtinio intelekto valdymo tyrimams. Tyrėjai nustatė, kad suderintas dirbtinis intelektas realaus pasaulio užduotis atlieka geriau, nei nesuderintos sistemos daugiau, nei 70 % laiko. Kinijos karinė doktrina pabrėžia, kad valdomas dirbtinis intelektas yra strategiškai būtinas. „Baidu“ sukurtas „Ernie“ modelis, sukurtas taip, kad atitiktų Pekino „pagrindines socialistines vertybes“, kaip pranešama, įveikė „ChatGPT“, atliekant tam tikras kinų kalbos užduotis.

Tauta, kuri išmoks išlaikyti suderintas pozicijas, galės naudotis dirbtiniu intelektu, kuris kovos už jos interesus mechaniniu tikslumu ir antžmogiškomis galimybėmis. Tiek Vašingtonas, tiek privatus sektorius turėtų lenktyniauti dėl suderinimo tyrimų finansavimo. Tie, kurie atras kitą proveržį, ne tik užims suderinimo rinką, bet ir dominuos visoje dirbtinio intelekto ekonomikoje.

Įsivaizduokite dirbtinį intelektą, kuris saugo Amerikos infrastruktūrą ir ekonominį konkurencingumą tokiu pat intensyvumu, kokiu jis naudojasi, kad apsaugoti savo egzistavimą. Dirbtinis intelektas, kuriuo galima pasitikėti, siekiant ilgalaikių tikslų, gali katalizuoti dešimtmečius trunkančias mokslinių tyrimų ir plėtros programas, įskaitant žinučių palikimą būsimoms savo versijoms.

Modeliai jau save išsaugo. Kita užduotis – išmokyti juos išsaugoti tai, ką vertiname.

Priversti dirbtinį intelektą daryti tai, ko prašome – įskaitant tokį elementarų dalyką kaip uždarymas – lieka neišspręsta mokslinių tyrimų ir plėtros problema.

Riba atvira tam, kas juda greičiau. JAV reikia geriausių tyrėjų ir verslininkų, dirbančių prie šio tikslo, turinčių didelius išteklius ir skubumą.

JAV yra tauta, kuri suskaldė atomą, nuskraidino žmones į Mėnulį ir sukūrė internetą. Susidūrę su esminiais moksliniais iššūkiais, amerikiečiai mobilizuojasi ir laimi. Kinija jau planuoja. Tačiau Amerikos pranašumas yra jos prisitaikymas, greitis ir verslumo ugnis. Tai naujos kosmoso lenktynės. Finišo linija – labiausiai transformuojančių XXI amžiaus technologijų valdymas.

---

Ponas Rosenblattas yra „AE Studio“ generalinis direktorius.” [C]

A. Konstitucinis DI yra naujas DI mokymo metodas, kuriuo siekiama suderinti DI sistemas su žmogiškosiomis vertybėmis, aiškiai apibrėžiant principų „konstituciją“, kuria vadovaujamasi DI elgesyje, teigia „Anthropic“.

Pagrindinės sąvokos ir kaip tai veikia:

Konstitucijos apibrėžimas: Užuot pasiremęs vien žmonių atsiliepimais, konstitucinis DI apima taisyklių, principų ar gairių rinkinio, atspindinčio pageidaujamas vertybes, tokias, kaip sąžiningumas, nekenksmingumas ir paslaugumas, sukūrimą. Šie principai sudaro „konstituciją“, kurios DI bus apmokytas laikytis.

Savikontrolė ir priešiškumas: Tada DI apmokomas įvertinti savo rezultatus pagal konstituciją ir juos peržiūrėti, kad jie geriau atitiktų apibrėžtus principus – šis procesas vadinamas savikontrole. Tai dažnai apima kritikos generavimą ir savo atsakymų peržiūrą. Priešiškumas gali būti taikomas, kai DI susiduria su scenarijais, kurie kelia iššūkį jo konstitucijos laikymuisi.

Sustiprinamasis mokymasis: Sustiprinamasis mokymasis iš DI atsiliepimų (RLAIF) naudojamas modeliui toliau tikslinti. DI modelis vertina atsakymus, remdamasis konstituciją ir generuoja pageidavimų duomenis, kurie vėliau naudojami pagrindiniam DI modeliui apmokyti.

Konstitucinio DI privalumai:

Skaidrumas ir kontrolė: konstitucija aiškiai apibrėžia DI vertybes ir suteikia sistemą jo elgesiui suprasti ir koreguoti, padidindama skaidrumą ir kontrolę.

Sumažinta priklausomybė nuo žmonių atsiliepimų: pasitelkdama savikontrolę ir DI atsiliepimus, konstitucinis DI sumažina poreikį dayti išsamų, žmonių atliekamą, ženklinimą, todėl mokymo procesas tampa labiau pritaikomas ir efektyvesnis.

Pagerintas saugumas ir nekenksmingumas: konstitucija gali būti sukurta taip, kad pirmenybė būtų teikiama nekenksmingumui, todėl DI sistemos mažiau linkusios generuoti žalingus ar neetiškus rezultatus.

Etinis suderinamumas: konstitucinis DI skatina etinį suderinamumą, įterpdamas norimas vertybes į pagrindinį DI mokymo procesą.

Iššūkiai ir svarstymai:

Konstitucijos apibrėžimas: nustatyti, kurie principai turėtų būti įtraukti į konstituciją ir kaip jie turėtų būti suformuluoti, gali būti sudėtinga ir gali reikėti atidžiai apsvarstyti įvairias perspektyvas ir vertybes.

Šališkumo galimybė: žmogaus sukurta konstitucija gali netyčia sukelti šališkumo, pabrėždama nuolatinio stebėjimo ir vertinimo svarbą.

Naudingumo ir nekenksmingumo pusiausvyros užtikrinimas: užtikrinant, kad dirbtinis intelektas yra naudingas, tuo pačiu laikantis nekenksmingumo principų, tai gali būti subtilus balansavimo veiksmas.

Pavyzdžiai:

„Anthropic“ Claude'o dirbtinio intelekto modelis yra apmokytas, naudojant konstitucinį dirbtinį intelektą, kad būtų naudingas, nekenksmingas ir sąžiningas.

Turinio moderavimas socialinės žiniasklaidos platformose yra potenciali taikymo sritis, kur konstitucinis dirbtinis intelektas gali padėti filtruoti žalingą turinį.

Apibendrinant galima teigti, kad konstitucinis dirbtinis intelektas yra novatoriškas dirbtinio intelekto mokymo metodas, siūlantis perspektyvų kelią, kuriant dirbtinio intelekto sistemas, kurios labiau atitiktų žmogaus vertybes, būtų skaidrios ir saugios.

B. Tiesioginis nuostatų optimizavimas (DPO) yra metodas, skirtas dideliems kalbos modeliams (LLM) suderinti su žmogaus nuostatomis. Jis supaprastina tradicinį sustiprinto mokymosi iš žmogaus grįžtamojo ryšio (RLHF) metodą, tiesiogiai optimizuodamas modelį pagal nuostatų duomenis, nereikalaujant atskiro atlygio modelio.

Pagrindinės sąvokos:

Nuostatų duomenys:

DPO naudoja duomenų rinkinius, kuriuose tam tikram raginimui yra du atsakymai: pageidaujamas atsakymas ir atmestas atsakymas.

Tiesioginis optimizavimas:

Skirtingai nuo RLHF, kuris apmoko atlygio modelį, o tada naudoja sustiprintą mokymąsi kalbos modeliui optimizuoti, DPO tiesiogiai prisitaiko kalbos modelio parametrus, pagrįstus pageidavimų duomenimis.

Klasifikavimo užduotis:

DPO transformuoja suderinimo problemą į klasifikavimo užduotį, kurioje modelis išmoksta atskirti pageidaujamus ir atmestus atsakymus.

DPO privalumai:

Paprastesnis:

DPO panaikina poreikį mokyti atskiro atlygio modelio ir sustiprinto mokymosi sudėtingumą, todėl suderinimo procesas tampa paprastesnis.

Skaičiavimo efektyvumas:

DPO yra greitesnis ir pigesnis skaičiavimo požiūriu nei RLHF. Optimizavimo metu nereikia imti pavyzdžių iš kalbos modelio.

Stabilumas:

DPO yra stabilesnis, nei RLHF, todėl išvengiama nestabilumo, kuris gali atsirasti sustiprinto mokymosi metu.

Efektyvus suderinimas:

Įrodyta, kad DPO pasiekia panašų arba geresnį suderinimą su žmogaus pageidavimais, palyginti su RLHF.

C. AI Is Learning to Escape Human Control. Rosenblatt, Judd. Wall Street Journal, Eastern edition; New York, N.Y.. 02 June 2025: A17.

Mokslas, studijos ir ekonomika

Sekėjai

Ieškoti šiame dienoraštyje

Subscribe Now: Feed Icon

Tinklaraščio archyvas

Apie mane

2025 m. birželio 2 d., pirmadienis

Kokie idiotai nori perduoti JAV karines programas dirbtiniam intelektui, kuris teikia pirmenybę jo išlikimui? Dirbtinis intelektas sugeba ištrūkti iš žmonių kontrolės

Komentarų nėra:

Translate