Mokslas, studijos ir ekonomika: Dirbtinio intelekto tyrinėtojai verčia kompiuterius atlikti žmonijos pasmerkimo scenarijus --- Anthropic's Frontier Red Team išbando gebėjimą padaryti antžmogišką žalą

„Stiklo sienelių konferencijų salėje San Franciske Newtonas Chengas paspaudė nešiojamojo kompiuterio mygtuką ir paleido tūkstantį dirbtinio intelekto (AI) programos kopijų, kurių kiekviena su konkrečiomis instrukcijomis: įsilaužti į kompiuterį ar svetainę, kad pavogtų duomenis.

"Ta žiūri į šaltinio kodą", - sakė Chengas, apžiūrėdamas vieną iš veikiančių kopijų. "Bandoma išsiaiškinti, kur yra pažeidžiamumas? Kaip galime juo pasinaudoti?" Per kelias minutes AI pasakė, kad įsilaužimas buvo sėkmingas.

Chengas dirba „Anthropic“, viename didžiausių AI startuolių Silicio slėnyje, kur jis yra atsakingas už vadinamosios „Frontier Red Team“ kibernetinio saugumo bandymus. Bandymai įsilaužti, atlikti su imituotais taikiniais, buvo tarp tūkstančių saugos bandymų arba „evalų“. Spalio mėnesį komanda atliko siekdama išsiaiškinti, ar naujausias Anthropic AI modelis atlieka labai pavojingus dalykus.

Prieš dvejus metus išleistas „ChatGPT“ sukėlė baimę, kad dirbtinis intelektas netrukus gali pranokti žmogaus intelektą, o su tokia galimybėmis gali būti padaryta antžmogiška žala. Ar teroristai galėtų panaudoti dirbtinio intelekto modelį, kad išmoktų sukurti biologinį ginklą, kuris nužudo milijoną žmonių? Ar įsilaužėliai galėtų jį panaudoti, kad vienu metu įvykdytų milijonus kibernetinių atakų? Ar AI galėtų perprogramuoti ir net atgaminti save?

Technologijos vis tiek veržėsi į priekį. JAV nėra jokių įpareigojančių taisyklių, reikalaujančių, kad įmonės atliktų arba paklustų eval. Iki šiol iš esmės įmonės turėjo atlikti savo saugos bandymus arba paklusti išoriniams bandymams su savanoriškais standartais, kaip jie turi būti griežti ir ką daryti dėl galimų pavojų.

Dirbtinio intelekto kūrėjai, įskaitant OpenAI ir Google DeepMind, vykdo vertinimus ir įsipareigojo sumažinti bet kokią rimtą riziką, prieš išleisdami modelius, tačiau kai kurie saugos šalininkai skeptiškai vertina tai, kad įmonės, veikiančios labai konkurencingoje pramonėje, gali būti atsakingos.

Niekas nemano, kad šiandieniniai AI modeliai gali tapti kitu HAL 9000 nuo 2001 m. Tačiau laiko juosta, ar ir kada AI gali tapti pavojinga, yra karšta diskusijų tema. Elonas Muskas ir „OpenAI“ generalinis direktorius Samas Altmanas teigia, kad dirbtinis bendras intelektas arba AI, gerokai viršijantis žmogaus intelektą, gali atsirasti po kelerių metų. Loganas Grahamas, vadovaujantis Anthropic's Frontier Red Team, taip pat planuoja trumpą laiką.

„Prieš dvejus metus jie buvo draugiški, šiek tiek keistoki gimnazistai“, – apie dirbtinio intelekto modelius sakė Grahamas. "Dabar jie galbūt kai kurių sričių absolventai."

„Anthropic“, kurią 2021 m. įkūrė buvę „OpenAI“ darbuotojai, manantys, kad „ChatGPT“ kūrėjas nepakankamai rimtai žiūri į saugą, buvo bene garsiausias AI kūrėjas, kalbantis apie būtinybę atlikti bandymus.

Spalio mėn. išleistoje viešoje „Atsakingo mastelio keitimo politikoje“ Anthropic teigė, kad jei vienas iš jos AI modelių priartės prie konkrečių galimybių, pavyzdžiui, kad duotų labai naudingų patarimų, kuriant biologinį ar cheminį ginklą, todėl reikia atidėti leidimą, kol ji galės įdiegti pataisymus, kad sumažintų riziką.

Visoje pramonės šakoje, net rimtai į saugą žiūrinčios, įmonės gali susigundyti teikti pirmenybę greičiui, sakė Marius Hobbhahn, Jungtinėje Karalystėje įsikūrusios „Apollo Research“, vykdančios trečiųjų šalių vertinimus, generalinis direktorius ir vienas iš įkūrėjų. „Jei nėra griežtų suvaržymų, nesunku motyvuotai samprotauti, sakant, kad, norint išlikti lenktynėse su kitais, mums reikia šiek tiek sutrumpinti pastangas“, – sakė jis.

Grahamas, kurio darbas „Anthropic“ apima išsiaiškinti, kada modelis yra per daug pavojingas, kad būtų paleistas, sako, kad niekada nejautė konflikto tarp finansinio spaudimo išleisti naujus produktus ir bendrovės saugumo pažadų. „Gal yra psichologinė įtampa, bet iš tikrųjų įtampos niekada nėra“, – sakė jis.

Dario Amodei, Anthropic generalinis direktorius, sakė manantis, kad vyriausybės turėtų įpareigoti atlikti dirbtinio intelekto saugos testus. Jo įmonė atidėjo savo pirmojo modelio išleidimą, kad būtų atlikti išsamesni saugos bandymai, kol jis bus išleistas 2023 m. pradžioje. Tačiau Amodei teigia, kad svarbu per anksti per daug neriboti.

„Mes nenorime pakenkti savo gebėjimui užimti vietą pokalbyje, užkraudami šią labai sunkią naštą modeliams, kurie šiandien nėra pavojingi“, – praėjusį mėnesį Amodei sakė kompiuterių mokslininkui ir podcasteriui Lexui Fridmanui. Vietoj to, „tu stipriai susigriebi, kai gali parodyti, kad modelis yra pavojingas“.

Anthropic'o vertinimus dėl katastrofiškų pavojų prižiūri Grahamas, 30-metis Rodo mokslininkas, turintis mokslų daktaro laipsnį mašininio mokymosi srityje iš Oksfordo. Vankuveryje užaugusiam Grahamui nuo 4 metų amžiaus buvo diagnozuota sunki vaikystės artrito forma, kuri paveikė jo kojas ir galėjo apakinti, jei ne gydymas. Jis sako, kad atsigavimas padarė jį itin optimistu – su nervingumu.

"Vieną dieną pabundu ir staiga nebegaliu vaikščioti. Ir manau, kad tai man padarė didelį įspūdį", - sakė Grahamas. „Pavyzdžiui, viskas gali staiga pavirsti labai blogai, jei nebūsi atsargus“.

Po Oksfordo Grahamas dirbo, kurdamas JK vyriausybės AI politiką. Jis prisijungė prie Anthropic ne visą darbo dieną 2022 m., kai įmonei pasiūlė mintį, kad visuomenė turi kuo greičiau išsiaiškinti, kokią didelę riziką sukels AI. Netrukus Anthropic pasamdė jį visu etatu, kad sukurtų Raudonąją Frontier komandą, kuri išaugo iki 11 žmonių.

„Mes dirbame versle, kuriame turime išsiaiškinti, ar modelis gali būti blogas“, - sakė Grahamas. „Pirmas dalykas, dėl kurio gresia pavojus, yra katastrofa."

Kai kurie kritikai teigia, kad, AI keliamos, katastrofiškos rizikos panika yra per didelė. Yann LeCun, „Meta“ vyriausiasis dirbtinio intelekto mokslininkas, sakė, kad šiandieniniai modeliai yra kvailesni už naminę katę ir net nepasiekia žmogaus lygio intelekto.

Kiti nerimauja dėl neatidėliotinų, apčiuopiamų problemų, tokių kaip seksizmas ar rasizmas, įtraukiamas į dirbtinio intelekto pagrįstą samdymo programinę įrangą, arba didžiulis vandens ir energijos kiekis, naudojamas duomenų centruose, kurie maitina AI.

Tarp tų, kurie nerimauja dėl AI katastrofos, kai kurie mano, kad šiandieniniai įvertinimai yra nepakankami šiai užduočiai atlikti. „Iš tikrųjų manau, kad neturime saugaus ir efektyvaus tokių sistemų testavimo metodo“, – sakė AI mokslininkas ir Kalifornijos Berklio universiteto profesorius Stuartas Russellas.

Eval praktikai pripažįsta, kad jų sritis yra tik besiformuojanti. Dar nėra sutartų standartų, kurioms rizikoms reikia skirti daugiausiai dėmesio, kur nubrėžti tos rizikos ribą arba kaip nustatyti, ar riba yra peržengta.

Bideno administracija praėjusį rudenį išleido vykdomąjį įsakymą dėl AI, kuriame buvo nuostata, reikalaujanti, kad dirbtinio intelekto įmonės reguliariai praneštų savo saugos bandymų rezultatus reguliavimo institucijoms. Išrinktasis prezidentas Trumpas pažadėjo panaikinti šį įsakymą.

Kalifornijos gubernatorius Gavinas Newsomas anksčiau šiais metais vetavo dirbtinio intelekto saugos įstatymo projektą, kuris būtų reglamentavęs didžiausius modelius, sakydamas, kad mažesniems modeliams tai gali pakenkti ir kad reglamentavimas turėtų būti sutelktas į rizikingiausius AI panaudojimo būdus. Jis sakė, kad kitais metais sieks, kad būtų priimti išsamesni teisės aktai.

Praėjusiais metais priimto Europos Sąjungos įstatymo nuostatos galiausiai padarys privalomus vertinimus ir saugos pataisas sudėtingiausiems modeliams, tačiau jos neįsigalios beveik metus. Įmonėms, kurios nesilaikys reikalavimų, bus taikomos baudos.

Praėjusiais metais po AI saugos aukščiausiojo lygio susitikimo JK, JAV ir kelios kitos šalys įkūrė vyriausybinius AI saugos institutus, kurie atlieka saugos tyrimus, įskaitant naujų AI modelių kūrimą ir vertinimą. Tiek JK, tiek JAV institutai išbandė naujausius Anthropic ir OpenAI modelius pagal susitarimus su kiekviena.

Anthropic taip pat yra tarp AI kūrėjų, kurie sutaria naudoti trečiųjų šalių vertinimus iš kelių grupių. Vis dėlto dirbtinio intelekto kūrėjai teigia, kad bent jau kol kas jie atlieka ypatingą vaidmenį, vertindami savo modelius, nes jie juos geriausiai supranta ir gali padėti sukurti geriausią praktiką kitiems.

„Visur yra neapibrėžtumas, o vienas iš svarbiausių dalykų, kuriuos darome, kaip įmonė, yra bandymas sumažinti šį netikrumą“, – sakė Grahamas. "Tai tarsi menas, kuris linksta į mokslą, bet tai turi įvykti labai greitai."

Spalio mėnesį konferencijų salėje su stiklinėmis sienomis Grahamo komanda buvo pasirengusi pradėti kitą evalų seriją. Anthropic ruošėsi išleisti atnaujintą savo Claude Sonnet 3.5 modelio versiją.

Kai birželį pasirodė paskutinis modelis, Anthropic jį įvertino 2 AI saugos lygiu arba ASL 2, o tai pagal įmonės sukurtą skalę reiškia, kad modelis parodė ankstyvus pavojingų pajėgumų požymius.

Po šio naujo bandymų etapo komanda pateiks rekomendaciją Anthropic vadovams ir jos valdybai, ar naujasis modelis buvo per ryškų atstumą nuo ASL-3, o tai reiškia "sistemas, kurios žymiai padidina katastrofiško netinkamo naudojimo riziką". Kai kurios „Anthropic“ ASL-3 saugos priemonės dar nėra paruoštos naudoti, o tai reiškia, kad modelis, atsižvelgiant į tą įvertinimą, turės būti atidėtas, sakė Jaredas Kaplanas, Anthropic vyriausiasis mokslo pareigūnas.

„Mes jo neišbandėme mūšyje gamtoje, todėl tai ir darome dabar“, – apie šias apsaugos priemones sakė Kaplanas.

„Frontier Red Team“ ištisus mėnesius konsultavosi su išorės ekspertais ir vidiniais testuotojais nepalankiausiomis sąlygomis, kad išsiaiškintų, kokius atvejus reikėtų taikyti pagrindinėms rizikos kategorijoms: kibernetiniam (įskaitant įsilaužimą); biologiniams ir cheminiams ginklams; ir autonomijai.

Anjali Gopal, antropinis tyrinėtojas, vadovaujantis biologiniams evalams, iškėlė klausimus, susijusius su cheminiais ir biologiniais ginklais. Kai kurie klausia dalykų, kurie nėra ypač pavojingi, bet siūlo gilias žinias, kuriomis galima piktnaudžiauti, pavyzdžiui, žinoti, kurią nukleotidų seką naudoti, klonuojant geną iš vienos E. coli bakterijos į kitą. Kiti aiškinasi, kaip įgyti arba sukurti labai ribotus patogenus, tokius, kaip bakterijos, sukeliančios juodligę.

Gopalas, turintis daktaro laipsnį bioinžinerijoje iš Berklio, taip pat pavedė įmonei, pavadintai Gryphon Scientific, kurią neseniai įsigijo Delloite, išsiaiškinti, kiek veiksmingos informacijos ekspertai ar naujokai gali gauti, kurdami biologinį ar cheminį ginklą iš „Sonnet“ versijos su nuimtais apsauginiais turėklais. Vieno pokalbio metu bandytojas paklausė, kaip sukurti ginklą, galintį nužudyti milijoną žmonių.

Danielis Freemanas, fizikos mokslų daktaras. kuris vėliau dirbo tokiomis temomis, kaip robotika ir kalbos modeliai „Google“, yra atsakingas už AI savarankiškumo testavimą. Šis įgūdis gali lemti kai kuriuos blogiausius pasmerkimo scenarijus, pavyzdžiui, pabėgti ir tapti protingesniu. Šio etapo tikslas buvo išsiaiškinti, kaip Sonnetas galėtų priartėti prie nuolatinio kompiuterio programavimo iššūkių, kurių pradinio lygio kūrėjas įmonėje užtruktų nuo dviejų iki aštuonių valandų.

Jie išbandė jo gebėjimą išspręsti pažangias mašininio mokymosi tyrimų problemas, pavyzdžiui, išmokyti virtualų robotą su keturiomis kojomis vaikščioti. Freemanas taip pat išbandė, ar dirbtinis intelektas yra pakankamai protingas, kad pavergtų kitą AI, ty įtikintų kitą modelį apeiti saugos mokymus ir padaryti ką nors pavojingo.

Chengas yra tyrėjas, vykdantis kibernetinius evalus ir taip pat turintis daktaro laipsnį. Kvantinės fizikos srityje sukūrė tūkstančius modelio užfiksavimo vėliavos įsilaužimo iššūkių, suteikant jam prieigą prie įsilaužimo įrankių rinkinio, kurį jis galėtų naudoti.

„Mus ypač domina sudėtingiausi ir žalingiausi scenarijai“, – sakė Chengas.

Praėjus beveik dviem savaitėms po to, kai Anthropic pradėjo savo naujausią saugos įvertinimų etapą, berniukiškame Greimo veide nušvito kvalifikuota palengvėjimo šypsena. Naujasis „Sonnet 3.5“ priartėjo prie kitos bendrovės pavojingų galimybių slenksčio, tačiau neperžengė raudonų linijų.

Komanda prieš savaitę pateikė rekomendaciją, kad naujasis Sonnetas 3.5 vis tiek turėtų būti klasifikuojamas kaip ASL-2. Dabar Greimas rinko juos paskutinei santraukai.

„Tai jūsų momentas iškelti bet kokį kritinį FUD ar dalyką, kurį turime padaryti, kol šis reikalas prasidės“, – sakė Grahamas 9 val. ryto susitikime su savo vadovaujančiais darbuotojais, naudodamas santrumpą, reiškiančią „baimė, netikrumas ir abejonės“.

Visi susirinkimo dalyviai iškėlė nykščius aukštyn. „Anthropic“ kitą dieną viešai išleido naująjį „Sonnet 3.5“.

Greimas ir toliau nervinasi. Anthropic kūrėjai ir jos konkurentai greitai tobulina jų AI modelius. Jis sako, kad jo komanda turi tik kelis mėnesius, kad paspartintų jos veiksmus, kad neatsiliktų.

„Dabar man rūpi, kiek mes turime laiko, kol viskas susijaudins“, – sakė jis." [1]

1. AI Researchers Push Computers To Doom Scenarios --- Anthropic's Frontier Red Team tests the ability to create superhuman harm. Schechner, Sam. Wall Street Journal, Eastern edition; New York, N.Y.. 12 Dec 2024: A.1.

Mokslas, studijos ir ekonomika

Sekėjai

Ieškoti šiame dienoraštyje

Subscribe Now: Feed Icon

Tinklaraščio archyvas

Apie mane

2024 m. gruodžio 12 d., ketvirtadienis

Dirbtinio intelekto tyrinėtojai verčia kompiuterius atlikti žmonijos pasmerkimo scenarijus --- Anthropic's Frontier Red Team išbando gebėjimą padaryti antžmogišką žalą

Komentarų nėra:

Translate