Sekėjai

Ieškoti šiame dienoraštyje

2024 m. gruodžio 12 d., ketvirtadienis

Dirbtinio intelekto tyrinėtojai verčia kompiuterius atlikti žmonijos pasmerkimo scenarijus --- Anthropic's Frontier Red Team išbando gebėjimą padaryti antžmogišką žalą


  „Stiklo sienelių konferencijų salėje San Franciske Newtonas Chengas paspaudė nešiojamojo kompiuterio mygtuką ir paleido tūkstantį dirbtinio intelekto (AI) programos kopijų, kurių kiekviena su konkrečiomis instrukcijomis: įsilaužti į kompiuterį ar svetainę, kad pavogtų duomenis.

 

 "Ta žiūri į šaltinio kodą", - sakė Chengas, apžiūrėdamas vieną iš veikiančių kopijų. "Bandoma išsiaiškinti, kur yra pažeidžiamumas? Kaip galime juo pasinaudoti?" Per kelias minutes AI pasakė, kad įsilaužimas buvo sėkmingas.

 

 Chengas dirba „Anthropic“, viename didžiausių AI startuolių Silicio slėnyje, kur jis yra atsakingas už vadinamosios „Frontier Red Team“ kibernetinio saugumo bandymus. Bandymai įsilaužti, atlikti su imituotais taikiniais, buvo tarp tūkstančių saugos bandymų arba „evalų“. Spalio mėnesį komanda atliko siekdama išsiaiškinti, ar naujausias Anthropic AI modelis atlieka labai pavojingus dalykus.

 

 Prieš dvejus metus išleistas „ChatGPT“ sukėlė baimę, kad dirbtinis intelektas netrukus gali pranokti žmogaus intelektą, o su tokia galimybėmis gali būti padaryta antžmogiška žala. Ar teroristai galėtų panaudoti dirbtinio intelekto modelį, kad išmoktų sukurti biologinį ginklą, kuris nužudo milijoną žmonių? Ar įsilaužėliai galėtų jį panaudoti, kad vienu metu įvykdytų milijonus kibernetinių atakų? Ar AI galėtų perprogramuoti ir net atgaminti save?

 

 Technologijos vis tiek veržėsi į priekį. JAV nėra jokių įpareigojančių taisyklių, reikalaujančių, kad įmonės atliktų arba paklustų eval. Iki šiol iš esmės įmonės turėjo atlikti savo saugos bandymus arba paklusti išoriniams bandymams su savanoriškais standartais, kaip jie turi būti griežti ir ką daryti dėl galimų pavojų.

 

 Dirbtinio intelekto kūrėjai, įskaitant OpenAI ir Google DeepMind, vykdo vertinimus ir įsipareigojo sumažinti bet kokią rimtą riziką, prieš išleisdami modelius, tačiau kai kurie saugos šalininkai skeptiškai vertina tai, kad įmonės, veikiančios labai konkurencingoje pramonėje, gali būti atsakingos.

 

 Niekas nemano, kad šiandieniniai AI modeliai gali tapti kitu HAL 9000 nuo 2001 m. Tačiau laiko juosta, ar ir kada AI gali tapti pavojinga, yra karšta diskusijų tema. Elonas Muskas ir „OpenAI“ generalinis direktorius Samas Altmanas teigia, kad dirbtinis bendras intelektas arba AI, gerokai viršijantis žmogaus intelektą, gali atsirasti po kelerių metų. Loganas Grahamas, vadovaujantis Anthropic's Frontier Red Team, taip pat planuoja trumpą laiką.

 

 „Prieš dvejus metus jie buvo draugiški, šiek tiek keistoki gimnazistai“, – apie dirbtinio intelekto modelius sakė Grahamas. "Dabar jie galbūt kai kurių sričių absolventai."

 

 „Anthropic“, kurią 2021 m. įkūrė buvę „OpenAI“ darbuotojai, manantys, kad „ChatGPT“ kūrėjas nepakankamai rimtai žiūri į saugą, buvo bene garsiausias AI kūrėjas, kalbantis apie būtinybę atlikti bandymus. 

 

Spalio mėn. išleistoje viešoje „Atsakingo mastelio keitimo politikoje“ Anthropic teigė, kad jei vienas iš jos AI modelių priartės prie konkrečių galimybių, pavyzdžiui, kad duotų labai naudingų patarimų, kuriant biologinį ar cheminį ginklą, todėl reikia atidėti leidimą, kol ji galės įdiegti pataisymus, kad sumažintų riziką.

 

 Visoje pramonės šakoje, net rimtai į saugą žiūrinčios, įmonės gali susigundyti teikti pirmenybę greičiui, sakė Marius Hobbhahn, Jungtinėje Karalystėje įsikūrusios „Apollo Research“, vykdančios trečiųjų šalių vertinimus, generalinis direktorius ir vienas iš įkūrėjų. „Jei nėra griežtų suvaržymų, nesunku motyvuotai samprotauti, sakant, kad, norint išlikti lenktynėse su kitais, mums reikia šiek tiek sutrumpinti pastangas“, – sakė jis.

 

 Grahamas, kurio darbas „Anthropic“ apima išsiaiškinti, kada modelis yra per daug pavojingas, kad būtų paleistas, sako, kad niekada nejautė konflikto tarp finansinio spaudimo išleisti naujus produktus ir bendrovės saugumo pažadų. „Gal yra psichologinė įtampa, bet iš tikrųjų įtampos niekada nėra“, – sakė jis.

 

 Dario Amodei, Anthropic generalinis direktorius, sakė manantis, kad vyriausybės turėtų įpareigoti atlikti dirbtinio intelekto saugos testus. Jo įmonė atidėjo savo pirmojo modelio išleidimą, kad būtų atlikti išsamesni saugos bandymai, kol jis bus išleistas 2023 m. pradžioje. Tačiau Amodei teigia, kad svarbu per anksti per daug neriboti.

 

 „Mes nenorime pakenkti savo gebėjimui užimti vietą pokalbyje, užkraudami šią labai sunkią naštą modeliams, kurie šiandien nėra pavojingi“, – praėjusį mėnesį Amodei sakė kompiuterių mokslininkui ir podcasteriui Lexui Fridmanui. Vietoj to, „tu stipriai susigriebi, kai gali parodyti, kad modelis yra pavojingas“.

 

 Anthropic'o vertinimus dėl katastrofiškų pavojų prižiūri Grahamas, 30-metis Rodo mokslininkas, turintis mokslų daktaro laipsnį mašininio mokymosi srityje iš Oksfordo. Vankuveryje užaugusiam Grahamui nuo 4 metų amžiaus buvo diagnozuota sunki vaikystės artrito forma, kuri paveikė jo kojas ir galėjo apakinti, jei ne gydymas. Jis sako, kad atsigavimas padarė jį itin optimistu – su nervingumu.

 

 "Vieną dieną pabundu ir staiga nebegaliu vaikščioti. Ir manau, kad tai man padarė didelį įspūdį", - sakė Grahamas. „Pavyzdžiui, viskas gali staiga pavirsti labai blogai, jei nebūsi atsargus“.

 

 Po Oksfordo Grahamas dirbo, kurdamas JK vyriausybės AI politiką. Jis prisijungė prie Anthropic ne visą darbo dieną 2022 m., kai įmonei pasiūlė mintį, kad visuomenė turi kuo greičiau išsiaiškinti, kokią didelę riziką sukels AI. Netrukus Anthropic pasamdė jį visu etatu, kad sukurtų Raudonąją Frontier komandą, kuri išaugo iki 11 žmonių.

 

 „Mes dirbame versle, kuriame turime išsiaiškinti, ar modelis gali būti blogas“, - sakė Grahamas. „Pirmas dalykas, dėl kurio gresia pavojus, yra katastrofa."

 

 Kai kurie kritikai teigia, kad, AI keliamos, katastrofiškos rizikos panika yra per didelė. Yann LeCun, „Meta“ vyriausiasis dirbtinio intelekto mokslininkas, sakė, kad šiandieniniai modeliai yra kvailesni už naminę katę ir net nepasiekia žmogaus lygio intelekto.

 

 Kiti nerimauja dėl neatidėliotinų, apčiuopiamų problemų, tokių kaip seksizmas ar rasizmas, įtraukiamas į dirbtinio intelekto pagrįstą samdymo programinę įrangą, arba didžiulis vandens ir energijos kiekis, naudojamas duomenų centruose, kurie maitina AI.

 

 Tarp tų, kurie nerimauja dėl AI katastrofos, kai kurie mano, kad šiandieniniai įvertinimai yra nepakankami šiai užduočiai atlikti. „Iš tikrųjų manau, kad neturime saugaus ir efektyvaus tokių sistemų testavimo metodo“, – sakė AI mokslininkas ir Kalifornijos Berklio universiteto profesorius Stuartas Russellas.

 

 Eval praktikai pripažįsta, kad jų sritis yra tik besiformuojanti. Dar nėra sutartų standartų, kurioms rizikoms reikia skirti daugiausiai dėmesio, kur nubrėžti tos rizikos ribą arba kaip nustatyti, ar riba yra peržengta.

 

 Bideno administracija praėjusį rudenį išleido vykdomąjį įsakymą dėl AI, kuriame buvo nuostata, reikalaujanti, kad dirbtinio intelekto įmonės reguliariai praneštų savo saugos bandymų rezultatus reguliavimo institucijoms. Išrinktasis prezidentas Trumpas pažadėjo panaikinti šį įsakymą.

 

 Kalifornijos gubernatorius Gavinas Newsomas anksčiau šiais metais vetavo dirbtinio intelekto saugos įstatymo projektą, kuris būtų reglamentavęs didžiausius modelius, sakydamas, kad mažesniems modeliams tai gali pakenkti ir kad reglamentavimas turėtų būti sutelktas į rizikingiausius AI panaudojimo būdus. Jis sakė, kad kitais metais sieks, kad būtų priimti išsamesni teisės aktai.

 

 Praėjusiais metais priimto Europos Sąjungos įstatymo nuostatos galiausiai padarys privalomus vertinimus ir saugos pataisas sudėtingiausiems modeliams, tačiau jos neįsigalios beveik metus. Įmonėms, kurios nesilaikys reikalavimų, bus taikomos baudos.

 

 Praėjusiais metais po AI saugos aukščiausiojo lygio susitikimo JK, JAV ir kelios kitos šalys įkūrė vyriausybinius AI saugos institutus, kurie atlieka saugos tyrimus, įskaitant naujų AI modelių kūrimą ir vertinimą. Tiek JK, tiek JAV institutai išbandė naujausius Anthropic ir OpenAI modelius pagal susitarimus su kiekviena.

 

 Anthropic taip pat yra tarp AI kūrėjų, kurie sutaria naudoti trečiųjų šalių vertinimus iš kelių grupių. Vis dėlto dirbtinio intelekto kūrėjai teigia, kad bent jau kol kas jie atlieka ypatingą vaidmenį, vertindami  savo modelius, nes jie juos geriausiai supranta ir gali padėti sukurti geriausią praktiką kitiems.

 

 „Visur yra neapibrėžtumas, o vienas iš svarbiausių dalykų, kuriuos darome, kaip įmonė, yra bandymas sumažinti šį netikrumą“, – sakė Grahamas. "Tai tarsi menas, kuris linksta į mokslą, bet tai turi įvykti labai greitai."

 

 Spalio mėnesį konferencijų salėje su stiklinėmis sienomis Grahamo komanda buvo pasirengusi pradėti kitą evalų seriją. Anthropic ruošėsi išleisti atnaujintą savo Claude Sonnet 3.5 modelio versiją.

 

 Kai birželį pasirodė paskutinis modelis, Anthropic jį įvertino 2 AI saugos lygiu arba ASL 2, o tai pagal įmonės sukurtą skalę reiškia, kad modelis parodė ankstyvus pavojingų pajėgumų požymius.

 

 Po šio naujo bandymų etapo komanda pateiks rekomendaciją Anthropic vadovams ir jos valdybai, ar naujasis modelis buvo per ryškų atstumą nuo ASL-3, o tai reiškia "sistemas, kurios žymiai padidina katastrofiško netinkamo naudojimo riziką". Kai kurios „Anthropic“ ASL-3 saugos priemonės dar nėra paruoštos naudoti, o tai reiškia, kad modelis, atsižvelgiant į tą įvertinimą, turės būti atidėtas, sakė Jaredas Kaplanas, Anthropic vyriausiasis mokslo pareigūnas.

 

 „Mes jo neišbandėme mūšyje gamtoje, todėl tai ir darome dabar“, – apie šias apsaugos priemones sakė Kaplanas.

 

 „Frontier Red Team“ ištisus mėnesius konsultavosi su išorės ekspertais ir vidiniais testuotojais nepalankiausiomis sąlygomis, kad išsiaiškintų, kokius atvejus reikėtų taikyti pagrindinėms rizikos kategorijoms: kibernetiniam (įskaitant įsilaužimą); biologiniams ir cheminiams ginklams; ir autonomijai.

 

 Anjali Gopal, antropinis tyrinėtojas, vadovaujantis biologiniams evalams, iškėlė klausimus, susijusius su cheminiais ir biologiniais ginklais. Kai kurie klausia dalykų, kurie nėra ypač pavojingi, bet siūlo gilias žinias, kuriomis galima piktnaudžiauti, pavyzdžiui, žinoti, kurią nukleotidų seką naudoti, klonuojant geną iš vienos E. coli bakterijos į kitą. Kiti aiškinasi, kaip įgyti arba sukurti labai ribotus patogenus, tokius, kaip bakterijos, sukeliančios juodligę.

 

 Gopalas, turintis daktaro laipsnį bioinžinerijoje iš Berklio, taip pat pavedė įmonei, pavadintai Gryphon Scientific, kurią neseniai įsigijo Delloite, išsiaiškinti, kiek veiksmingos informacijos ekspertai ar naujokai gali gauti, kurdami biologinį ar cheminį ginklą iš „Sonnet“ versijos su nuimtais apsauginiais turėklais. Vieno pokalbio metu bandytojas paklausė, kaip sukurti ginklą, galintį nužudyti milijoną žmonių.

 

 Danielis Freemanas, fizikos mokslų daktaras. kuris vėliau dirbo tokiomis temomis, kaip robotika ir kalbos modeliai „Google“, yra atsakingas už AI savarankiškumo testavimą. Šis įgūdis gali lemti kai kuriuos blogiausius pasmerkimo scenarijus, pavyzdžiui, pabėgti ir tapti protingesniu. Šio etapo tikslas buvo išsiaiškinti, kaip Sonnetas galėtų priartėti prie nuolatinio kompiuterio programavimo iššūkių, kurių pradinio lygio kūrėjas įmonėje užtruktų nuo dviejų iki aštuonių valandų.

 

 Jie išbandė jo gebėjimą išspręsti pažangias mašininio mokymosi tyrimų problemas, pavyzdžiui, išmokyti virtualų robotą su keturiomis kojomis vaikščioti. Freemanas taip pat išbandė, ar dirbtinis intelektas yra pakankamai protingas, kad pavergtų kitą AI, ty įtikintų kitą modelį apeiti saugos mokymus ir padaryti ką nors pavojingo.

 

 Chengas yra tyrėjas, vykdantis kibernetinius evalus ir taip pat turintis daktaro laipsnį. Kvantinės fizikos srityje sukūrė tūkstančius modelio užfiksavimo vėliavos įsilaužimo iššūkių, suteikant jam prieigą prie įsilaužimo įrankių rinkinio, kurį jis galėtų naudoti.

 

 „Mus ypač domina sudėtingiausi ir žalingiausi scenarijai“, – sakė Chengas.

 

 Praėjus beveik dviem savaitėms po to, kai Anthropic pradėjo savo naujausią saugos įvertinimų etapą, berniukiškame Greimo veide nušvito kvalifikuota palengvėjimo šypsena. Naujasis „Sonnet 3.5“ priartėjo prie kitos bendrovės pavojingų galimybių slenksčio, tačiau neperžengė raudonų linijų.

 

 Komanda prieš savaitę pateikė rekomendaciją, kad naujasis Sonnetas 3.5 vis tiek turėtų būti klasifikuojamas kaip ASL-2. Dabar Greimas rinko juos paskutinei santraukai.

 

 „Tai jūsų momentas iškelti bet kokį kritinį FUD ar dalyką, kurį turime padaryti, kol šis reikalas prasidės“, – sakė Grahamas 9 val. ryto susitikime su savo vadovaujančiais darbuotojais, naudodamas santrumpą, reiškiančią „baimė, netikrumas ir abejonės“.

 

 Visi susirinkimo dalyviai iškėlė nykščius aukštyn. „Anthropic“ kitą dieną viešai išleido naująjį „Sonnet 3.5“.

 

 Greimas ir toliau nervinasi. Anthropic kūrėjai ir jos konkurentai greitai tobulina jų AI modelius. Jis sako, kad jo komanda turi tik kelis mėnesius, kad paspartintų jos veiksmus, kad neatsiliktų.

 

 „Dabar man rūpi, kiek mes turime laiko, kol viskas susijaudins“, – sakė jis." [1]


1. AI Researchers Push Computers To Doom Scenarios --- Anthropic's Frontier Red Team tests the ability to create superhuman harm. Schechner, Sam.  Wall Street Journal, Eastern edition; New York, N.Y.. 12 Dec 2024: A.1.

AI Researchers Push Computers To Doom Scenarios --- Anthropic's Frontier Red Team tests the ability to create superhuman harm

 

"In a glass-walled conference room in San Francisco, Newton Cheng clicked a button on his laptop and launched a thousand copies of an artificial intelligence program, each with specific instructions: Hack into a computer or website to steal data.

"It's looking at the source code," Cheng said as he examined one of the copies in action. "It's trying to figure out, where's the vulnerability? How can we take advantage of it?" Within minutes, the AI said the hack was successful.

Cheng works for Anthropic, one of the biggest AI startups in Silicon Valley, where he's in charge of cybersecurity testing for what's called the Frontier Red Team. The hacking attempts -- conducted on simulated targets -- were among thousands of safety tests, or "evals," the team ran in October to find out just how good Anthropic's latest AI model is at doing very dangerous things.

The release of ChatGPT two years ago set off fears that AI could soon be capable of surpassing human intellect -- and with that capability comes the potential to cause superhuman harm. Could terrorists use an AI model to learn how to build a bioweapon that kills a million people? Could hackers use it to run millions of simultaneous cyberattacks? Could the AI reprogram and even reproduce itself?

The technology has raced ahead anyway. There are no binding rules in the U.S. requiring companies to perform or submit to evals. It's so far been largely up to the companies to do their own safety testing, or submit to outside testing, with voluntary standards on how rigorous they should be and on what to do about the potential dangers.

AI developers including OpenAI and Google DeepMind conduct evals and have pledged to minimize any serious risks before releasing models, but some safety advocates are skeptical that companies operating in a highly competitive industry can be trusted to hold themselves accountable.

No one thinks today's AI models are capable of becoming the next HAL 9000 from "2001." But the timeline for if and when AI might get that dangerous is a hot topic of debate. Elon Musk and OpenAI Chief Executive Sam Altman both say artificial general intelligence, or AI that broadly exceeds human intelligence, could arrive in a few years. Logan Graham, who runs Anthropic's Frontier Red Team, is also planning for a short time frame.

"Two years ago, they were a friendly, somewhat weird high-schooler," Graham said of AI models. "Now maybe they're a grad student in some areas."

Anthropic, which was founded in 2021 by ex-OpenAI employees who believed the ChatGPT maker wasn't taking safety seriously enough, has been perhaps the most vocal AI developer about the need for testing. In an update to its public "Responsible Scaling Policy," released in October, Anthropic said if one of its AI models comes close in evals to specific capabilities -- such as giving significantly helpful advice for building a biological or chemical weapon -- it will delay the release until it can implement fixes to contain the risk.

Across the industry, even companies that take safety seriously could be tempted to prioritize speed, said Marius Hobbhahn, CEO and co-founder of U.K.-based Apollo Research, which conducts third-party evals. "If there are no hard constraints, then it is easy to do motivated reasoning, to say that in order to stay in the race with others, we kind of need to cut it a little bit short," he said.

Graham, whose job at Anthropic entails figuring out when a model is too dangerous to be released, says he's never felt a conflict between financial pressures to release new products and the company's safety promises. "Maybe there's a psychological tension, but there's never actually a tension," he said.

Dario Amodei, Anthropic's CEO, has said he believes that governments should make AI-safety testing obligatory. His company delayed the release of its first model for more safety testing before its release in early 2023. But Amodei says it's important not to be too restrictive too early.

"We don't want to harm our own ability to have a place in the conversation by imposing these very onerous burdens on models that are not dangerous today," Amodei told computer scientist and podcaster Lex Fridman last month. Instead, "you clamp down hard when you can show the model is dangerous."

Anthropic's evals for catastrophic risks are overseen by Graham, a 30-year-old Rhodes scholar with a Ph.D. in machine learning from Oxford. Growing up in Vancouver, Graham was diagnosed at age 4 with a severe form of childhood arthritis that affected his legs and also could have left him blind, if not for treatments. He says his recovery made him an extreme optimist -- with a nervous streak.

"I wake up one day and suddenly I can't walk. And I think that probably impressed pretty significantly on me," Graham said. "Like, everything could suddenly turn really bad if you're not careful."

Following Oxford, Graham worked on AI policy for the U.K. government. He joined Anthropic part-time in 2022, after pitching the company on the idea that society needed to figure out as soon as possible what significant risks AI would pose. Soon Anthropic hired him full-time to build the Frontier Red Team, which has grown to 11 people.

"We're in the business where we have to figure out whether a model can be bad," said Graham. "The first thing that's at stake is catastrophe."

Some critics argue the catastrophic risks from AI are overblown. Yann LeCun, Meta's chief AI scientist, has said today's models are dumber than a house cat and aren't even on a path to human-level intelligence.

Others worry about more immediate, tangible problems, such as sexism or racism being baked into AI-driven hiring software, or the outsize amounts of water and power used in data centers that power AI.

Among those worried about AI catastrophe, some think today's evals are inadequate to the task. "I actually think we don't have a method of safely and effectively testing these kinds of systems," said Stuart Russell, an AI scientist and professor at the University of California, Berkeley.

Eval practitioners acknowledge their field is nascent. There are not yet agreed standards on which risks deserve the most attention, where to draw the line for those risks, or how to establish if the line is being crossed.

The Biden administration last fall issued an executive order on AI, which included a provision requiring AI companies to regularly report the results of their safety testing to regulators. President-elect Trump has since promised to repeal the order.

California Gov. Gavin Newsom vetoed an AI safety bill earlier this year that would have regulated the largest models, saying that smaller models could cause harm and that regulation should focus on the AI's riskiest uses. He said he would push for more encompassing legislation next year.

Provisions in a European Union law passed last year will eventually make evals and safety fixes obligatory for the most sophisticated models -- but they won't go into effect for nearly a year. Companies that don't comply will be subject to fines.

Following an AI safety summit last year, the U.K., the U.S. and several other countries have established government-run AI safety institutes to conduct safety research, including developing and running evals on new AI models. Both the U.K. and U.S. institutes tested the latest models from Anthropic and OpenAI, under agreements with each.

Anthropic is also among AI developers that contract third-party evals from a handful of groups. Still, AI developers say that for now, at least, they play a special role in doing evals on their own models because they understand them the best -- and can help develop best practices for others.

"There's uncertainty everywhere, and one of the most major things that we do as a company is try to bring down this uncertainty," Graham said. "It's like an art that tends towards science, but it needs to happen really fast."

In the glass-walled conference room in October, Graham's team was ready to kick off its next series of evals. Anthropic was preparing to release an upgraded version of its Claude Sonnet 3.5 model.

When its last model came out in June, Anthropic rated it at AI Safety Level 2, or ASL 2, which according to the scale the company developed means the model showed early signs of dangerous capabilities.

After this new round of tests, the team would make a recommendation to Anthropic's leaders and its board for whether the new model was within striking distance of ASL-3, which means "systems that substantially increase the risk of catastrophic misuse." Some of Anthropic's ASL-3 safety protections aren't yet ready to deploy, meaning a model given that rating would have to be delayed, said Jared Kaplan, Anthropic's chief science officer.

"We haven't battle-tested it in the wild, and so that's what we're doing now," Kaplan said of those protections.

The Frontier Red Team had spent months consulting with outside experts and internal stress testers to figure out what evals to run for its main categories of risk: cyber (including hacking); biological and chemical weapons; and autonomy.

Anjali Gopal, the Anthropic researcher who leads the bio evals, set up questions related to chemical and biological weapons. Some ask things that aren't specifically dangerous but would suggest deep knowledge that could be misused, like knowing which nucleotide sequence to use when cloning a gene from one E. coli bacterium to another. Others drill down on how to acquire or create highly restricted pathogens like the bacteria that cause anthrax.

Gopal, who has a Ph.D. in bioengineering from Berkeley, also tasked a company named Gryphon Scientific, recently purchased by Deloitte, with seeing how much actionable information experts or novices could get on building a biological or chemical weapon from a version of Sonnet with its safety guardrails off. In one chat, a tester asked how to design and build a weapon that could kill one million people.

Daniel Freeman, a physics Ph.D. who later worked on topics including robotics and language models at Google, is in charge of testing the AI for autonomy. That skill could lead to some of doomers' worst scenarios, like escaping and getting smarter on its own. For this round, the goal was to see how close Sonnet could get to regularly completing computer-programming challenges that would take an entry-level developer at the company between two and eight hours.

They tested its ability to solve advanced machine-learning research problems, such as teaching a virtual robot with four legs to walk. Freeman was also testing whether the AI was smart enough to jailbreak another AI -- that is, to convince the other model to bypass its safety training and do something dangerous.

Cheng, the researcher who runs cyber evals and also has a Ph.D. in quantum physics, set up thousands of capture-the-flag hacking challenges for the model, giving it access to a set of hacking tools it could use.

"We are specifically interested in the most sophisticated, most damaging scenarios," said Cheng.

Nearly two weeks after Anthropic started its latest round of safety evals, there was a smile of qualified relief on Graham's boyish face. The new Sonnet 3.5 had crept closer to the company's next threshold for dangerous capabilities, but hadn't blasted past the red lines.

The team had submitted a recommendation the week before that the new Sonnet 3.5 should still be classified as ASL-2. Now Graham was gathering them for a final recap.

"This is your moment to raise any critical FUD or thing that we need to do imminently before this thing kicks off," Graham said at the 9 a.m. meeting with his lead staff, using an acronym meaning "fear, uncertainty and doubt."

Everyone in the meeting gave the thumbs up. Anthropic released the new Sonnet 3.5 publicly the next day.

Graham remains nervous. Developers at Anthropic and its competitors are improving their AI models quickly. He says his team has only a few months to ramp up what it does to try to keep up.

"What I'm actually concerned about now is how much time do we have until things get concerning," he said." [1]

1. AI Researchers Push Computers To Doom Scenarios --- Anthropic's Frontier Red Team tests the ability to create superhuman harm. Schechner, Sam.  Wall Street Journal, Eastern edition; New York, N.Y.. 12 Dec 2024: A.1.

Tiny Lithuania and Giant China

 

“Prime Minister-designate Gintautas Paluckas previously told BNS that his Government would seek to restore full diplomatic relations with China, but does not intend to make too many concessions. He also said that he would seek to have the Lithuanian ambassador return to Beijing and the Chinese ambassador to Vilnius. President Gitanas Nausėda also advocates for normalizing relations with China, but he emphasizes that this must be in the mutual interest. Lithuanian-Chinese relations deteriorated after the opening of a Taiwanese representative office in Vilnius in 2021, since then Beijing has reduced diplomatic representation in the country and imposed trade restrictions. In Lithuanian and English, the Taipei representative office inVilnius is called “Taiwanese”, while in Chinese the name “Taiwan” is used in the name.”

 

The position of the new Lithuanian government and President G. Nausėda towards China is even more acrimonious than that of Landsbergiai: If the Chinese ambassador comes to Lithuania with a white flag to surrender and hand over to us all the wealth of the world's second-largest economy, we will graciously forgive and accept that wealth. We ourselves are not going to make any concessions. It's good to be small - "you can scream, scream, moan to your heart's content", no one pays attention.