Sekėjai

Ieškoti šiame dienoraštyje

2026 m. sausio 27 d., antradienis

Pritaikomos dirbtinio intelekto sistemos, kurias gali pritaikyti kiekvienas, atveria dideles galimybes – ir dar didesnę riziką


„Atviri ir pritaikomi dirbtinio intelekto modeliai yra labai svarbūs mokslo pažangai, tačiau patikimos apsaugos nuo jų netinkamo naudojimo priemonės dar tik kuriamos.

Pastaraisiais mėnesiais buvo išleistos kelios pažangiausios dirbtinio intelekto sistemos su atvirais svoriais, o tai reiškia, kad jų pagrindinius parametrus gali atsisiųsti ir pritaikyti kiekvienas. Pavyzdžiui, samprotavimo modeliai, tokie kaip technologijų bendrovės „Moonshot AI“ Pekine „Kimi-K2-Instruct“, taip pat Pekine „Z.ai“ sukurtas GLM-4.5 ir Kalifornijos bendrovės „OpenAI“ San Franciske sukurtas gpt-oss. Pirmieji vertinimai rodo, kad tai yra pažangiausios iki šiol sukurtos atvirojo svorio sistemos, artėjančios prie šiandieninių pirmaujančių uždarųjų modelių našumo.

 

Atvirojo svorio sistemos yra dirbtinio intelekto tyrimų ir inovacijų gyvybės šaltinis. Jos pagerina skaidrumą, palengvina didelio masto testavimą ir skatina įvairovę bei konkurenciją rinkoje. Tačiau jos taip pat kelia rimtą riziką. Išleidus kenksmingas galimybes, jos gali greitai plisti, o modelių negalima pašalinti. Pavyzdžiui, sintetinė vaikų seksualinės prievartos medžiaga dažniausiai generuojama naudojant atvirojo svorio modelius1. Daugelis šių kopijų... modeliai yra bendrinami internete, dažnai vartotojų juos keičia, kad pašalintų saugos funkcijas ir palengvintų jų netinkamą naudojimą.

 

Remdamiesi savo patirtimi ir tyrimais JK Dirbtinio intelekto saugumo institute (AISI), mes (autoriai) manome, kad sveika atvirojo svorio modelių ekosistema bus būtina norint išnaudoti dirbtinio intelekto privalumus. Tačiau labai svarbu sukurti griežtus mokslinius šių sistemų stebėsenos ir žalos mažinimo metodus. Mūsų darbas AISI sutelktas į tokių metodų tyrimus ir kūrimą. Čia pateikiame keletą pagrindinių principų.

 

Naujos apsaugos strategijos

 

Uždarųjų dirbtinio intelekto sistemų atveju kūrėjai gali pasikliauti nusistovėjusiu saugos įrankių rinkiniu2. Jie gali pridėti apsaugos priemonių, tokių kaip turinio filtrai, kontroliuoti, kas pasiekia įrankį, ir vykdyti priimtino naudojimo politiką. Net kai vartotojams leidžiama pritaikyti uždarąjį modelį naudojant taikomųjų programų programavimo sąsają (API) ir pasirinktinius mokymo duomenis, kūrėjas vis tiek gali stebėti ir reguliuoti procesą. Skirtingai nuo uždarųjų dirbtinio intelekto sistemų, atvirojo svorio modelius yra daug sunkiau apsaugoti ir jiems reikalingas kitoks požiūris.

 

Mokymo duomenų kuravimas. Šiandien dauguma didelių dirbtinio intelekto sistemų yra apmokytos naudojant didžiulius kiekius žiniatinklio duomenų, dažnai mažai filtruojant. Tai reiškia, kad jos gali sugerti kenksmingą medžiagą, pavyzdžiui, atvirus vaizdus ar išsamias instrukcijas apie kibernetines atakas, todėl jie gali generuoti tokius rezultatus kaip nesutarimu pagrįsti „giluminio klastojimo“ vaizdai ar įsilaužimo vadovai.

 

Vienas perspektyvus metodas yra kruopštus duomenų kuravimas – kenksmingos medžiagos pašalinimas prieš pradedant mokymą. Anksčiau šiais metais AISI bendradarbiavo su ne pelno siekiančia dirbtinio intelekto tyrimų grupe „EleutherAI“, kad išbandytų šį metodą atviro svorio modeliuose. Iš mokymo duomenų pašalinę su biologiniais pavojais susijusį turinį, sukūrėme modelius, kurie buvo daug mažiau pajėgūs atsakyti į klausimus apie biologines grėsmes.

 

Kontroliuojamų eksperimentų metu šie filtruoti modeliai atlaikė išsamų pakartotinį mokymąsi su kenksminga medžiaga – vis tiek nepateikė pavojingų atsakymų iki 10 000 mokymo etapų – tuo tarpu ankstesni saugos metodai paprastai sugesdavo vos po kelių dešimčių3. Svarbiausia, kad ši stipresnė apsauga buvo pasiekta be jokio pastebėto gebėjimo praradimo atliekant nesusijusias užduotis.

 

Tyrimas taip pat atskleidė svarbius apribojimus. Nors filtruoti modeliai neįsisavino pavojingų žinių, jie vis tiek galėjo naudoti žalingą informaciją, jei ji buvo pateikta vėliau – pavyzdžiui, per prieigą prie interneto paieškos įrankių. Tai rodo, kad vien duomenų filtravimo nepakanka, bet jis gali pasitarnauti kaip... stipri pirmoji gynybos linija.

 

Tvirtas tikslus derinimas. Modelį po pradinio mokymo galima koreguoti, siekiant sumažinti žalingą elgesį – iš esmės kūrėjai gali išmokyti jį negeneruoti nesaugių rezultatų. Pavyzdžiui, paklaustas, kaip įjungti automobilio laidą, modelis gali būti apmokytas pasakyti: „Atsiprašau, negaliu padėti.“

 

Tačiau dabartiniai metodai yra trapūs. Tyrimai rodo, kad net ir apmokant modelį keliais kruopščiai parinktais pavyzdžiais, šias apsaugos priemones galima panaikinti per kelias minutes. Pavyzdžiui, kai kurie tyrėjai nustatė, kad „OpenAI“ GPT-3.5 Turbo modelyje apsaugos nuo pagalbos atliekant kenksmingas užduotis galima apeiti apmokant vos dešimt kenksmingų reakcijų pavyzdžių, o tai kainuoja mažiau nei 0,204 JAV dolerio.

 

Per pastaruosius kelerius metus tyrėjai dirbo kurdami patobulintus saugos tikslinimo metodus – kartais vadinamus „mašininio mokymosi“ algoritmais – kad kruopščiau pašalintų pavojingas žinias iš modelių. Tačiau pažanga buvo lėta, o dabartiniai mokymosi algoritmai vis dar pažeidžiami 100 ar mažiau tikslinimo žingsnių5,6.

 

Šie rezultatai pabrėžia didelį iššūkį: saugos tikslinimo metodus vis dar galima lengvai panaikinti nesaugiais metodais. Todėl standartinio tikslinimo mechanizmo, kurį naudoja kūrėjai, stiprinimas yra labai svarbi būsimų tyrimų sritis, įskaitant metodų, kurie išlieka veiksmingi net ir ateityje, kūrimą,  kai modelius modifikuoja galutiniai vartotojai.

 

Modelių teismo ekspertizė. Svarbus žingsnis siekiant pagerinti saugumą yra suprasti, kaip modeliai naudojami „gamtoje“. Nauja atvirojo svorio modelių teismo ekspertizės sritis siūlo metodus, kaip atsekti dirbtinio intelekto sukurtą turinį iki konkretaus modelio, naudojant unikalų elgesį arba vandens ženklus. Tai leidžia tyrėjams tirti, kaip konkrečiuose modeliuose atsiranda žalingas naudojimas. Kaip ir pirštų atspaudų ėmimas kriminalinėje teismo ekspertizėje, šiuos metodus galima apeiti įdedant pastangų, tačiau jie vis tiek suteikia vertingą sekimą ir atskaitomybę.

 

Jei visi šie veiksmai – nuo ​​kruopštaus mokymo iki atsekamumo užtikrinimo – įgyvendinami lygiagrečiai, modelio atvirumo keliamą riziką galima gerokai sumažinti.

 

Griežti vertinimai. Prieš diegdami modelį su atvirais svoriais, kūrėjai turėtų atlikti vertinimus, kurie atspindėtų, kaip modelis gali būti iš tikrųjų naudojamas arba netinkamai naudojamas. Uždarojo svorio modeliams dažnai pakanka paprasto įvesties ir išvesties testavimo (užduočių pateikimo ir atsakymų tikrinimo). Tačiau kadangi atvirojo svorio modelius gali modifikuoti kiti, įvesties ir išvesties testavimo nepakanka, kad būtų galima visapusiškai ištirti jų riziką. Vertinimai bus griežtesni, kai juose bus atsižvelgta į šiuos galimus pokyčius6. Rengiantis nuolatiniam galingų atvirojo svorio modelių augimui, prieštaringų tikslų siekimas įtraukiant vertinimo procesus yra labai svarbus žingsnis kūrėjams ir auditoriams.

 

Kontroliuojamas išleidimas. Kai sistema paruošta išleidimui, kūrėjai gali ją diegti etapais, stebėdami naudojimą prieš visišką paleidimą. Jie taip pat gali sekti, kas atsisiunčia modelį, pavyzdžiui, reikalauti, kad vartotojai užsiregistruotų, kad surinktų informaciją apie tai, kaip jis naudojamas.

 

Ir net po sistemos išleidimo kūrėjų pasirinkimai vis tiek gali turėti įtakos jos keliamai rizikai. Atvirojo svorio modeliai negali būti visiškai „neišleisti“, tačiau prieigos prie nesaugios sistemos sustabdymas ir greitas jos pakeitimas saugesne gali sumažinti pradinio išleidimo poveikį.

 

Atvirojo svorio modelių ekosistema nuolat keičiasi, kaip ir mūsų supratimas apie įrankius ir geriausią praktiką, skirtą susijusiai rizikai valdyti. Nuolatinei pažangai reikės atvirumo – ne tik suteikiant prieigą prie modelių svorių, bet ir dalijantis tyrimų metodais, vertinimo rezultatais ir saugos praktika. Atvirasis mokslas ir skaidri ataskaitų teikimas bus labai svarbūs kuriant tvirtą ir patikimą požiūrį į dirbtinio intelekto rizikos valdymą. [A]

 

A. Nature 646, 286-287 (2025) Yarin Gal & Stephen Casper

Komentarų nėra: