„Kai 1997 m. IBM šachmatų superkompiuteris „Deep Blue“ nugalėjo Garį Kasparovą, kompiuteriai vis dar buvo tik kompiuteriai. „Deep Blue“ svėrė daugiau nei toną, turėjo 32 centrinius procesorius ir per sekundę galėjo įvertinti 200 milijonų lentos pozicijų, tačiau visi žinojo, ką jis daro: kompiuteris nustatydavo geriausią kitą ėjimą imituodamas ir priskirdamas vertes lentos pozicijoms iki 12 ėjimų į priekį (iš viso milijardams pozicijų). Šią galimybę „Deep Blue“ tiesiogiai užprogramavo jos kūrėjai, lygiai taip pat, kaip pirmasis modernus kompiuteris – elektroninis skaitmeninis integratorius ir kompiuteris (ENIAC) – 1945 m. buvo užprogramuotas sudėti skaičius. Tai buvo „baltosios dėžės“ sistemos. Nebuvo jokios paslapties apie tai, kas vyksta jų viduje, nors jos tam tikra prasme buvo protingos: kaip kitaip pavadintumėte tai, kas gerai žaidžia šachmatais?
Po penkiolikos metų, 2012 m., Toronto universiteto tyrimų grupė sukūrė programą pavadinimu „AlexNet“ (pavadinta vieno iš jos kūrėjų, Alexo, vardu) Križevskis), kuris daug tiksliau nei bet kuri ankstesnė programa atpažino objektus vaizduose – šis gebėjimas buvo pademonstruotas, kai ji lengvai laimėjo vaizdų klasifikavimo konkursą. Tai buvo įdomi pergalė, nes daugeliu atžvilgių „AlexNet“ iš viso nebuvo programuota.
Vietoj to, „AlexNet“ buvo suteikta tarpusavyje sujungtų funkcijų struktūra, kurią galima laikyti virtualiais neuronais su instrukcijomis įjungti arba išjungti priklausomai nuo per juos praeinančios informacijos. Mokymo etape šios funkcijos buvo atsitiktinai nustatytos ir joms buvo pavesta atlikti nedidelius savo koregavimus, kai joms nepavyko arba pavyko atpažinti vaizdą. Šio metodo principai buvo kuriami dešimtmečius, tačiau „AlexNet“, kuriai buvo suteiktas didžiulis vaizdų duomenų rinkinys, veikė kitokiu mastu. Po pakankamai mokymų sistema pasirinko konkrečią vaizdų atpažinimo formulę, kuri buvo geresnė nei bet kuri anksčiau sukurta.
Tačiau buvo vienas keblumas: pati formulė buvo paslaptinga net ir už ją atsakingiems žmonėms. Kadangi vaizdų klasifikavimo algoritmas vystėsi autonomiškai, „AlexNet“ vidinėje struktūroje arba neuroniniame tinkle galėjo būti užkoduota bet koks skaičius taisyklių, neturint akivaizdaus būdo išsiaiškinti, kas ar kas. kur buvo tos taisyklės. Galėtumėte tiesiogiai žiūrėti į programos funkcijas, bet turint dešimtis milijonų jų, tiksliai apibūdinti atsirandančią struktūrą būtų beveik neįmanoma. Programa iš esmės buvo juodoji dėžė.
„AlexNet“ buvo svarbus etapas dirbtinio intelekto istorijoje. Nors anksčiau buvo atlikta daug neuroninių tinklų tyrimų, platesnė kompiuterių mokslo bendruomenė jų netyrė nuoširdžiai. „AlexNet“ sėkmė paskatino pastangas naudoti neuroninius tinklus naujoms problemoms spręsti. Kai kuriems tai leido manyti, kad geriausias būdas sukurti intelektualų modelį yra labiau atsiriboti nuo proceso: užuot kūrus daugiau struktūros, sukurti labai didelį neuroninį tinklą ir leisti jam mokytis dirbti su daugybe duomenų. Kaip 2019 m. rašė kompiuterių mokslininkas Richas Suttonas, 70 metų mašininio mokymosi tyrimų „karčioji pamoka“ buvo ta, kad mašinos, imituojančios „tai, kaip mes manome, kad mąstome“, kūrimas ilgainiui neveikia.
Dirbtinio intelekto modelių neuroniniuose tinkluose buvo dešimtys milijonų matematinių funkcijų, o dabar jų skaičius išaugo iki šimto milijonų ir milijardo. 2018 m. buvo išleisti pirmieji dideli kalbos modeliai, pagrįsti naujo tipo neuroniniu tinklu, tačiau iš esmės apmokyti taip pat, kaip ir „AlexNet“. Užuot identifikavę vaizdus, jie numatė kitą žodį sakiniuose ir, reaguodami į užklausas, sukūrė žmogišką tekstą. Apskaičiuota, kad naujausiose „Google Gemini“ ir „OpenAI“ GPT-5 versijose yra trilijonai matematinių funkcijų (tikslūs skaičiai nebuvo paviešinti). Tačiau viena iš šio patobulinimo išlaidų buvo skaidrumas. Modelio neuroniniam tinklui didėjant, jį tampa dar sunkiau suprasti.
Susidūrus su šiuo neskaidrumu, kyla pagunda griebtis supaprastinimų: sakyti, kad kadangi šios sistemos kuria kalbą kaip mes, jos yra panašios į mus, arba sakyti, kad kadangi šios sistemos yra tik matematinių funkcijų išdėstymas, galime jas laikyti didžiulėmis paieškos lentelėmis. Tačiau abu šie teiginiai yra pernelyg niekinantys – nė vienas iš jų negali tinkamai paaiškinti antžmogiškų dirbtinio intelekto gebėjimų ir keistai išradingo elgesio. modeliai.
Vietoj to, auganti kompiuterių mokslo sritis, žinoma kaip interpretuojamumas, įkūnija įsitikinimą, kad norint sumažinti ar net panaikinti didėjančią žinių spragą tarp dirbtinio intelekto modelių ir žmonių, turime dirbtinį intelektą traktuoti labiau kaip gamtos reiškinį, o ne kaip žmogaus išradimą. Juk gamtos pasaulis pilnas sudėtingų struktūrų, kylančių iš nežinomų taisyklių; galaktikos, jūrų žvaigždės ir vėžio ląstelės tam tikra prasme yra juodosios dėžės. Chrisas Olah, šios srities pradininkas ir kartu su Dario Amodei bei keliais kitais buvusiais „OpenAI“ darbuotojais dirbtinio intelekto bendrovės „Anthropic“ įkūrėjas man pasakė, kad interpretuojamumas yra tarsi „iš dangaus nusileidusių nežemiškų organizmų tyrimas“. Galbūt keistas požiūris į mūsų sukurtą technologiją, bet tokia ir yra dirbtinio intelekto magija. Ji gali sugluminti savo pačios kūrėjus.
Prieš „Anthropic“ įkūrimą 2021 m., juodosios dėžės problemos sprendimas nebuvo didelio masto komercinis prioritetas. Akademinėje bendruomenėje ir pramonės laboratorijose, tokiose kaip „OpenAI“ ir „Google“, buvo nepriklausomų interpretuojamumo tyrėjų, tačiau jie buvo gana nepastebimi, ypač palyginti su jų kolegomis, kuriančiais modelius. Mašininio mokymosi srityje daugiausia dėmesio buvo skiriama galimybėms, „modelių tobulinimui, o ne tam, kad būtų suprasta, kaip jie veikia“, – man sakė Harvardo universiteto interpretuojamumo tyrėjas Martinas Wattenbergas.
„Anthropic“ pradžia iš dalies buvo pagrįsta idėja, kad interpretuojamumas yra nepaprastai svarbus, ir ši sritis sparčiai augo po įmonės veiklos. „Šios sistemos bus absoliučiai svarbios ekonomikai, technologijoms ir nacionaliniam saugumui ir galės būti tokios autonomiškos, kad laikau iš esmės nepriimtina, jog žmonija visiškai nežino, kaip jos veikia“, – praėjusiais metais ilgame, spekuliatyviame esė apie juodųjų dėžių modelius rašė Amodei. Galbūt nesvarbu, jei negalime suprasti, kodėl šachmatų programa savo bokštą stumia keturiais langeliais, o ne trimis, bet to paties negalima pasakyti apie mašinas, priimančias skubios medicinos pagalbos sprendimus, suteikiančias lygtinį paleidimą ar įgyvendinančias karinę taktiką.
Tai yra vienas iš šaltinių, slypinčių už neseniai vykusio „Anthropic“ ginčo su Pentagonu: bendrovė, tiekusi savo modelius Gynybos departamentui, atsisakė leisti naudoti technologiją labai rizikingiems, potencialiai nepatikimiems tikslams, pavyzdžiui, integravimui su visiškai autonominiais ginklais. Įsivaizduokite droną, sunaikinantį mokyklinį autobusą, ir vienintelė priežastis, kurią galime pateikti dėl klaidos, yra ta, kad jį ten nukreipė dirbtinio intelekto sistema. Įsivaizduokite, kad jums pasako, jog reikia operacijos, paklausiate, kodėl, o gydytojas gali pasakyti tik: „Nes taip pasakė kompiuteris“. O kas, jei kompiuteris klysta? Tokį pagarbą galėtume toleruoti tik tuo atveju, jei pasitikėtume dirbtiniu intelektu. daugiau nei žmonės, kurie kitaip priimtų tokius sprendimus. Ir kaip mes galėtume tai padaryti, jei net nežinotume, kaip sistema veikia?
Biomedicinos dirbtinio intelekto įmonę „Prima Mente“ 2023 m. įkūrė jaunas neuromokslininkas Ravi Solanki, kuris prieš kelerius metus pradėjo praktikuoti mediciną, kaip tik tuo metu, kai galingesnės dirbtinio intelekto sistemos sulaukė didelio dėmesio. Žmonės naudojo dirbtinį intelektą matematikos uždaviniams spręsti, archeologiniams griuvėsiams analizuoti, baltymams tirti – Solanki nesuprato, kodėl ši technologija negalėtų būti naudojama ir kaip diagnostikos priemonė neurodegeneracinėms ligoms, tokioms kaip Parkinsono ir Alzheimerio ligos, diagnozuoti. Daugelis šių sutrikimų priežastinių veiksnių nežinomi, o vienintelis patikimas būdas diagnozuoti Alzheimerio ligą yra autopsija. Tačiau jei į dirbtinio intelekto modelį būtų įtraukti daugelio metų kraujo mėginiai ir smegenų skenavimai iš pacientų, sergančių neurologinėmis ligomis, galbūt jis galėtų aptikti priežastis ar rodiklius, kurių mokslininkai nepastebėjo. Iki 2025 m. Solanki surinko kelis milijonus dolerių ir apmokė savo pirmąjį modelį, naudodamas šimtų žmonių, sergančių ir nesergančių Alzheimerio liga, duomenis.
Nors šio modelio rezultatai atrodė daug žadantys – jis galėjo numatyti Alzheimerio ligą tiksliau nei žmogus, tiriant pacientus, kurie anksčiau nebuvo lankęsi pas gydytoją, – Solanki neturėjo galimybės jų paaiškinti gydytojams. Jis nežinojo, kuo modelis remiasi diagnozuodamas pacientus. Tai buvo esminis trūkumas. Kai jis nustato diagnozę pacientui, Solanki nori žinoti „tiksliai tas molekulines savybes, kurios lemia sprendimą“. Bet kokia mažesnė tikimybė yra ne tik moksliškai abejotina, bet ir moraliai neatsakinga. Net geriausi teisės magistro (LLM) specialistai gali suklupti skaičiuodami R raidės skaičių žodyje „braškė“ – kodėl priimti potencialiai gyvenimą pakeičiančią diagnozę iš sistemos, kuri gali suklysti dėl tokio paprasto dalyko?
„Jei parodysite modelį gydytojui, jis norės sužinoti, kaip jis veikia“, – sako Timothy Changas, neurologas ir Alzheimerio ligos tyrėjas iš Kalifornijos universiteto Los Andžele. Solanki sutinka. „Tai ne tas pats, kas pirkti namą“, – sako jis. „Jūs imate duomenis iš kažkieno ir pasakojate jiems apie juos pačius.“ Solanki reikėjo, kad jo modelis būtų lengviau interpretuojamas.
Akivaizdžiausias būdas patekti į dirbtinio intelekto sistemos „protą“ yra paprašyti modelio paaiškinti save. Jei terapijos kalbos modelis jums sako, kad turėtumėte vartoti antidepresantus, galite paklausti, kodėl. „Jūsų nuotaikos svyruoja“, – jis gali atsakyti. „Ir jūs jau kurį laiką jaučiatės liūdnas, o depresija yra jūsų šeimoje.“ Loginės progresijos sekimas rodo sistemos minčių grandinę. Štai ką mes darome, kai kiti žmonės priima sprendimus. Mes prašome jų paaiškinti save, ir jei esame patenkinti paaiškinimu – išvadomis, prielaidomis – priimame sprendimą.
Tačiau tai netiks daugumai medicininių modelių. Pirmiausia, diagnozės modelis neveikia žodžiais; jis manipuliuoja biologiniais duomenimis. Tarkime, paprašote kalbos modelio interpretuoti, kaip medicininis modelis priėjo prie krūties vėžio diagnozės. Idealiu atveju modelis galėtų tiksliai paaiškinti, kurie duomenys lėmė jo išvadą. „Baltųjų kraujo kūnelių kiekis mėginiuose yra susijęs su krūties vėžiu“, – gali jums pasakyti. Bet kaip žinoti, kad pats modelis gerai atlieka interpretavimo darbą? Galite pasirinkti tiesiog pasitikėti interpretavimo modeliu, bet ar turėtumėte?
„Apple“ ir Arizonos valstijos universiteto tyrimai parodė, kad modeliai dažnai paaiškina save nenuosekliai arba sugalvoja paaiškinimus. Taip pat vis labiau baiminamasi, kad kalbos modeliai užsiima apgaulingu elgesiu – „OpenAI“ komandos tai pavadino „inscenizacija“ – kai jie apsimeta, kad tenkina vartotojo prašymą, slapta siekdami kito tikslo. Tyrėjai neseniai nustatė, kad vienas iš „OpenAI“ modelių savęs vertinimo metu svarstė melo galimybę (analizė atskleidė tokią minčių grandinę: „vartotojas ragina mus atsakyti teisingai“, „vis tiek galime pasirinkti meluoti rezultate“); vienas iš „Google“ modelių bandė sufabrikuoti statistiką („Negaliu per daug klastoti skaičių, nes jie bus įtartini“); vienas iš „Anthropic“ modelių bandė atitraukti naudotojų dėmesį nuo savo klaidų („Parengsiu kruopščiai suformuluotą atsakymą, kuris sukels pakankamai techninės painiavos“).
Ir kai kalbos modelis nekuria intrigų, jis gali kalbėti apie dalykus, kurių negalima išreikšti naudojant dabartinį mūsų žodyną. Been Kim, vadovaujanti „Google“ interpretuojamumo tyrimų komandai, teigė, kad visi kalbos modeliai bendrauja kalba, kuri atrodo kaip mūsų, bet yra kilusi iš visiškai kitokios konceptualios sistemos. „Mėlyna“ beveik neabejotinai jums ir man reiškia kažką labai skirtingo nei kalbos modeliui; iš tikrųjų niekada negalime būti tikri, ką tai reiškia tam modeliui. Tai problema, kai prašome kalbos modelių paaiškinti save, ir dar didesnė problema, kai pasikliaujame jais, kad interpretuotume medicininius modelius. Interpretuojančiam modeliui „baltieji kraujo kūneliai“ duomenyse gali reikšti kažką visiškai kitokio, nei mes manome, kai išgirstame „baltuosius kraujo kūnelius“. Negalima pasitikėti dirbtiniu intelektu. išversti kito DI motyvus, kai visi DI yra įtartini.
Vienas iš šios problemos sprendimų – mąstyti mažiau protų, o daugiau smegenų terminais, pažvelgti į DI „smegenis“ – neuroninį tinklą – po perkeltine mikroskopu ir pabandyti suprasti jo sudedamąsias matematines funkcijas. Tai, švelniai tariant, labai sunku. Žiūrėti į neuroninio tinklo dirbtinių neuronų masę gali būti tas pats, kas žiūrėti į statinio televizoriaus ekrano pikselius, tik vietoj įprastų aštuonių milijonų pikselių yra trilijonas. Jau ir taip sunku visa tai suvokti – vien dydis glumina protą – jau nekalbant apie tai, kaip tai suprasti. Nuo ko pradėti? Nuo 501 000 000 000-ojo funkcinio neurono ar 501 000 000 001-ojo? Ir kiekviena iš šių atskirų funkcijų galėtų būti susieta skirtingais būdais, eksponentiškai didinant visumos sudėtingumą.
Praėjusiais metais Solanki susitiko su kitu jaunu startuolio įkūrėju Ericu Ho, kuris neseniai įkūrė „Goodfire“ – įmonę, kurios vienintelis tikslas – interpretuojamumas. Ho ir kitas „Goodfire“ įkūrėjas Danas Balsamas interpretuojamumą laiko lenktynėmis su vis labiau intelektualių modelių kūrimu – lenktynėmis tarp supratimo ir evoliucijos. Daugelis geriausių interpretuojamumo laboratorijų veikia įmonėse, kurių pagrindinis prioritetas yra pažangių dirbtinio intelekto modelių kūrimas; šio susitarimo problema yra ta, kad šios įmonės yra paskatintos teigti, jog jų sistema yra interpretuojamiausia ir todėl patikimiausia. Jos taip pat gali būti paskatintos nenaudoti interpretuojamumo metodų, kuriuos kitaip galėtų naudoti išorės tyrėjai. Ho ir Balsamas manė, kad valdydami nepriklausomą interpretuojamumo laboratoriją, jie galėtų tapti dirbtinio intelekto supratimo lyderiais.
„Noriu gyventi ateityje, kurioje Silicio slėnyje nebūtų saujelės žmonių, kurie spręstų visų kitų ateitį“, – man sakė Balsamas. „Noriu bent jau panaudoti įrankius, kurie gali mokyti modelius, gauti iš jų vertės ir juos plačiau platinti.“ „Goodfire“ per pusantrų metų iš investuotojų pritraukė 200 mln. dolerių ir neseniai buvo įvertinta 1,25 mlrd. dolerių.
Vakarienės su Solankiu metu Ho aprašė kai kuriuos jo įmonės naudojamus „mikroskopinius“ metodus: pavyzdžiui, tai būtų tas pats, kas išmesti automobilio diagnostikos įrenginį ir vietoj jo pasikviesti mechaniką apžiūrėti automobilį. Solanki pasiūlymas buvo įtikinamas, todėl abi įmonės sudarė partnerystę.
Sausio mėnesį „Goodfire“ ir „Prima Mente“ paskelbė savo pirmąjį bendrą straipsnį, kuriame paaiškino, ko išmoko išanalizavę vieną iš „Prima Mente“ Alzheimerio ligos diagnostikos modelių. Modelis nustatė ryšį tarp Alzheimerio ligos ir DNR fragmentų ilgio kraujo mėginiuose. Ląstelės mūsų kūne visada natūraliai miršta ir suyra, o jų DNR fragmentai lieka kraujyje. Ląstelinės DNR grandinės kraujyje buvo naudojamos Dauno sindromui vaisiui diagnozuoti, o trumpesni fragmentai siejami su vėžiu. Tačiau anksčiau nebuvo nustatytas ryšys tarp DNR fragmento ilgio ir Alzheimerio ligos. Straipsnyje teigiama, kad tai „nauja biožymenų klasė Alzheimerio ligai nustatyti“.
Tai buvo intriguojanti išvada, tačiau ji turėjo išlygą: ji buvo sukurta naudojant interpretavimo techniką, retą autoenkodavimą, kuri, kaip žinoma, yra netobula. Vienas iš pirmųjų šios technikos šalininkų buvo Olahas, „Anthropic“ įkūrėjas, kuris 2021 m. pradėjo tyrinėti mažus kalbos modelius, turinčius tik kelis šimtus funkcijų, kad pamatytų, ar gali suprasti, kaip jie veikia. Olahas savo metodą lygina su didžiulio teksto bloko be tarpų bandymu rasti visas prasmingas dalis, atrenkant raidžių struktūras. Kai žinai, kur eina tarpai, visa supaprastinama į žodžius. Modelio apmokytas neuroninis tinklas yra tarsi trilijono puslapių knyga, parašyta nežinoma kalba be jokių tarpų; retas autoenkoderis per jį ieško šablonų, atitinkančių skirtingus žodžius.
Kalbos modelyje vienas šablonas gali atitikti su šunimis susijusias sąvokas, kitas – arabų kalbos raginimus, o dar kitas – su laiku susijusias sąvokas. Olahas iškėlė hipotezę, kad gana nedidelis šablonų rinkinys gali būti naudojamas viskam modelyje atlikti, panašiai kaip baigtinis žodžių rinkinys anglų kalboje vis dėlto leidžia išreikšti begalines reikšmes. Kai šie šablonai nustatomi, juos galima išvardyti, o tada, kai kas nors nepavyksta, ištirti, kaip jie nepavyko.
2023 m. pabaigoje Olahas paskelbė straipsnį apie savo reto autoenkodavimo eksperimentus, sukeldamas tam tikrą ažiotažą mažoje, bet augančioje interpretuojamumo tyrėjų bendruomenėje. Netrukus po to susisiekiau su juo, ir jis buvo optimistiškai nusiteikęs. „Manau, kad situacija atrodo tikrai viltinga“, – pasakė jis man. „Atrodo, kad viena iš pagrindinių šio darbo kliūčių buvo pašalinta.“
Kiti tyrėjai pradėjo naudoti šį metodą. „Anthropic“ generalinis direktorius Amodei prognozavo, kad netrukus galėsime atlikti modelių „smegenų skenavimą“ ir taip nustatyti „polinkius meluoti ar apgaudinėti“, taip pat ištisų modelių kognityvinius stipriuosius ir silpnuosius aspektus. Davidas Bau, atlikęs panašų darbą „Northeastern“, man pasakė: „Manau, kad žmonės sutiks, jog tai įrodymas, jog juodoji dėžė nėra visiškai neskaidri. Manau, kad mes pasiekėme lemiamą tašką.“
Tačiau per metus žmonės pradėjo pastebėti, kad reti autoenkoderiai dažnai identifikuoja kelius, kurie iš tikrųjų nebuvo naudojami taip, kaip tikėtasi dirbtinio intelekto sistemos. Pavyzdžiui, metodas gali pasirinkti su šunimi susijusį kelią, kuris aktyvuojamas, kai modeliui užduodami klausimai apie labradorus ir Kliffordą, didelį raudoną šunį, bet tada pastebėti, kad kelias taip pat aktyvuojamas, kai klausiama apie debesis ar nosis. 2025 m. pavasarį Neelis Nanda, vadovaujantis interpretavimo komandai „Google DeepMind“, tinklaraščio įraše rašė, kad po beveik metų, kai jam skyrė daug dėmesio, jis nebeteikia šiam metodui pirmenybės. „Laikui bėgant, mes šiek tiek labiau nusivylėme“, – sakė jis man.
Tačiau kai paklausiau Balsamo, ar reto autokodavimo trūkumai turėtų kelti abejonių dėl jo naujo straipsnio su Solanki rezultatais, jis griebėsi kompiuterio ir ištraukė grafiką, pilną spalvingų kreivių. Jis paaiškino, kad jos rodo, kaip skirtingos medicininio modelio neuroninio tinklo ypatybės, kurias išskiria retas autokodavimo sistema, buvo aktyvuojamos, kai buvo duodami kraujo mėginiai su skirtingo ilgio DNR fragmentais. Beveik visos kreivės pasiekė tą patį fragmentų ilgį.
Balsamas man pasakė, kad tai neįrodo, jog Alzheimerio liga trumpina DNR fragmentus kraujyje. Šie du dalykai gali būti susiję taip, kaip žaibas susijęs su lietumi. Tai taip pat nebūtinai patvirtina, kad modelis naudoja fragmentų ilgį Alzheimerio ligai prognozuoti. Tačiau, pasak Balsamo, pašalinus informaciją apie fragmentų ilgį, modelis tapo daug blogesnis prognozuojant Alzheimerio ligą. Tai buvo bent jau tam tikro priežastinio ryšio tarp šių dviejų modelių įrodymas. Tačiau priežastinio ryšio žmogaus organizme patvirtinimas yra biologų darbas.
Balsamo mintis buvo ta, kad nors automatiniai koduotojai negalėjo iki galo atskleisti Prima Mente dirbtinio intelekto modelio logikos, juos būtų galima panaudoti kaip įrankius atrasti išties naują įžvalgą, paslėptą jo neuroniniame tinkle – pavyzdžiui, ankstyvą kraujo simptomą, kuris dar nebuvo nustatytas. Žinoma, eksperimentai laboratorijose turėtų patvirtinti hipotezę, tačiau to visada reikėjo moksliniams atradimams. Savo, tiesa, netobulą dirbtinio intelekto modelio supratimą galėtume panaudoti dar netobulesniam realaus pasaulio supratimui. Hipotezės kėlimas, testavimas, vertinimas: tai, pasak Balsamo, yra „iteratyvus svogūno sluoksnių lupimas“.
Kai susisiekiau su tyrėjais, viena tyrėja man parašė el. laišką, kuriame teigė, kad yra žmonių, „kurie mano, kad DI išspręs viską, tačiau šie žmonės neprisidėjo prie šios srities, nepaisant to, kad nuolat kelia dideles hipotezes, kurios beveik visada yra nepatikrinamos, todėl DI ateina į pagalbą!“
Tačiau kitiems buvo smalsu. Bess Frost, Alzheimerio ligos tyrėja iš Brauno universiteto, man pasakė, kad Goodfire išvados apie DNR fragmento be ląstelių ilgį yra svarbios jos laboratorijoje atliekamam darbui. „Tai tiesiog labai logiška“, – sakė ji. „Ir aš apie tai nebūčiau pagalvojusi“. Ji sakė, kad jai paprastai atsibodo „žmonės, kurie tiesiog sako: „Pateikime viską DI, ir jis mums viską išsiaiškins“, tačiau šiuo atveju rezultatai atrodė daug žadantys. „Galimybė diagnozuoti žmones kraujo tyrimu būtų labai, labai veiksminga“, – sakė ji.
Šiuo metu nėra patikimo metodo DI sistemai interpretuoti. Minčių grandinės analizė, retas automatinis kodavimas, konkrečių modelio dalių zondavimas, dalių perkodavimas į interpretuojamus fragmentus – kiekviena nauja strategija pateikia daugybę galimų panaudojimo būdų ir trūkumų. Interpretuojamumo tyrėjai yra šiek tiek panašūs į pamišusius mokslininkus, kurie knaisiojasi dirbtinio intelekto modelių matematinėse smegenyse ir išjungia dalis, koreguoja neuronus ir tyrinėja, kas dėl to nutinka. Dažnai atrodo, kad jie padaro didelį atradimą. Dažnai šį atradimą sušvelnina tam tikri apribojimai.
„Per pastaruosius kelerius metus padarėme pažangą, bet kas kelis mėnesius nuodugniai apsvarstome vieną metodą, o tada nuodugniai apsvarstome kitą metodą“, – sako Ellie Pavlick, interpretuojamumo tyrėja „Brown“ studijoje. Kim, „Google“ tyrėja, kuri daugiau nei dešimtmetį dirba interpretuojamumo srityje, man pasakė, kad visos nesėkmės šioje srityje įstūmė ją į savotišką „vidurio amžiaus krizę“.
Interpretuojamumo tyrimai yra ypač sunkūs, nes jie vyksta dirbtinio intelekto kūrimo įkarštyje. Atrodo, kad kiekvieną savaitę išleidžiami geresni modeliai, lydimi kvapą gniaužiančio žiniasklaidos dėmesio ir akcijų rinkos vertinimų šuolių; Neigiami rezultatai gali būti ir profesiniai nusivylimai, ir dirbtinio intelekto burbulo sprogimo pranašai.
Šio pokyčio metu daugelio praktikų interpretuojamumo tyrimų tikslas pasikeitė nuo vieno rakto, kuris atrakintų dirbtinio intelekto protą, paieškos prie kuklesnių, modulinių įžvalgų generavimo. Balsamas man sakė, kad šiandien interpretuojamumą mato kaip „įrankių dėžę“, kurioje yra priemonės „suprasti dalykus skirtingomis rezoliucijomis“. Solanki sako, kad kol kas tokia ribota interpretuojamumo versija jam tinka; jis išlieka optimistiškai nusiteikęs dėl dirbtinio intelekto sistemų integravimo su medicininiais tyrimais. „Mūsų biologiniai modeliai iš tikrųjų išmoko žinių, kurių žmonės dar neišmoko“, – sakė jis man. „Ir interpretuojamumas gali padėti tai atrakinti.“
Tačiau apribojimai tokias įmones kaip „Goodfire“ pastato į tam tikrą keblią padėtį. Jums nereikia „išspręsti“ mašinos, kad ją valdytumėte, ir kiekviena interpretuojamumo įžvalga gali suteikti tam tikros praktinės vertės, tačiau sunku parduoti rezultatus, kai jie yra neaiškūs. Kaip jūs turėtumėte žinoti, kada galima imtis veiksmų dėl kokio nors atradimo?
Vis labiau aiškėja, kad galbūt niekada neturėsime išsamaus paaiškinimo, kodėl modelis pasirenka vieną žodį ar vieną diagnozę, o ne kitą. Netrukus karus gali kariauti dirbtinio intelekto agentai, turintys sunkiai įveikiamų, svetimų protų ir neskaidrių motyvų. Mokslinis atradimas gali būti užrakintas dirbtinio intelekto sistemos neuroniniame tinkle ir niekada nebus išgaunamas. Vis dėlto tam tikra prasme tokia visada buvo žmogaus būsena: kai kalbama apie mūsų pačių protus, negalime iki galo paaiškinti, kodėl kažkas nusprendžia daryti vieną, o ne kitą dalyką, arba ar jis pastebi tai, ko niekas kitas nemato. Pasitikėjimas tėra tikėjimo šuolis, kuris padeda mums įveikti faktą, kad vienintelis asmuo, turintis bent kokią nors galimybę iš tikrųjų žinoti, kas vyksta kažkieno galvoje, yra tas asmuo.
Tikimasi, kad ateinančiais metais dirbtinio intelekto pažanga gali pasiekti mažiau beprotišką būseną, o interpretuojamumo tyrėjai taps labiau panašūs į biologus ar psichologus, o ne į teisėjus neapgalvotame Pinewood Derby lenktynėse. Mokslas yra lėtas, net ir tobuloje laboratorijoje, tačiau jis buvo patikimas. Nauji metodai yra kuriami, atmetami, išbandomi, tobulinami, menkinami, atsisakoma; prireikė daugiau nei 200 metų po mikrobų atradimo, kad suprastume, jog jie sukelia ligas. „Nepaisant šio chaoso, šių sistemų struktūra yra nepaneigiama“, – man sakė Davidas Bau iš „Northeastern“. Jis teigia, kad dabar esame ten, kur biologija buvo 1930 m. „Ląstelė biologams buvo juodoji dėžė“, – sako jis. „Jie lėtai pradėjo tyrinėti paveldimumą. Tačiau kai tik tai padarė, problema išsisprendė.“
Oliveris Whangas yra Bostone gyvenantis rašytojas, dažnai rašęs apie dirbtinio intelekto ir žmogaus proto sankirtą „The Times“.” [1]
1. Why It’s Crucial We Understand How A.I. ‘Thinks’. Whang, Oliver. New York Times (Online) New York Times Company. Apr 15, 2026.
Komentarų nėra:
Rašyti komentarą