Sekėjai

Ieškoti šiame dienoraštyje

2025 m. lapkričio 2 d., sekmadienis

Kaip turėtume patikrinti, ar dirbtinis intelektas prilygsta žmogaus intelektui? „OpenAI“ „o3“ įelektrina šį siekį

 


„Eksperimentinio modelio rekordiniai rezultatai gamtos mokslų ir matematikos testuose stebina tyrėjus.

 

Technologijų įmonė „OpenAI“ neseniai pateko į antraštes, kai jos naujausias eksperimentinis pokalbių roboto modelis „o3“ surinko aukštą balą teste, kuris žymi pažangą, siekiant dirbtinio bendrojo intelekto (AGI). „OpenAI“ „o3“ surinko 87,5 %, pranokdamas ankstesnį geriausią dirbtinio intelekto (DI) sistemos balą – 55,5 %.

 

Kiek artimas DI žmogaus lygio intelektui?

 

Tai „tikras proveržis“, – sako DI tyrėjas François Chollet, kuris 2019 m., dirbdamas „Google“ Mountain View, Kalifornijoje, sukūrė testą pavadinimu „Abstrakcijos ir samprotavimo korpusas dirbtiniam bendrajam intelektui“ (ARC-AGI)1.

 

Aukštas balas teste nereiškia, kad AGI – plačiai apibrėžiama, kaip skaičiavimo sistema, galinti samprotauti, planuoti ir mokytis įgūdžių taip pat gerai, kaip ir žmonės – buvo pasiektas, sako Chollet, tačiau „o3“ yra „absoliučiai“ pajėgi samprotauti ir „turi gana didelę apibendrinamumo galią“.

 

Tyrėjus pribloškia „o3“ rezultatai, atliekant įvairius testus arba etalonus, įskaitant itin sudėtingą „FrontierMath“ testą, kurį lapkritį paskelbė virtualus tyrimų institutas „Epoch AI“. „Jis nepaprastai įspūdingas“, – sako Davidas Reinas, dirbtinio intelekto lyginamosios analizės tyrėjas iš Berklyje, Kalifornijoje, įsikūrusios „Model Evaluation & Threat Research“ grupės.

 

Tačiau daugelis, įskaitant Reiną, įspėja, kad sunku pasakyti, ar ARC-AGI testas iš tikrųjų matuoja dirbtinio intelekto gebėjimą samprotauti ir apibendrinti. „Buvo daug etalonų, kurie tariamai matavo kažką esminio intelektui, bet paaiškėjo, kad to nepadarė“, – sako Reinas. Pasak jo, vis geresnių testų paieška tęsiasi.

 

San Franciske įsikūrusi „OpenAI“ neatskleidė, kaip veikia „o3“, tačiau sistema pasirodė netrukus po įmonės „o1“ modelio, kuris naudoja „minčių grandinės“ logiką problemoms spręsti, kalbėdamas pats per samprotavimo žingsnių seriją. Kai kurie specialistai mano, kad „o3“ gali sukurti keletą skirtingų minčių grandinių, kad padėtų rasti geriausią atsakymą iš įvairių variantų.

 

Daugiau laiko skyrimas atsakymo tobulinimui testo metu labai pakeičia rezultatus, sako Chollet, kuris dabar gyvena Sietle, Vašingtone. Tačiau „O3“ kainuoja labai brangiai: kiekvienai ARC-AGI testo užduočiai atlikti jo aukšto balo režimas vidutiniškai užtrukdavo 14 minučių ir, tikriausiai, kainavo tūkstančius dolerių. (Skaičiavimo išlaidos, pasak Chollet, apskaičiuojamos pagal tai, kiek „OpenAI“ ima iš klientų už žetoną ar žodį, o tai priklauso nuo tokių veiksnių, kaip elektros energijos suvartojimas ir aparatinės įrangos išlaidos.) Tai „kelia susirūpinimą dėl tvarumo“, sako Xiang Yue iš Carnegie Mellon universiteto Pitsburge, Pensilvanijoje, kuris tiria didelius kalbos modelius (LLM), kurie veikia pokalbių robotų srityje.

 

Apskritai išmanus

 

Nors terminas AGI dažnai vartojamas apibūdinti skaičiavimo sistemą, kuri atitinka arba pranoksta žmogaus kognityvinius gebėjimus, atliekant įvairias užduotis, nėra jokio techninio jo apibrėžimo. Todėl nėra sutarimo, kada DI įrankiai galėtų pasiekti AGI. Vieni sako, kad ši akimirka jau atėjo; kiti sako, kad ji dar toli.

 

Kuriama daug testų, skirtų stebėti pažanga, siekiant dirbtinio intelekto (ADI). Kai kurie, įskaitant Reino 2023 m. „Google-Proof Q&A2“, skirti įvertinti DI sistemos našumą, sprendžiant doktorantūros lygio mokslo problemas. „OpenAI“ 2024 m. daugiapakopėje testavimo sistemoje DI sistema susiduria su 75 iššūkiais, pateiktais internetinėje duomenų mokslo varžybų platformoje „Kaggle“. Iššūkiai apima realaus pasaulio problemas, tokias kaip senovinių ritinių vertimas ir vakcinų kūrimas3.

 

Prieš ir po: testo, kuriame vartotojas turi ekstrapoliuoti įstrižą liniją, kuri atšoka nuo raudonos sienos, pavyzdys.

 

 ARC-AGI, testas, skirtas įvertinti dirbtinio intelekto įrankių pažangą žmogaus lygio samprotavimo ir mokymosi link, vartotojui rodo vaizdų rinkinį prieš ir po. Tada jo prašoma numatyti naujo vaizdo „prieš“ būseną.

Geri etalonai turi apeiti daugybę problemų. Pavyzdžiui, labai svarbu, kad DI nebūtų matęs tų pačių klausimų mokymo metu, o klausimai turėtų būti suprojektuoti taip, kad DI negalėtų sukčiauti, pasirinkdamas trumpesnius kelius. „LLM specialistai puikiai geba panaudoti subtilias tekstines užuominas, kad gautų atsakymus, nesiimdami jokių rimtų samprotavimų“, – sako Yue. Idealiu atveju testai turėtų būti tokie pat netvarkingi ir triukšmingi, kaip ir realaus pasaulio sąlygos, kartu nustatant energijos vartojimo efektyvumo tikslus, priduria jis.

 

Yue vadovavo testo, vadinamo „Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI“ (MMMU), kūrimui, kuriame pokalbių robotai prašomi atlikti universitetinio lygio vizualines užduotis, tokias, kaip natų, grafikų ir grandinių schemų interpretavimas. Yue teigia, kad „OpenAI“ o1 turi dabartinį MMMU rekordą – 78,2 % (o3 balas nežinomas), palyginti su aukščiausio lygio žmogaus rezultatais – 88,6 %.

 

Priešingai, ARC-AGI remiasi pagrindiniais matematikos ir šablonų atpažinimo įgūdžiais, kuriuos žmonės paprastai išsiugdo ankstyvoje vaikystėje. Jis pateikia testuojamiesiems demonstracinį „prieš“ ir „po“ modelių rinkinį ir prašo jų nustatyti „po“ būseną naujam „prieš“ dizainui (žr. „Prieš ir po“). „Man patinka ARC-AGI testas dėl jo papildomos perspektyvos“, – sako Yue.

 

 

Prizų našumas

 

 

Aukšti ARC-AGI balai pakilo nuo vos 21 % 2020 m. iki 30 % 2023 m.

 

 

Nors gruodžio mėnesį o3 viršijo 85 % balą, kurį pasiekė 600 000 JAV dolerių vertės 2024 m. ARC Grand Prize – konkursas, kurį remia, ne pelno siekianti, ARC Prize Foundation, įkurta Chollet ir Mike Knoop, – jis viršijo kainos ribą.

 

 

Įdomu tai, kad jis taip pat neišsprendė kelių klausimų, kuriuos žmonės laiko paprastais; Chollet kreipėsi į tyrėjų bendruomenę, prašydama padėti nustatyti, kuo išsprendžiamos užduotys skiriasi nuo neišsprendžiamų.

 

 

Iki kovo mėnesio jis pristatys sunkesnį testą – ARC-AGI-2. Ankstyvieji jo eksperimentai rodo, kad o3 surinktų mažiau, nei 30 %, o protingas žmogus lengvai surinktų daugiau, nei 95 %. Chollet teigia, kad kuriama trečioji testo versija, kuri pakels kartelę, įvertindama DI gebėjimą sėkmingai žaisti trumpus vaizdo žaidimus.

 

Kitas didelis DI testų uždavinys, pasak Reino, yra lyginamųjų testų, skirtų įvertinti DI sistemų gebėjimą veikti, kaip „agentams“, galintiems spręsti bendro pobūdžio užklausas, reikalaujančias daug sudėtingų žingsnių, į kuriuos nėra tik vieno teisingo atsakymo, kūrimas. „Visi dabartiniai lyginamųjų testų kriterijai yra pagrįsti klausimais ir atsakymais“, – sako jis. „Tai neapima daugelio dalykų, susijusių su [žmonių] bendravimu, tyrinėjimu ir savistaba.“

 

Tobulėjant DI sistemoms, vis sunkiau kurti testus, kurie išryškintų skirtumą tarp žmogaus ir DI gebėjimų. Šis iššūkis pats savaime yra geras DI testas, gruodžio mėnesį ARC premijų fondo tinklaraštyje rašė Chollet.

 

„Suprasite, kad dirbtinis intelektas (DGI) atsirado tada, kai kurti užduotis, kurios yra lengvos paprastiems žmonėms, bet sunkios dirbtiniam intelektui, taps tiesiog neįmanoma.“ [1]

 

 

1. Nature 637, 774-775 (2025) By Nicola Jones

 

 

Komentarų nėra: