„RT-2, mūsų naujas
vaizdų, kalbos ir veiksmų modelis, padeda robotams lengviau suprasti ir
atlikti veiksmus – tiek pažįstamose, tiek naujose situacijose.
Dešimtmečius, kai
žmonės įsivaizdavo tolimą ateitį, jie beveik visada įtraukdavo pagrindinį
vaidmenį robotams. Robotai buvo sukurti pasakojimuose, kaip patikimi, naudingi ir net žavūs.
Tačiau per tuos pačius dešimtmečius ši technologija išliko sunkiai pasiekiama –
įstrigo įsivaizduojamoje mokslinės fantastikos sferoje.
Šiandien pristatome
naują robotikos pažangą, kuri priartina mus prie naudingų robotų ateities.
Robotics Transformer 2 arba RT-2 yra pirmasis tokio pobūdžio vaizdo-kalbos
veiksmo (VLA) modelis. Transformatoriumi pagrįstas modelis, parengtas, naudojant
tekstą ir vaizdus iš žiniatinklio, RT-2 gali tiesiogiai išvesti robotų
veiksmus. Lygiai taip pat, kaip kalbos modeliai mokomi, naudojant žiniatinklio
tekstą, siekiant išmokti bendrų idėjų ir sąvokų, RT-2 perduoda žinias iš
žiniatinklio duomenų, kad informuotų roboto elgesį.
Kitaip tariant, RT-2
gali būti kalbantis robotas.
Realūs roboto
mokymosi iššūkiai
Naudingų robotų
ieškojimas visada buvo didžiulės pastangos, nes robotas, galintis atlikti
bendras užduotis pasaulyje, turi sugebėti atlikti sudėtingas, abstrakčias
užduotis labai kintančioje aplinkoje – ypač tokioje, kokios dar niekada nematė.
Skirtingai, nei
pokalbių robotams, robotams reikia „įžeminimo“ realiame pasaulyje ir jų
gebėjimuose. Jų mokymas yra ne tik, tarkime, išmokti viską, ką reikia žinoti apie
obuolį: kaip jis auga, jo fizines savybes ar net to, kas tariamai nukrito ant
sero Izaoko Niutono galvos. Robotas turi mokėti atpažinti obuolį kontekste,
atskirti jį nuo raudono rutulio, suprasti, kaip jis atrodo, o svarbiausia –
mokėti jį paimti.
Tam istoriškai
reikėjo mokyti robotus ant milijardų duomenų taškų iš pirmų rankų kiekviename
objekte, aplinkoje, užduotyje ir situacijoje fiziniame pasaulyje – tai tokia
perspektyva, atimanti daug laiko ir brangi, todėl novatoriams ji tampa
nepraktiška. Mokymasis yra sudėtingas darbas, o tuo labiau robotams.
Naujas požiūris su
RT-2
Neseniai atliktas
darbas pagerino robotų gebėjimą mąstyti, netgi leido jiems naudoti minčių
grandinės raginimą – būdą išskaidyti daugiapakopes problemas.
Regėjimo modelių,
tokių, kaip PaLM-E, įdiegimas padėjo robotams geriau suvokti aplinką.
Ir RT-1
parodė, kad transformatoriai, žinomi dėl savo gebėjimo apibendrinti informaciją
įvairiose sistemose, netgi gali padėti įvairių tipų robotams mokytis vieni iš
kitų.
Tačiau iki šiol
robotai veikė sudėtingose sistemų krūvose, o aukšto lygio samprotavimai ir
žemo lygio manipuliavimo sistemos žaidė netobulą telefono žaidimą robotui
valdyti. Įsivaizduokite, kad galvojate apie tai, ką norite daryti, o tada
turite pasakyti tuos veiksmus likusiai kūno daliai, kad ji pajudėtų. RT-2
pašalina šį sudėtingumą ir leidžia vienam modeliui ne tik atlikti sudėtingus
pagrindų modeliuose matomus samprotavimus, bet ir atlikti roboto veiksmus.
Svarbiausia, kad tai rodo, kad turėdama nedidelį roboto mokymo duomenų kiekį,
sistema gali perkelti sąvokas, įterptas į jos kalbos ir regos lavinimo
duomenis, nukreipti roboto veiksmus – net ir atliekant užduotis, kurių ji
niekada nebuvo išmokyta atlikti.
Pavyzdžiui, jei
norite, kad ankstesnės sistemos galėtų išmesti šiukšles, turėtumėte jas aiškiai
išmokyti atpažinti šiukšles, taip pat jas pasiimti ir išmesti. Kadangi RT-2
gali perduoti žinias iš didelio žiniatinklio duomenų korpuso, jis jau turi
idėją, kas yra šiukšliadėžė, ir gali ją atpažinti be aiškaus mokymo. Jis netgi
turi idėją, kaip išmesti šiukšles, nors niekada nebuvo išmokytas to imtis. Ir
pagalvokite apie abstrakčią šiukšlių prigimtį – tai, kas buvo traškučių
maišelis ar banano žievelė, suvalgius tampa šiukšlėmis. RT-2 gali tai suprasti
iš savo regėjimo kalbos mokymo duomenų ir atlikti savo darbą.
Šviesesnė robotikos
ateitis
RT-2 gebėjimas
perduoti informaciją veiksmams rodo pažadą robotams greičiau prisitaikyti prie
naujų situacijų ir aplinkos. Bandydama RT-2 modelius daugiau, nei 6 000 robotų
bandymų, komanda nustatė, kad RT-2 veikė taip pat, kaip mūsų ankstesnis modelis
RT-1, atliekant užduotis treniruočių duomenyse arba „matytose“ užduotyse. Ir
beveik dvigubai padidino savo našumą pagal naujus, nematytus scenarijus iki
62%, palyginti su RT-1 32%.
Kitaip tariant,
naudojant RT-2, robotai gali išmokti daugiau, kaip mes – perkelti išmoktas
sąvokas į naujas situacijas.
RT-2 ne tik parodo,
kaip AI pažanga sparčiai pereina į robotiką, bet ir rodo didžiulį pažadą
bendresnės paskirties robotams. Nors dar reikia daug nuveikti, kad į žmogų
orientuotose aplinkose būtų sukurti naudingi robotai, RT-2 mums parodo įdomią
robotikos ateitį, kurią galima pasiekti." [1]
1. Robotic Transformer 2 (RT-2): The Vision-Language-Action
Model
kyegomez / RT-2 Public
https://github.com/kyegomez/RT-2
Komentarų nėra:
Rašyti komentarą