Sekėjai

Ieškoti šiame dienoraštyje

2024 m. spalio 12 d., šeštadienis

Kalbantis robotas: mūsų naujasis dirbtinio intelekto modelis vaizdus ir kalbą paverčia robotų veiksmais

 


 „RT-2, mūsų naujas vaizdų, kalbos ir veiksmų modelis, padeda robotams lengviau suprasti ir atlikti veiksmus – tiek pažįstamose, tiek naujose situacijose.

 

 Dešimtmečius, kai žmonės įsivaizdavo tolimą ateitį, jie beveik visada įtraukdavo pagrindinį vaidmenį robotams. Robotai buvo sukurti pasakojimuose, kaip patikimi, naudingi ir net žavūs. Tačiau per tuos pačius dešimtmečius ši technologija išliko sunkiai pasiekiama – įstrigo įsivaizduojamoje mokslinės fantastikos sferoje.

 

 Šiandien pristatome naują robotikos pažangą, kuri priartina mus prie naudingų robotų ateities. Robotics Transformer 2 arba RT-2 yra pirmasis tokio pobūdžio vaizdo-kalbos veiksmo (VLA) modelis. Transformatoriumi pagrįstas modelis, parengtas, naudojant tekstą ir vaizdus iš žiniatinklio, RT-2 gali tiesiogiai išvesti robotų veiksmus. Lygiai taip pat, kaip kalbos modeliai mokomi, naudojant žiniatinklio tekstą, siekiant išmokti bendrų idėjų ir sąvokų, RT-2 perduoda žinias iš žiniatinklio duomenų, kad informuotų roboto elgesį.

 

 Kitaip tariant, RT-2 gali būti kalbantis robotas.

 

 Realūs roboto mokymosi iššūkiai

 

 Naudingų robotų ieškojimas visada buvo didžiulės pastangos, nes robotas, galintis atlikti bendras užduotis pasaulyje, turi sugebėti atlikti sudėtingas, abstrakčias užduotis labai kintančioje aplinkoje – ypač tokioje, kokios dar niekada nematė.

 

 Skirtingai, nei pokalbių robotams, robotams reikia „įžeminimo“ realiame pasaulyje ir jų gebėjimuose. Jų mokymas yra ne tik, tarkime, išmokti viską, ką reikia žinoti apie obuolį: kaip jis auga, jo fizines savybes ar net to, kas tariamai nukrito ant sero Izaoko Niutono galvos. Robotas turi mokėti atpažinti obuolį kontekste, atskirti jį nuo raudono rutulio, suprasti, kaip jis atrodo, o svarbiausia – mokėti jį paimti.

 

 Tam istoriškai reikėjo mokyti robotus ant milijardų duomenų taškų iš pirmų rankų kiekviename objekte, aplinkoje, užduotyje ir situacijoje fiziniame pasaulyje – tai tokia perspektyva, atimanti daug laiko ir brangi, todėl novatoriams ji tampa nepraktiška. Mokymasis yra sudėtingas darbas, o tuo labiau robotams.

 

 Naujas požiūris su RT-2

 

 Neseniai atliktas darbas pagerino robotų gebėjimą mąstyti, netgi leido jiems naudoti minčių grandinės raginimą – būdą išskaidyti daugiapakopes problemas. 

 

Regėjimo modelių, tokių, kaip PaLM-E, įdiegimas padėjo robotams geriau suvokti aplinką. 

 

Ir RT-1 parodė, kad transformatoriai, žinomi dėl savo gebėjimo apibendrinti informaciją įvairiose sistemose, netgi gali padėti įvairių tipų robotams mokytis vieni iš kitų.

 

 Tačiau iki šiol robotai veikė sudėtingose ​​sistemų krūvose, o aukšto lygio samprotavimai ir žemo lygio manipuliavimo sistemos žaidė netobulą telefono žaidimą robotui valdyti. Įsivaizduokite, kad galvojate apie tai, ką norite daryti, o tada turite pasakyti tuos veiksmus likusiai kūno daliai, kad ji pajudėtų. RT-2 pašalina šį sudėtingumą ir leidžia vienam modeliui ne tik atlikti sudėtingus pagrindų modeliuose matomus samprotavimus, bet ir atlikti roboto veiksmus. Svarbiausia, kad tai rodo, kad turėdama nedidelį roboto mokymo duomenų kiekį, sistema gali perkelti sąvokas, įterptas į jos kalbos ir regos lavinimo duomenis, nukreipti roboto veiksmus – net ir atliekant užduotis, kurių ji niekada nebuvo išmokyta atlikti.

 

 Pavyzdžiui, jei norite, kad ankstesnės sistemos galėtų išmesti šiukšles, turėtumėte jas aiškiai išmokyti atpažinti šiukšles, taip pat jas pasiimti ir išmesti. Kadangi RT-2 gali perduoti žinias iš didelio žiniatinklio duomenų korpuso, jis jau turi idėją, kas yra šiukšliadėžė, ir gali ją atpažinti be aiškaus mokymo. Jis netgi turi idėją, kaip išmesti šiukšles, nors niekada nebuvo išmokytas to imtis. Ir pagalvokite apie abstrakčią šiukšlių prigimtį – tai, kas buvo traškučių maišelis ar banano žievelė, suvalgius tampa šiukšlėmis. RT-2 gali tai suprasti iš savo regėjimo kalbos mokymo duomenų ir atlikti savo darbą.

 

 Šviesesnė robotikos ateitis

 

 RT-2 gebėjimas perduoti informaciją veiksmams rodo pažadą robotams greičiau prisitaikyti prie naujų situacijų ir aplinkos. Bandydama RT-2 modelius daugiau, nei 6 000 robotų bandymų, komanda nustatė, kad RT-2 veikė taip pat, kaip mūsų ankstesnis modelis RT-1, atliekant užduotis treniruočių duomenyse arba „matytose“ užduotyse. Ir beveik dvigubai padidino savo našumą pagal naujus, nematytus scenarijus iki 62%, palyginti su RT-1 32%.

 

 Kitaip tariant, naudojant RT-2, robotai gali išmokti daugiau, kaip mes – perkelti išmoktas sąvokas į naujas situacijas.

 

 RT-2 ne tik parodo, kaip AI pažanga sparčiai pereina į robotiką, bet ir rodo didžiulį pažadą bendresnės paskirties robotams. Nors dar reikia daug nuveikti, kad į žmogų orientuotose aplinkose būtų sukurti naudingi robotai, RT-2 mums parodo įdomią robotikos ateitį, kurią galima pasiekti." [1]

1. Robotic Transformer 2 (RT-2): The Vision-Language-Action Model

kyegomez /   RT-2   Public

https://github.com/kyegomez/RT-2

 


Komentarų nėra: