Sekėjai

Ieškoti šiame dienoraštyje

2024 m. spalio 12 d., šeštadienis

Kalbantis robotas: mūsų naujasis dirbtinio intelekto modelis vaizdus ir kalbą paverčia robotų veiksmais

 


 „RT-2, mūsų naujas vaizdų, kalbos ir veiksmų modelis, padeda robotams lengviau suprasti ir atlikti veiksmus – tiek pažįstamose, tiek naujose situacijose.

 

 Dešimtmečius, kai žmonės įsivaizdavo tolimą ateitį, jie beveik visada įtraukdavo pagrindinį vaidmenį robotams. Robotai buvo sukurti pasakojimuose, kaip patikimi, naudingi ir net žavūs. Tačiau per tuos pačius dešimtmečius ši technologija išliko sunkiai pasiekiama – įstrigo įsivaizduojamoje mokslinės fantastikos sferoje.

 

 Šiandien pristatome naują robotikos pažangą, kuri priartina mus prie naudingų robotų ateities. Robotics Transformer 2 arba RT-2 yra pirmasis tokio pobūdžio vaizdo-kalbos veiksmo (VLA) modelis. Transformatoriumi pagrįstas modelis, parengtas, naudojant tekstą ir vaizdus iš žiniatinklio, RT-2 gali tiesiogiai išvesti robotų veiksmus. Lygiai taip pat, kaip kalbos modeliai mokomi, naudojant žiniatinklio tekstą, siekiant išmokti bendrų idėjų ir sąvokų, RT-2 perduoda žinias iš žiniatinklio duomenų, kad informuotų roboto elgesį.

 

 Kitaip tariant, RT-2 gali būti kalbantis robotas.

 

 Realūs roboto mokymosi iššūkiai

 

 Naudingų robotų ieškojimas visada buvo didžiulės pastangos, nes robotas, galintis atlikti bendras užduotis pasaulyje, turi sugebėti atlikti sudėtingas, abstrakčias užduotis labai kintančioje aplinkoje – ypač tokioje, kokios dar niekada nematė.

 

 Skirtingai, nei pokalbių robotams, robotams reikia „įžeminimo“ realiame pasaulyje ir jų gebėjimuose. Jų mokymas yra ne tik, tarkime, išmokti viską, ką reikia žinoti apie obuolį: kaip jis auga, jo fizines savybes ar net to, kas tariamai nukrito ant sero Izaoko Niutono galvos. Robotas turi mokėti atpažinti obuolį kontekste, atskirti jį nuo raudono rutulio, suprasti, kaip jis atrodo, o svarbiausia – mokėti jį paimti.

 

 Tam istoriškai reikėjo mokyti robotus ant milijardų duomenų taškų iš pirmų rankų kiekviename objekte, aplinkoje, užduotyje ir situacijoje fiziniame pasaulyje – tai tokia perspektyva, atimanti daug laiko ir brangi, todėl novatoriams ji tampa nepraktiška. Mokymasis yra sudėtingas darbas, o tuo labiau robotams.

 

 Naujas požiūris su RT-2

 

 Neseniai atliktas darbas pagerino robotų gebėjimą mąstyti, netgi leido jiems naudoti minčių grandinės raginimą – būdą išskaidyti daugiapakopes problemas. 

 

Regėjimo modelių, tokių, kaip PaLM-E, įdiegimas padėjo robotams geriau suvokti aplinką. 

 

Ir RT-1 parodė, kad transformatoriai, žinomi dėl savo gebėjimo apibendrinti informaciją įvairiose sistemose, netgi gali padėti įvairių tipų robotams mokytis vieni iš kitų.

 

 Tačiau iki šiol robotai veikė sudėtingose ​​sistemų krūvose, o aukšto lygio samprotavimai ir žemo lygio manipuliavimo sistemos žaidė netobulą telefono žaidimą robotui valdyti. Įsivaizduokite, kad galvojate apie tai, ką norite daryti, o tada turite pasakyti tuos veiksmus likusiai kūno daliai, kad ji pajudėtų. RT-2 pašalina šį sudėtingumą ir leidžia vienam modeliui ne tik atlikti sudėtingus pagrindų modeliuose matomus samprotavimus, bet ir atlikti roboto veiksmus. Svarbiausia, kad tai rodo, kad turėdama nedidelį roboto mokymo duomenų kiekį, sistema gali perkelti sąvokas, įterptas į jos kalbos ir regos lavinimo duomenis, nukreipti roboto veiksmus – net ir atliekant užduotis, kurių ji niekada nebuvo išmokyta atlikti.

 

 Pavyzdžiui, jei norite, kad ankstesnės sistemos galėtų išmesti šiukšles, turėtumėte jas aiškiai išmokyti atpažinti šiukšles, taip pat jas pasiimti ir išmesti. Kadangi RT-2 gali perduoti žinias iš didelio žiniatinklio duomenų korpuso, jis jau turi idėją, kas yra šiukšliadėžė, ir gali ją atpažinti be aiškaus mokymo. Jis netgi turi idėją, kaip išmesti šiukšles, nors niekada nebuvo išmokytas to imtis. Ir pagalvokite apie abstrakčią šiukšlių prigimtį – tai, kas buvo traškučių maišelis ar banano žievelė, suvalgius tampa šiukšlėmis. RT-2 gali tai suprasti iš savo regėjimo kalbos mokymo duomenų ir atlikti savo darbą.

 

 Šviesesnė robotikos ateitis

 

 RT-2 gebėjimas perduoti informaciją veiksmams rodo pažadą robotams greičiau prisitaikyti prie naujų situacijų ir aplinkos. Bandydama RT-2 modelius daugiau, nei 6 000 robotų bandymų, komanda nustatė, kad RT-2 veikė taip pat, kaip mūsų ankstesnis modelis RT-1, atliekant užduotis treniruočių duomenyse arba „matytose“ užduotyse. Ir beveik dvigubai padidino savo našumą pagal naujus, nematytus scenarijus iki 62%, palyginti su RT-1 32%.

 

 Kitaip tariant, naudojant RT-2, robotai gali išmokti daugiau, kaip mes – perkelti išmoktas sąvokas į naujas situacijas.

 

 RT-2 ne tik parodo, kaip AI pažanga sparčiai pereina į robotiką, bet ir rodo didžiulį pažadą bendresnės paskirties robotams. Nors dar reikia daug nuveikti, kad į žmogų orientuotose aplinkose būtų sukurti naudingi robotai, RT-2 mums parodo įdomią robotikos ateitį, kurią galima pasiekti." [1]

1. Robotic Transformer 2 (RT-2): The Vision-Language-Action Model

kyegomez /   RT-2   Public

https://github.com/kyegomez/RT-2

 


Speaking robot: Our new AI model translates vision and language into robotic actions


"RT-2, our new vision-language-action model, helps robots more easily understand and perform actions — in both familiar and new situations.

For decades, when people have imagined the distant future, they’ve almost always included a starring role for robots. Robots have been cast as dependable, helpful and even charming. Yet across those same decades, the technology has remained elusive — stuck in the imagined realm of science fiction.

Today, we’re introducing a new advancement in robotics that brings us closer to a future of helpful robots. Robotics Transformer 2, or RT-2, is a first-of-its-kind vision-language-action (VLA) model. A Transformer-based model trained on text and images from the web, RT-2 can directly output robotic actions. Just like language models are trained on text from the web to learn general ideas and concepts, RT-2 transfers knowledge from web data to inform robot behavior.

In other words, RT-2 can speak robot.

The real-world challenges of robot learning

The pursuit of helpful robots has always been a herculean effort, because a robot capable of doing general tasks in the world needs to be able to handle complex, abstract tasks in highly variable environments — especially ones it's never seen before.

Unlike chatbots, robots need “grounding” in the real world and their abilities. Their training isn’t just about, say, learning everything there is to know about an apple: how it grows, its physical properties, or even that one purportedly landed on Sir Isaac Newton’s head. A robot needs to be able to recognize an apple in context, distinguish it from a red ball, understand what it looks like, and most importantly, know how to pick it up.

That’s historically required training robots on billions of data points, firsthand, across every single object, environment, task and situation in the physical world — a prospect so time consuming and costly as to make it impractical for innovators. Learning is a challenging endeavor, and even more so for robots.

A new approach with RT-2

Recent work has improved robots’ ability to reason, even enabling them to use chain-of-thought prompting, a way to dissect multi-step problems. The introduction of vision models, like PaLM-E, helped robots make better sense of their surroundings. And RT-1 showed that Transformers, known for their ability to generalize information across systems, could even help different types of robots learn from each other.

But until now, robots ran on complex stacks of systems, with high-level reasoning and low-level manipulation systems playing an imperfect game of telephone to operate the robot. Imagine thinking about what you want to do, and then having to tell those actions to the rest of your body to get it to move. RT-2 removes that complexity and enables a single model to not only perform the complex reasoning seen in foundation models, but also output robot actions. Most importantly, it shows that with a small amount of robot training data, the system is able to transfer concepts embedded in its language and vision training data to direct robot actions — even for tasks it’s never been trained to do.

For example, if you wanted previous systems to be able to throw away a piece of trash, you would have to explicitly train them to be able to identify trash, as well as pick it up and throw it away. Because RT-2 is able to transfer knowledge from a large corpus of web data, it already has an idea of what trash is and can identify it without explicit training. It even has an idea of how to throw away the trash, even though it’s never been trained to take that action. And think about the abstract nature of trash — what was a bag of chips or a banana peel becomes trash after you eat them. RT-2 is able to make sense of that from its vision-language training data and do the job.

A brighter future for robotics

RT-2’s ability to transfer information to actions shows promise for robots to more rapidly adapt to novel situations and environments. In testing RT-2 models in more than 6,000 robotic trials, the team found that RT-2 functioned as well as our previous model, RT-1, on tasks in its training data, or “seen” tasks. And it almost doubled its performance on novel, unseen scenarios to 62% from RT-1’s 32%.

In other words, with RT-2, robots are able to learn more like we do — transferring learned concepts to new situations.

Not only does RT-2 show how advances in AI are cascading rapidly into robotics, it shows enormous promise for more general-purpose robots. While there is still a tremendous amount of work to be done to enable helpful robots in human-centered environments, RT-2 shows us an exciting future for robotics just within grasp." [1]

 

1. Robotic Transformer 2 (RT-2): The Vision-Language-Action Model

kyegomez /   RT-2   Public

https://github.com/kyegomez/RT-2