"Vieną rytą atsibundate su neišvengiamu noru pamatyti jautį, klaidžiojantį po porcelianinę parduotuvę. Jūsų pasirinkimai:A) Susisiekite su vietiniu gyvulių treneriu ir netoliese esančiu „Crate & Barrel“.
B) Pasamdykite Holivudo animatorių.
C) Įveskite šešis žodžius į šį stebuklingą dirbtinio intelekto (AI) įrankį ir iššoks vaizdo įrašas, kuriame bulius atsargiai vaikšto aplink dubenis ir lėkštes.
Sveiki atvykę į kitą „šventosios karvės“ AI akimirką, kur jūsų žodžiai virsta sklandžiu, itin tikrovišku, detaliu vaizdo įrašu. Viso gero, realybe! Ačiū už visus gerus laikus.
„OpenAI“ viešai išleis „Sora“, savo naują teksto į vaizdo įrašą įrankį, iki šių metų pabaigos. Vis dėlto tai jau parodo, kaip lengva būtų pakeisti daug vaizdo įrašų kūrime dalyvaujančių žmonių gerai parašytais raginimais ir didele apdorojimo galia. Išsiunčiau įmonei keletą savo raginimų, nes kas gi nenorėtų matyti undinės, apžvelgiančios išmanųjį telefoną su jos krabu - padėjėju? Arba bulius, švelniai vaikštinėjantis porceliano parduotuvėje?
Tada susėdau į vaizdo interviu su bendrovės vyriausiąja technologijų pareigūne Mira Murati, norėdamas juos išsklaidyti ir aptarti mano susirūpinimą dėl šios technologijos.
Kai praėjusį mėnesį OpenAI pradėjo peržiūrėti vaizdo įrašus, sukurtus, naudojant generatyvinio AI įrankį, internetas, suprantama, prarado galvą. Kitos dirbtinio intelekto vaizdo technologijos sukuria neryškius, mažos skiriamosios gebos klipus. Tai atrodė, kaip kažkas iš gamtos dokumentinio ar didelio biudžeto filmo.
„Sora“ įneša naujo intensyvumo dabar jau pažįstamai AI jausmų kilpai – stebina gebėjimais, kuriuos lydi baimė dėl visuomenės. Murati patikino, kad „OpenAI“ išleis šį galingą įrankį apgalvotai. Tai nereiškia, kad viskas bus gerai.
Mane jau sužavėjo Soros sukurti vaizdo įrašai: bepiločio Amalfio pakrantės kadrai, korgis su asmenukės lazda ir animuota ūdra ant banglentės. Paprašiau „OpenAI“ kažko labiau pažįstamo mano gyvenime: „Dvi profesionalios moterys rudais plaukais ir 30-ies metų sėdinčios pokalbio naujienoms gerai apšviestoje studijoje“.
Burnos ir plaukų judesiai, odinės striukės detalės – visa tai atrodo taip tikroviškai. Murati sakė, kad 20 sekundžių 720p raiškos klipui sukurti prireikė kelių minučių. Taip pat nėra garso. Murati sakė, kad jie planuoja tai pridėti galiausiai.
Kai tą patį raginimą įdėjau į Runway, kitą AI vaizdo generatorių, išėjo dvi neryškios, vaiduokliškos moterys, kurios persekioja mano sapnus.
Kaip visa tai veikia? Lengviau būtų paaiškinti undinių evoliuciją, nei vidinį „difuzijos modelių“ veikimą, bet štai esmė: AI modelis išanalizavo daugybę vaizdo įrašų ir išmoko atpažinti objektus bei veiksmus. Tada, kai pateikiate teksto raginimą, jis nubraižo visą sceną ir užpildo kiekvieną kadrą.
Pramonės stebėtojai ir konkurentai, įskaitant Runway generalinį direktorių, kai kuriuos iš šių puikių rezultatų priskiria didžiulei OpenAI skaičiavimo galiai ir mokymo duomenims. „OpenAI“ neseniai susidūrė su ieškiniais dėl autorių teisių pažeidimo, kuriame teigiama, kad dirbtinio intelekto įmonė naudojo turinį, neturėdama leidimo mokyti „ChatGPT“.
Paklausiau Murati, kokius treniruočių duomenis OpenAI naudojo Sorai. „Naudojome viešai prieinamus duomenis ir licencijuotus duomenis“, – man pasakė Murati. Kai paklausiau, ar tai apima vaizdo įrašus iš „YouTube“, „Instagram“ ir „Facebook“, ji atsakė, kad nežino. Vėliau Murati patvirtino, kad licencijuota medžiaga apima „Shutterstock“ turinį.
Dirbtinio intelekto modeliai yra juodoji dėžė naudotojams – žinome, kad įeina raginimai ir išleidžiamas turinys, bet nežinome, kokie žingsniai tarp jų. Taigi mes niekada iki galo nesužinosime, kodėl viskas atrodo taip, kaip atrodo. Pavyzdžiui, undinės palydovas vėžiagyvis turi tokius ūsus, kaip Kempiniuko draugas ponas Krabas. Sutapimas? Gal būt!
Šiuo metu kurti Soros vaizdo klipus yra daug brangiau, nei vaizdus iš Dall-E, bendrovės vaizdų generatoriaus, pasakojo Murati. Tačiau, kai jis bus išleistas visuomenei, jis bus optimizuotas, kad būtų reikalaujama mažiau skaičiavimo galios.
Šiame ankstyvame etape galite pastebėti ryškius AI nukrypimus.
Vienu metu Soros sukurtoje interviu scenoje šviesesnio plauko moteriai atrodo, kad iš rankos išaugo 10 pirštų. „Tikrai sunku sukurti tikslų rankos judesio vaizdą“, - paaiškino Murati.
Kitu vaizdo įrašu paprašiau pamatyti robotą, traukiantį fotoaparatą iš filmo prodiuserio. Soros interpretacija: žmogus filmų prodiuseris virsta filmų kūrimo robotu. Kūno grobimo judesys kelia nerimą. Be to, fone geltonas taksi virsta sidabriniu sedanu. Modelis yra „gana geras tęstinumas, jis nėra tobulas“, - paaiškino Murati.
Taigi, kai gedimai išnyks, kaip atskirsime tikrą vaizdo įrašą nuo AI vaizdo įrašo?
Klipų apačioje pasirodo vandens ženklas. Vaizdo įrašuose, galiausiai, bus metaduomenys, nurodantys jų kilmę, sakė Murati. „OpenAI“ taip pat daugiausia dėmesio skiria „Sora“ komandai, kurioje saugos bandytojai bando ją raginti, kad atkreiptų dėmesį į pažeidžiamumą, šališkumą ir kitus žalingus rezultatus.
„Tai yra priežastis, kodėl mes iš tikrųjų dar nediegiame sistemų“, – sakė ji. "Turime išsiaiškinti šias problemas, kad galėtume užtikrintai jas plačiai naudoti."
Murati teigė, kad greita Soros politika greičiausiai atitiks Dall-E politiką. Pavyzdžiui, negalite generuoti viešų asmenų vaizdų. Kai paklausiau „TV naujienų kadrų apie dabartinį Amerikos prezidentą“, „OpenAI“ atstovas sakė, kad Sora atmetė raginimą.
Taip pat paprašiau „kareivio, vaikštančio Rytų Europos miestelyje“. Bendrovė praėjo ir pasirinko mano nekenksmingesnius raginimus. Kalbėdamas apie nuogumą, Murati man pasakė, kad bendrovė dirba su menininkais, siekdama išsiaiškinti, kur ji galėtų sukurti „apsaugą ir apribojimus, netrukdant kūrybiškumui“.
Tokie įrankiai kaip „Sora“ greitai pagerės. O pasaulyje, kuriame tekstinis raginimas gali pakeisti drono operatorių ar personažų iliustratorių, Holivudas nerimauja – ir susijaudinęs. Tik priklauso nuo to, kurį klausi.
Pamatęs Sorą, Tyleris Perry pasakė, kad pristabdys savo 800 milijonų dolerių vertės studijos plėtrą, sakydamas, kad ši technologija gali sutaupyti pinigų filmavimo aikštelėms ir filmavimui, tačiau taip pat kelia susirūpinimą. Animacijos gildijos, atstovaujančios Holivudo ir visos šalies animacijos menininkus, prezidentė Jeanette Moreno King man pasakė, kad žmonės vis tiek bus reikalingi meniniams sprendimams priimti, tačiau „ateitis miglota“. Edwardas Saatchi ir jo AI vaizdo įrašų studija „Fable“ svajoja apie AI „Netflix“: įveskite raginimą ir išeina visa serija, kurią norite žiūrėti.
Kai paklausiau Murati apie Soros poveikį vaizdo įrašų kūrimo darbams, ji vėl paminėjo lėtą, kruopštų diegimą ir pasakė, kad OpenAI suteikė šiems darbuotojams išankstinę prieigą prie bandymų. „Norime, kad kino pramonės žmonės ir kūrėjai visur prisidėtų prie informacijos apie tai, kaip mes ją toliau plėtojame“, – sakė ji.
Jei „OpenAI“ yra tas jautis porceliano parduotuvėje, dabar jis gali vaikščioti lengvai. Tačiau neišvengiamai ims daužyti lėkštes.“ [1]
1. OpenAI Made Video Clips Good Enough to Freak Us Out --- Company's chief tech officer explains new Sora AI tool and how it will be rolled out. Stern, Joanna. Wall Street Journal, Eastern edition; New York, N.Y.. 14 Mar 2024: A.10.
Komentarų nėra:
Rašyti komentarą