"Vieną rytą
atsibundate su neišvengiamu noru pamatyti jautį, klaidžiojantį po porcelianinę
parduotuvę. Jūsų pasirinkimai:
A) Susisiekite su
vietiniu gyvulių treneriu ir netoliese esančiu „Crate & Barrel“.
B) Pasamdykite
Holivudo animatorių.
C) Įveskite šešis
žodžius į šį stebuklingą dirbtinio intelekto (AI) įrankį ir iššoks vaizdo įrašas, kuriame bulius
atsargiai vaikšto aplink dubenis ir lėkštes.
Sveiki atvykę į
kitą „šventosios karvės“ AI akimirką, kur jūsų žodžiai virsta sklandžiu, itin
tikrovišku, detaliu vaizdo įrašu. Viso gero, realybe! Ačiū už visus gerus
laikus.
„OpenAI“ viešai
išleis „Sora“, savo naują teksto į vaizdo įrašą įrankį, iki šių metų pabaigos.
Vis dėlto tai jau parodo, kaip lengva būtų pakeisti daug vaizdo įrašų kūrime
dalyvaujančių žmonių gerai parašytais raginimais ir didele apdorojimo galia.
Išsiunčiau įmonei keletą savo raginimų, nes kas gi nenorėtų matyti undinės,
apžvelgiančios išmanųjį telefoną su jos krabu - padėjėju? Arba bulius, švelniai
vaikštinėjantis porceliano parduotuvėje?
Tada susėdau į
vaizdo interviu su bendrovės vyriausiąja technologijų pareigūne Mira Murati,
norėdamas juos išsklaidyti ir aptarti mano susirūpinimą dėl šios technologijos.
Kai praėjusį
mėnesį OpenAI pradėjo peržiūrėti vaizdo įrašus, sukurtus, naudojant
generatyvinio AI įrankį, internetas, suprantama, prarado galvą. Kitos dirbtinio
intelekto vaizdo technologijos sukuria neryškius, mažos skiriamosios gebos
klipus. Tai atrodė, kaip kažkas iš gamtos dokumentinio ar didelio biudžeto
filmo.
„Sora“ įneša
naujo intensyvumo dabar jau pažįstamai AI jausmų kilpai – stebina gebėjimais,
kuriuos lydi baimė dėl visuomenės. Murati patikino, kad „OpenAI“ išleis šį
galingą įrankį apgalvotai. Tai nereiškia, kad viskas bus gerai.
Mane jau sužavėjo
Soros sukurti vaizdo įrašai: bepiločio Amalfio pakrantės kadrai, korgis su
asmenukės lazda ir animuota ūdra ant banglentės. Paprašiau „OpenAI“ kažko
labiau pažįstamo mano gyvenime: „Dvi profesionalios moterys rudais plaukais ir
30-ies metų sėdinčios pokalbio naujienoms gerai apšviestoje studijoje“.
Burnos ir plaukų
judesiai, odinės striukės detalės – visa tai atrodo taip tikroviškai. Murati
sakė, kad 20 sekundžių 720p raiškos klipui sukurti prireikė kelių minučių. Taip
pat nėra garso. Murati sakė, kad jie planuoja tai pridėti galiausiai.
Kai tą patį
raginimą įdėjau į Runway, kitą AI vaizdo generatorių, išėjo dvi neryškios,
vaiduokliškos moterys, kurios persekioja mano sapnus.
Kaip visa tai
veikia? Lengviau būtų paaiškinti undinių evoliuciją, nei vidinį „difuzijos
modelių“ veikimą, bet štai esmė: AI modelis išanalizavo daugybę vaizdo įrašų ir
išmoko atpažinti objektus bei veiksmus. Tada, kai pateikiate teksto raginimą,
jis nubraižo visą sceną ir užpildo kiekvieną kadrą.
Pramonės
stebėtojai ir konkurentai, įskaitant Runway generalinį direktorių, kai kuriuos
iš šių puikių rezultatų priskiria didžiulei OpenAI skaičiavimo galiai ir mokymo
duomenims. „OpenAI“ neseniai susidūrė su ieškiniais dėl autorių teisių
pažeidimo, kuriame teigiama, kad dirbtinio intelekto įmonė naudojo turinį, neturėdama
leidimo mokyti „ChatGPT“.
Paklausiau
Murati, kokius treniruočių duomenis OpenAI naudojo Sorai. „Naudojome viešai
prieinamus duomenis ir licencijuotus duomenis“, – man pasakė Murati. Kai
paklausiau, ar tai apima vaizdo įrašus iš „YouTube“, „Instagram“ ir „Facebook“,
ji atsakė, kad nežino. Vėliau Murati patvirtino, kad licencijuota medžiaga
apima „Shutterstock“ turinį.
Dirbtinio
intelekto modeliai yra juodoji dėžė naudotojams – žinome, kad įeina raginimai
ir išleidžiamas turinys, bet nežinome, kokie žingsniai tarp jų. Taigi mes
niekada iki galo nesužinosime, kodėl viskas atrodo taip, kaip atrodo.
Pavyzdžiui, undinės palydovas vėžiagyvis turi tokius ūsus, kaip Kempiniuko
draugas ponas Krabas. Sutapimas? Gal būt!
Šiuo metu kurti
Soros vaizdo klipus yra daug brangiau, nei vaizdus iš Dall-E, bendrovės vaizdų
generatoriaus, pasakojo Murati. Tačiau, kai jis bus išleistas visuomenei, jis
bus optimizuotas, kad būtų reikalaujama mažiau skaičiavimo galios.
Šiame ankstyvame
etape galite pastebėti ryškius AI nukrypimus.
Vienu metu Soros
sukurtoje interviu scenoje šviesesnio plauko moteriai atrodo, kad iš rankos
išaugo 10 pirštų. „Tikrai sunku sukurti tikslų rankos judesio vaizdą“, -
paaiškino Murati.
Kitu vaizdo įrašu
paprašiau pamatyti robotą, traukiantį fotoaparatą iš filmo prodiuserio. Soros
interpretacija: žmogus filmų prodiuseris virsta filmų kūrimo robotu. Kūno
grobimo judesys kelia nerimą. Be to, fone geltonas taksi virsta sidabriniu
sedanu. Modelis yra „gana geras tęstinumas, jis nėra tobulas“, - paaiškino
Murati.
Taigi, kai
gedimai išnyks, kaip atskirsime tikrą vaizdo įrašą nuo AI vaizdo įrašo?
Klipų apačioje
pasirodo vandens ženklas. Vaizdo įrašuose, galiausiai, bus metaduomenys,
nurodantys jų kilmę, sakė Murati. „OpenAI“ taip pat daugiausia dėmesio skiria
„Sora“ komandai, kurioje saugos bandytojai bando ją raginti, kad atkreiptų
dėmesį į pažeidžiamumą, šališkumą ir kitus žalingus rezultatus.
„Tai yra priežastis, kodėl mes iš tikrųjų dar nediegiame
sistemų“, – sakė ji. "Turime išsiaiškinti šias problemas, kad galėtume
užtikrintai jas plačiai naudoti."
Murati teigė, kad
greita Soros politika greičiausiai atitiks Dall-E politiką. Pavyzdžiui,
negalite generuoti viešų asmenų vaizdų. Kai paklausiau „TV naujienų kadrų apie
dabartinį Amerikos prezidentą“, „OpenAI“ atstovas sakė, kad Sora atmetė
raginimą.
Taip pat
paprašiau „kareivio, vaikštančio Rytų Europos miestelyje“. Bendrovė praėjo ir
pasirinko mano nekenksmingesnius raginimus. Kalbėdamas apie nuogumą, Murati man
pasakė, kad bendrovė dirba su menininkais, siekdama išsiaiškinti, kur ji galėtų
sukurti „apsaugą ir apribojimus, netrukdant kūrybiškumui“.
Tokie įrankiai
kaip „Sora“ greitai pagerės. O pasaulyje, kuriame tekstinis raginimas gali
pakeisti drono operatorių ar personažų iliustratorių, Holivudas nerimauja – ir
susijaudinęs. Tik priklauso nuo to, kurį klausi.
Pamatęs Sorą,
Tyleris Perry pasakė, kad pristabdys savo 800 milijonų dolerių vertės studijos
plėtrą, sakydamas, kad ši technologija gali sutaupyti pinigų filmavimo
aikštelėms ir filmavimui, tačiau taip pat kelia susirūpinimą. Animacijos
gildijos, atstovaujančios Holivudo ir visos šalies animacijos menininkus,
prezidentė Jeanette Moreno King man pasakė, kad žmonės vis tiek bus reikalingi
meniniams sprendimams priimti, tačiau „ateitis miglota“. Edwardas Saatchi ir jo
AI vaizdo įrašų studija „Fable“ svajoja apie AI „Netflix“: įveskite raginimą ir
išeina visa serija, kurią norite žiūrėti.
Kai paklausiau
Murati apie Soros poveikį vaizdo įrašų kūrimo darbams, ji vėl paminėjo lėtą,
kruopštų diegimą ir pasakė, kad OpenAI suteikė šiems darbuotojams išankstinę
prieigą prie bandymų. „Norime, kad kino pramonės žmonės ir kūrėjai visur
prisidėtų prie informacijos apie tai, kaip mes ją toliau plėtojame“, – sakė ji.
Jei „OpenAI“ yra
tas jautis porceliano parduotuvėje, dabar jis gali vaikščioti lengvai. Tačiau
neišvengiamai ims daužyti lėkštes.“ [1]