„Ne taip seniai
analitikai atvirai svarstė, ar dirbtinis intelektas (AI) bus kompanijos „Adobe“, kuriančios programinę įrangą kūrybingiems tipams, mirtis. Atrodė, kad tokie nauji
įrankiai, kaip DALL-E 2 ir „Midjourney“, kurie sukuria paveikslėlius iš teksto
„Adobe“ vaizdų redagavimo pasiūlymus daro nereikalingais. Dar balandžio mėn.
„Seeking Alpha“, finansų naujienų svetainė, paskelbė straipsnį „Ar AI yra
„Adobe“ žudikas?
Toli nuo to.
„Adobe“ panaudojo savo šimtų milijonų nuotraukų duomenų bazę, kad sukurtų savo
dirbtinio intelekto įrankių rinkinį, pavadintą „Firefly“. Nuo pat išleidimo
kovo mėn. programinė įranga buvo naudojama, kuriant daugiau, nei 1 mlrd., vaizdų,
sako Dana Rao, įmonės vadovė. „Adobe“tai daro, vengdama ieškoti vaizdų internete, kaip
tai darė konkurentai, „Adobe“ išvengė gilėjančio ginčo dėl autorių teisių,
kurie dabar slegia pramonę.
Nuo „Firefly“ pasirodymo įmonės akcijų kaina pakilo
36%.
„Adobe“ triumfas
prieš smerkiančiuosius iliustruoja platesnę mintį apie konkursą dėl dominavimo
sparčiai besivystančioje AI įrankių rinkoje. Supersize modeliai, maitinantys
naujausią vadinamojo „generatyvinio“ AI bangą, priklauso nuo daugybės duomenų.
Jau pasinaudojusios didžiąja dalimi interneto, dažnai be leidimo, dirbtinio
intelekto įmonės dabar ieško naujų duomenų šaltinių, kad palaikytų maitinimosi
įtūžį. Tuo tarpu įmonės, turinčios daugybę duomenų, svarsto, kaip geriausia iš
to pasipelnyti. Šiuo metu vyksta duomenų gavimas.
Du pagrindiniai
AI modelio komponentai yra duomenų rinkiniai, kuriais remiantis apmokoma
sistema, ir apdorojimo galia, per kurią modelis nustato ryšius tuose duomenų
rinkiniuose ir tarp jų. Šie du ingredientai tam tikru mastu yra vienas kito pakaitalai:
modelį galima patobulinti, sunaudojant daugiau duomenų arba pridedant daugiau
apdorojimo galios. Tačiau pastarasis ėjimas tampa sudėtingas dėl specializuotų AI
lustų trūkumo, todėl modelių kūrėjai turi dvigubai daugiau dėmesio skirti
duomenų paieškai.
Duomenų poreikis
auga taip greitai, kad iki 2026 m. gali būti išnaudotos aukštos kokybės teksto,
skirto mokymams, atsargos, skaičiuoja Epoch AI, tyrimų komanda.
Naujausi dviejų
technologijų milžinų „Google“ ir „Meta“ AI modeliai, greičiausiai, yra išmokyti,
naudojant daugiau, nei 1 trilijoną, žodžių. Palyginimui, bendra angliškų žodžių
suma internetinėje enciklopedijoje Vikipedija yra apie 4 mlrd.
Svarbu ne tik
duomenų rinkinių dydis. Kuo geresni duomenys, tuo geresnis modelis. Tekstu
pagrįsti modeliai yra idealiai mokomi rašyti, naudojant ilgos formos, gerai parašytus,
faktiškai tiksliai parašytus, tekstus, pažymi Russellas Kaplanas iš Scale AI, duomenų startuolio. Labiau tikėtina, kad modeliai, kuriuose pateikiama ši informacija,
gamins panašiai aukštos kokybės produkciją. Taip pat AI pokalbių robotai
pateikia geresnius atsakymus, kai jų prašoma žingsnis po žingsnio paaiškinti,
kaip jie veikia, todėl didėja šaltinių, pvz., vadovėlių, paklausa. Taip pat
vertinami specializuoti informacijos rinkiniai, nes jie leidžia modelius
„patobulinti“, kad būtų galima pritaikyti daugiau nišų. 2018 m. „Microsoft“
įsigijo „GitHub“, programinės įrangos kodo saugyklą, už 7,5 mlrd. dolerių, kas padėjo
sukurti kodų rašymo dirbtinio intelekto įrankį.
Augant duomenų
paklausai, prieiga prie jų tampa vis sudėtingesnė, o turinio kūrėjai dabar
reikalauja kompensacijos už medžiagą, kuri buvo įtraukta į AI modelius. Modelių
kūrėjams Amerikoje jau iškelta nemažai bylų dėl autorių teisių pažeidimo. Grupė
autorių, įskaitant komikę Sarah Silverman, padavė į teismą OpenAI, ChatGPT, AI
pokalbių roboto kūrėją ir konkuruojančią kompaniją Meta. Grupė menininkų taip pat kreipiasi į teismą, kaltindami
„Stability AI“, kuriančią teksto į vaizdą įrankius, ir „Midjourney“.
Rezultatas buvo
didžiulis sandorių sudarymas, kai dirbtinio intelekto įmonės lenktyniauja,
siekdamos apsaugoti duomenų šaltinius. Liepos mėnesį OpenAI pasirašė susitarimą
su naujienų agentūra Associated Press, kad pasiektų jos istorijų archyvą.
Neseniai ji taip pat išplėtė sutartį su „Shutterstock“, fotografijos tiekėju,
su kuria „Meta“ taip pat yra sudariusi sandorį. Rugpjūčio 8 d. buvo pranešta,
kad „Google“ diskutuoja su įrašų kompanija „Universal Music“, siekdama
licencijuoti atlikėjų balsus dainų kūrimo AI įrankiui. Sklando gandai apie tai,
kad dirbtinio intelekto laboratorijos artėja prie Britanijos visuomeninio
transliuotojo BBC. Kitas numanomas tikslas yra JSTOR, skaitmeninė akademinių
žurnalų biblioteka.
Informacijos
turėtojai naudojasi didesne derybine galia. Diskusijų forumas „Reddit“ ir
programuotojų pamėgta klausimų ir atsakymų svetainė „Stack Overflow“ padidino
prieigos prie jų duomenų kainą. Abi svetainės yra ypač vertingos, nes
vartotojai „užbalsuoja“ pageidaujamus atsakymus, padėdami modeliams žinoti,
kurie yra tinkamiausi. Socialinės žiniasklaidos svetainė „Twitter“ (dabar
žinoma, kaip X) ėmėsi priemonių, kad apribotų robotų galimybę iškrapštyti
svetainę, ir dabar apmokestina visus, kurie nori pasiekti jos duomenis. Elonas
Muskas, jos savininkas, planuoja sukurti savo dirbtinio intelekto
verslą, naudodamas šiuos duomenis.
Išplečiant sieną
Todėl modelių
kūrėjai daug dirba, kad pagerintų jau turimų įvesties kokybę. Daugelis AI
laboratorijų naudoja daugybę duomenų anotatorių, kad galėtų atlikti tokias
užduotis, kaip vaizdų žymėjimas ir įvertinimas atsakymai. Kai kurie iš šių darbų
yra sudėtingi; vieno tokio darbo skelbime ieškoma gyvybės mokslų magistro arba
daktaro laipsnį turinčių pretendentų. Tačiau didžioji jo dalis yra kasdieniška
ir perkeliama į tokias vietas, kaip Kenija, kur darbo jėga pigi.
Dirbtinio
intelekto įmonės taip pat renka duomenis, kai vartotojai sąveikauja su įmonių
įrankiais. Daugelis jų turi grįžtamojo ryšio mechanizmą, kuriame vartotojai
nurodo, kurie atsakymai yra naudingi. „Firefly“ teksto į vaizdą generatorius
leidžia vartotojams pasirinkti vieną iš keturių parinkčių. Bardas, „Google“
pokalbių robotas, siūlo tris atsakymus. Vartotojai gali pažymėti „ChatGPT“
atsakymus „patinka“ arba „nepatinka“. Šią informaciją galima grąžinti, kaip
įvestį į pagrindinį modelį, suformuojant tai, ką Douwe Kiela, Contextual AI,
startuolio, įkūrėjas, vadina „duomenų smagračiu“. Jis priduria, kad stipresnis
pokalbių roboto atsakymų kokybės signalas yra tai, ar vartotojai nukopijuoja
tekstą ir įklijuoja jį kitur. Ši informacija padėjo „Google“ greitai
patobulinti jos vertimo įrankį.
Tačiau yra vienas
duomenų šaltinis, kuris iš esmės lieka nepanaudotas: informacija, esanti
tarp technologijų įmonių verslo klientų sienų. Daugelis įmonių, dažnai
nesąmoningai, turi daug naudingų duomenų – nuo skambučių centro nuorašų iki
klientų išlaidų įrašų. Tokia informacija ypač vertinga, nes ji gali būti
naudojama modeliams patikslinti konkretiems verslo tikslams, pavyzdžiui, padėti
skambučių centro darbuotojams atsakyti į užklausas arba analitikams rasti
būdus, kaip padidinti pardavimą.
Tačiau pasinaudoti
šiais turtingais ištekliais ne visada paprasta. Roy Singh iš Bain,
konsultacinės įmonės, pažymi, kad dauguma įmonių istoriškai mažai dėmesio skyrė
didžiulių, bet nestruktūrizuotų duomenų rinkinių tipams, kurie būtų
naudingiausi, mokant dirbtinio intelekto įrankius. Dažnai jie yra pasklidę
įvairiose sistemose, paslėpti įmonės serveriuose, o ne debesyje.
Šios informacijos
atrakinimas padėtų įmonėms pritaikyti AI įrankius, kad jie geriau atitiktų jų
poreikius.
„Amazon“ ir
„Microsoft“, dvi technologijų gigantės, dabar siūlo įrankius, padedančius
įmonėms pagerinti savo nestruktūrizuotų duomenų rinkinių valdymą, tai daro ir
„Google“.
Christianas
Kleinermanas iš „Snowflake“, duomenų bazių įmonės, teigia, kad verslas klesti,
nes klientai nori „nugriauti duomenų kaupiklius“. Daugėja pradedančiųjų įmonių.
Balandžio mėn. Weaviate, į dirbtinį intelektą orientuota duomenų bazių įmonė,
surinko 50 mln. dolerių, įvertinant ją 200 mln. dolerių. Vos po savaitės PineCone,
konkurentė, surinko 100 mln. dolerių, įvertinant ją 750 mln. dolerių. Anksčiau šį mėnesį
Neon, kitas duomenų bazių startuolis, surinko papildomus 46 mln. dolerių. Duomenų
grumtynės dar tik prasideda." [1]