„Ne taip seniai analitikai atvirai svarstė, ar dirbtinis intelektas (AI) bus kompanijos „Adobe“, kuriančios programinę įrangą kūrybingiems tipams, mirtis. Atrodė, kad tokie nauji įrankiai, kaip DALL-E 2 ir „Midjourney“, kurie sukuria paveikslėlius iš teksto „Adobe“ vaizdų redagavimo pasiūlymus daro nereikalingais. Dar balandžio mėn. „Seeking Alpha“, finansų naujienų svetainė, paskelbė straipsnį „Ar AI yra „Adobe“ žudikas?
Toli nuo to. „Adobe“ panaudojo savo šimtų milijonų nuotraukų duomenų bazę, kad sukurtų savo dirbtinio intelekto įrankių rinkinį, pavadintą „Firefly“. Nuo pat išleidimo kovo mėn. programinė įranga buvo naudojama, kuriant daugiau, nei 1 mlrd., vaizdų, sako Dana Rao, įmonės vadovė. „Adobe“tai daro, vengdama ieškoti vaizdų internete, kaip tai darė konkurentai, „Adobe“ išvengė gilėjančio ginčo dėl autorių teisių, kurie dabar slegia pramonę.
Nuo „Firefly“ pasirodymo įmonės akcijų kaina pakilo 36%.
„Adobe“ triumfas prieš smerkiančiuosius iliustruoja platesnę mintį apie konkursą dėl dominavimo sparčiai besivystančioje AI įrankių rinkoje. Supersize modeliai, maitinantys naujausią vadinamojo „generatyvinio“ AI bangą, priklauso nuo daugybės duomenų. Jau pasinaudojusios didžiąja dalimi interneto, dažnai be leidimo, dirbtinio intelekto įmonės dabar ieško naujų duomenų šaltinių, kad palaikytų maitinimosi įtūžį. Tuo tarpu įmonės, turinčios daugybę duomenų, svarsto, kaip geriausia iš to pasipelnyti. Šiuo metu vyksta duomenų gavimas.
Du pagrindiniai AI modelio komponentai yra duomenų rinkiniai, kuriais remiantis apmokoma sistema, ir apdorojimo galia, per kurią modelis nustato ryšius tuose duomenų rinkiniuose ir tarp jų. Šie du ingredientai tam tikru mastu yra vienas kito pakaitalai: modelį galima patobulinti, sunaudojant daugiau duomenų arba pridedant daugiau apdorojimo galios. Tačiau pastarasis ėjimas tampa sudėtingas dėl specializuotų AI lustų trūkumo, todėl modelių kūrėjai turi dvigubai daugiau dėmesio skirti duomenų paieškai.
Duomenų poreikis auga taip greitai, kad iki 2026 m. gali būti išnaudotos aukštos kokybės teksto, skirto mokymams, atsargos, skaičiuoja Epoch AI, tyrimų komanda.
Naujausi dviejų technologijų milžinų „Google“ ir „Meta“ AI modeliai, greičiausiai, yra išmokyti, naudojant daugiau, nei 1 trilijoną, žodžių. Palyginimui, bendra angliškų žodžių suma internetinėje enciklopedijoje Vikipedija yra apie 4 mlrd.
Svarbu ne tik duomenų rinkinių dydis. Kuo geresni duomenys, tuo geresnis modelis. Tekstu pagrįsti modeliai yra idealiai mokomi rašyti, naudojant ilgos formos, gerai parašytus, faktiškai tiksliai parašytus, tekstus, pažymi Russellas Kaplanas iš Scale AI, duomenų startuolio. Labiau tikėtina, kad modeliai, kuriuose pateikiama ši informacija, gamins panašiai aukštos kokybės produkciją. Taip pat AI pokalbių robotai pateikia geresnius atsakymus, kai jų prašoma žingsnis po žingsnio paaiškinti, kaip jie veikia, todėl didėja šaltinių, pvz., vadovėlių, paklausa. Taip pat vertinami specializuoti informacijos rinkiniai, nes jie leidžia modelius „patobulinti“, kad būtų galima pritaikyti daugiau nišų. 2018 m. „Microsoft“ įsigijo „GitHub“, programinės įrangos kodo saugyklą, už 7,5 mlrd. dolerių, kas padėjo sukurti kodų rašymo dirbtinio intelekto įrankį.
Augant duomenų paklausai, prieiga prie jų tampa vis sudėtingesnė, o turinio kūrėjai dabar reikalauja kompensacijos už medžiagą, kuri buvo įtraukta į AI modelius. Modelių kūrėjams Amerikoje jau iškelta nemažai bylų dėl autorių teisių pažeidimo. Grupė autorių, įskaitant komikę Sarah Silverman, padavė į teismą OpenAI, ChatGPT, AI pokalbių roboto kūrėją ir konkuruojančią kompaniją Meta. Grupė menininkų taip pat kreipiasi į teismą, kaltindami „Stability AI“, kuriančią teksto į vaizdą įrankius, ir „Midjourney“.
Rezultatas buvo didžiulis sandorių sudarymas, kai dirbtinio intelekto įmonės lenktyniauja, siekdamos apsaugoti duomenų šaltinius. Liepos mėnesį OpenAI pasirašė susitarimą su naujienų agentūra Associated Press, kad pasiektų jos istorijų archyvą. Neseniai ji taip pat išplėtė sutartį su „Shutterstock“, fotografijos tiekėju, su kuria „Meta“ taip pat yra sudariusi sandorį. Rugpjūčio 8 d. buvo pranešta, kad „Google“ diskutuoja su įrašų kompanija „Universal Music“, siekdama licencijuoti atlikėjų balsus dainų kūrimo AI įrankiui. Sklando gandai apie tai, kad dirbtinio intelekto laboratorijos artėja prie Britanijos visuomeninio transliuotojo BBC. Kitas numanomas tikslas yra JSTOR, skaitmeninė akademinių žurnalų biblioteka.
Informacijos turėtojai naudojasi didesne derybine galia. Diskusijų forumas „Reddit“ ir programuotojų pamėgta klausimų ir atsakymų svetainė „Stack Overflow“ padidino prieigos prie jų duomenų kainą. Abi svetainės yra ypač vertingos, nes vartotojai „užbalsuoja“ pageidaujamus atsakymus, padėdami modeliams žinoti, kurie yra tinkamiausi. Socialinės žiniasklaidos svetainė „Twitter“ (dabar žinoma, kaip X) ėmėsi priemonių, kad apribotų robotų galimybę iškrapštyti svetainę, ir dabar apmokestina visus, kurie nori pasiekti jos duomenis. Elonas Muskas, jos savininkas, planuoja sukurti savo dirbtinio intelekto verslą, naudodamas šiuos duomenis.
Išplečiant sieną
Todėl modelių kūrėjai daug dirba, kad pagerintų jau turimų įvesties kokybę. Daugelis AI laboratorijų naudoja daugybę duomenų anotatorių, kad galėtų atlikti tokias užduotis, kaip vaizdų žymėjimas ir įvertinimas atsakymai. Kai kurie iš šių darbų yra sudėtingi; vieno tokio darbo skelbime ieškoma gyvybės mokslų magistro arba daktaro laipsnį turinčių pretendentų. Tačiau didžioji jo dalis yra kasdieniška ir perkeliama į tokias vietas, kaip Kenija, kur darbo jėga pigi.
Dirbtinio intelekto įmonės taip pat renka duomenis, kai vartotojai sąveikauja su įmonių įrankiais. Daugelis jų turi grįžtamojo ryšio mechanizmą, kuriame vartotojai nurodo, kurie atsakymai yra naudingi. „Firefly“ teksto į vaizdą generatorius leidžia vartotojams pasirinkti vieną iš keturių parinkčių. Bardas, „Google“ pokalbių robotas, siūlo tris atsakymus. Vartotojai gali pažymėti „ChatGPT“ atsakymus „patinka“ arba „nepatinka“. Šią informaciją galima grąžinti, kaip įvestį į pagrindinį modelį, suformuojant tai, ką Douwe Kiela, Contextual AI, startuolio, įkūrėjas, vadina „duomenų smagračiu“. Jis priduria, kad stipresnis pokalbių roboto atsakymų kokybės signalas yra tai, ar vartotojai nukopijuoja tekstą ir įklijuoja jį kitur. Ši informacija padėjo „Google“ greitai patobulinti jos vertimo įrankį.
Tačiau yra vienas duomenų šaltinis, kuris iš esmės lieka nepanaudotas: informacija, esanti tarp technologijų įmonių verslo klientų sienų. Daugelis įmonių, dažnai nesąmoningai, turi daug naudingų duomenų – nuo skambučių centro nuorašų iki klientų išlaidų įrašų. Tokia informacija ypač vertinga, nes ji gali būti naudojama modeliams patikslinti konkretiems verslo tikslams, pavyzdžiui, padėti skambučių centro darbuotojams atsakyti į užklausas arba analitikams rasti būdus, kaip padidinti pardavimą.
Tačiau pasinaudoti šiais turtingais ištekliais ne visada paprasta. Roy Singh iš Bain, konsultacinės įmonės, pažymi, kad dauguma įmonių istoriškai mažai dėmesio skyrė didžiulių, bet nestruktūrizuotų duomenų rinkinių tipams, kurie būtų naudingiausi, mokant dirbtinio intelekto įrankius. Dažnai jie yra pasklidę įvairiose sistemose, paslėpti įmonės serveriuose, o ne debesyje.
Šios informacijos atrakinimas padėtų įmonėms pritaikyti AI įrankius, kad jie geriau atitiktų jų poreikius.
„Amazon“ ir „Microsoft“, dvi technologijų gigantės, dabar siūlo įrankius, padedančius įmonėms pagerinti savo nestruktūrizuotų duomenų rinkinių valdymą, tai daro ir „Google“.
Christianas Kleinermanas iš „Snowflake“, duomenų bazių įmonės, teigia, kad verslas klesti, nes klientai nori „nugriauti duomenų kaupiklius“. Daugėja pradedančiųjų įmonių. Balandžio mėn. Weaviate, į dirbtinį intelektą orientuota duomenų bazių įmonė, surinko 50 mln. dolerių, įvertinant ją 200 mln. dolerių. Vos po savaitės PineCone, konkurentė, surinko 100 mln. dolerių, įvertinant ją 750 mln. dolerių. Anksčiau šį mėnesį Neon, kitas duomenų bazių startuolis, surinko papildomus 46 mln. dolerių. Duomenų grumtynės dar tik prasideda." [1]
1. "AI is setting off a great scramble for data." The Economist, 13 Aug. 2023, p. NA.
Komentarų nėra:
Rašyti komentarą