Sekėjai

Ieškoti šiame dienoraštyje

2025 m. gegužės 24 d., šeštadienis

Žmonės dirbtinio intelekto kilpoje


„Kai „DEEPSEEK“, sėkminga Kinijos įmonė, praėjusių metų pabaigoje išleido savo pigų didelį kalbos modelį, ji paneigė ilgalaikes prielaidas apie tai, ko reikės, norint sukurti naujos kartos dirbtinį intelektą (DI). Tai bus svarbu tam, kas nugalės epinėje pasaulinėje kovoje dėl DI viršenybės. Kūrėjai dabar persvarsto, kiek reikia techninės įrangos, energijos ir duomenų. Dar vienas, mažiau aptariamas, mašininio intelekto indėlis taip pat kinta: darbo jėga.

 

Paprastam žmogui DI yra robotai, mašinos ir modeliai. Tai technologija, naikinanti darbo vietas. Tiesą sakant, DI modelių gamyboje dalyvauja milijonai darbuotojų. Didelė jų darbo dalis apėmė tokias užduotis, kaip objektų žymėjimas kelių vaizduose, siekiant apmokyti savaeigius automobilius, ir žodžių žymėjimas garso įrašuose, naudojamuose kalbos atpažinimo sistemoms apmokyti. Techniškai anotatoriai suteikia duomenims kontekstinę informaciją, kurios kompiuteriams reikia, kad būtų galima nustatyti statistinius ryšius tarp duomenų rinkinio komponentų ir jų reikšmės žmonėms. Tiesą sakant, kiekvienas, atlikęs CAPTCHA testą, pasirinkęs nuotraukas su perėjomis, galėjo netyčia padėti apmokyti DI.

 

Tai yra „neseksuali“ pramonės dalis, kaip teigia duomenų įmonės „Scale AI“ vadovas Alexas Wangas. Tačiau tai didžiulis verslas. Didelė dalis darbo jėgos yra perkeliama į skurdžius pasaulio regionus, kur darbo ieško daugybė išsilavinusių žmonių. Kinijos vyriausybė bendradarbiauja su technologijų įmonėmis, tokiomis, kaip „Alibaba“ ir „JD.com“, kad anotavimo darbai būtų prieinami atokiausiuose šalies regionuose. Indijoje IT pramonės organizacija „Nasscom“ mano, kad iki 2030 m. anotavimo pajamos gali siekti 7 mlrd. dolerių per metus ir įdarbinti 1 mln. žmonių. Tai reikšminga, nes visa Indijos IT pramonė siekia 254 mlrd. dolerių per metus (įskaitant techninę įrangą) ir joje dirba 5,5 mln. žmonių.

 

Anotuotojai jau seniai lyginami su tėvais, modelių mokymui ir padedančiais jiems suprasti pasaulį. Tačiau naujausiems modeliams jų vadovavimo nereikia tiek pat. Ar technologijoms tobulėjant, jos mokytojai tampa nereikalingi?

 

Duomenų anotavimas nėra naujiena. Fei Fei Li, amerikiečių kompiuterių mokslininkė, žinoma kaip „krikštamotė“ „iš dirbtinio intelekto“ laikoma pramonės pradininke 2000-ųjų viduryje, kai sukūrė „ImageNet“ – didžiausią tuo metu vaizdų duomenų rinkinį. Ponia Li suprato, kad jei mokėtų studentams už vaizdų kategorizavimą, kaip tuo metu darydavo dauguma tyrėjų, užduotis užtruktų 90 metų. Vietoj to, ji samdė darbuotojus visame pasaulyje, naudodama „Mechanical Turk“ – internetinę laisvai samdomo darbo platformą, kurią valdo „Amazon“. Per dvejus su puse metų ji sutvarkė apie 3,2 mln. vaizdų į duomenų rinkinį. Netrukus kitos dirbtinio intelekto laboratorijos taip pat perdavė anotavimo darbą išorės rangovams.

 

Laikui bėgant, kūrėjams atsibodo žemos kokybės anotacijos, kurias laisvai samdomo darbo vietose atliko neapmokyti darbuotojai. Atsirado dirbtinio intelekto duomenų įmonės, tokios, kaip „Sama“ ir „iMerit“. Jos samdė darbuotojus visame neturtingame pasaulyje. Neoficialus anotavimo darbas tęsėsi, tačiau atsirado specializuotos platformos dirbtinio intelekto darbui, pavyzdžiui, „Scale AI“ valdomos platformos, kurios testuoja ir apmoko darbuotojus. Pasaulio bankas mano, kad nuo 4,4 % iki 12,4 % pasaulio darbo jėgos užsiima laisvai samdomu darbu, įskaitant anotacijas dirbtiniam intelektui. Krystal Kauffman, Mičigano gyventoja, kuri jau dešimtmetį dirba su duomenimis internete ir mano, kad technologijų įmonės yra suinteresuotos nuslėpti šią darbo jėgą. „Jos parduoda magiją – idėją, kad visi šie dalykai vyksta savaime“, – sako ponia Kauffman. „Be magijos dalies, DI yra tik dar vienas produktas.“

 

Pramonėje diskutuojama apie tai, kaip elgiamasi su DI darbuotojais. Įmonės nenoriai dalijasi informacija apie atlyginimus. Tačiau Amerikos komentatoriai paprastai mano, kad 10–20 dolerių per valandą yra tinkamas atlyginimas internetinėse platformose. Skurdžių šalių gyventojai dažnai gauna 4–8 dolerių per valandą. Daugelis privalo naudoti stebėjimo įrankius, kurie seka jų kompiuterinę veiklą, ir yra baudžiami už lėtą veikimą. „Scale AI“ buvo iškelta keletas ieškinių dėl savo įdarbinimo praktikos. Įmonė neigia padariusi pažeidimus ir teigia: „Mes planuojame energingai gintis.“

 

Tačiau didesnė problema yra ta, kad pagrindinis anotacijų darbas senka. Iš dalies tai buvo neišvengiama. Jei dirbtinis intelektas (DI) kažkada buvo mažylis, kuriam reikėjo tėvų, kurie atkreiptų dėmesį ir padėtų suprasti, jį supantį, pasaulį, ši technologija išaugo į paauglį, kuriam retkarčiais reikia specialistų patarimų. DI laboratorijos vis dažniau naudoja iš anksto pažymėtus duomenis iš kitų DI laboratorijų, kurios naudoja algoritmus žymėjimui duomenų rinkiniams priskirti.

 

Paimkime, pavyzdžiui, savaeigius traktorius, kuriuos sukūrė „Blue River Technology“, žemės ūkio įrangos milžinės „John Deere“ dukterinė įmonė. Prieš trejus metus grupės inžinieriai Amerikoje įkeldavo dirbamos žemės nuotraukas į debesį ir teikdavo „iMerit“ darbuotojams Hubli mieste, Indijoje, išsamias instrukcijas, ką žymėti: traktorius, pastatus, drėkinimo įrangą. Dabar kūrėjai naudoja iš anksto pažymėtus duomenis. Jiems vis dar reikia „iMerit“ IT darbuotojams patikrinti tą ženklinimą ir spręsti „kraštutinius atvejus“, pavyzdžiui, kai dulkių debesis uždengia dalį kraštovaizdžio arba medis meta šešėlį ant pasėlių, taip supainiodamas modelį. Procesas, kuris trukdavo mėnesius, dabar trunka savaites.

 

 

Nuo mažų žingsnelių

 

 

Naujausia dirbtinio intelekto modelių banga dramatiškiau pakeitė duomenų tvarkymą. Nuo 2022 m., kai „OpenAI“ pirmą kartą leido visuomenei išbandyti savo pokalbių robotą „ChatGPT“, smarkiai išaugo susidomėjimas dideliais kalbų modeliais. Tyrimų bendrovės „Pitchbook“ duomenys rodo, kad pasaulinis rizikos kapitalo finansavimas dirbtinio intelekto startuoliams 2024 m. išaugo daugiau, nei 50 %, ir pasiekė 131,5 mlrd. JAV dolerių, net ir tuo metu, kai kitų startuolių finansavimas sumažėjo. Didžioji jo dalis skiriama naujesnėms dirbtinio intelekto kūrimo technikoms, kurioms nereikia duomenų anotavimo tokiu pačiu būdu. Iva Gumnishka iš socialinės įmonės „Humans in the Loop“ teigia, kad įmonės, atliekančios žemos kvalifikacijos anotacijas senesniems kompiuterinio matymo ir natūralios kalbos apdorojimo klientams, yra „paliekamos nuošalyje“.

 

 

Anotatorių paklausa vis dar yra, tačiau jų darbas pasikeitė. Įmonėms pradėjus diegti dirbtinį intelektą, jos kuria mažesnius specializuotus modelius ir ieško aukštos kvalifikacijos anotatorių, kurie galėtų padėti. Gana įprasta, kad anotavimo darbo skelbimuose reikalaujama daktaro laipsnio arba programavimo ir mokslo įgūdžių. Dabar, kai tyrėjai stengiasi, kad dirbtinis intelektas būtų daugiakalbis, auga ir anotatorių, kalbančių ne tik anglų, paklausa. Sushovanas Dasas, odontologas, dirbantis su medicininio dirbtinio intelekto projektais „iMerit“, mano, kad anotavimo darbas niekada neišnyks. „Šis pasaulis nuolat kinta“, – sako jis. „Todėl dirbtinį intelektą reikia nuolat tobulinti.“

 

Atsiranda naujų vaidmenų, žmonėms mokant dirbtinį intelektą. Tyrimų įmonė „Epoch AI“ mano, kad iki 2026 m. gali būti išeikvotos aukštos kokybės teksto atsargos, skirtos mokymams. Kai kurios dirbtinio intelekto laboratorijos samdo žmones, kad šie rašytų teksto dalis ir kodo eilutes, su kuriomis galima mokyti modelius. Kitos perka sintetinius duomenis, sukurtus, naudojant kompiuterinius algoritmus, ir samdo žmones, kad juos patikrintų. „Sintetiniai duomenys vis tiek turi būti geri duomenys“, – sako Wendy Gonzalez, „Sama“, kurios veikla vykdoma Rytų Afrikoje, vadovė.

 

Kitas darbuotojų vaidmuo – vertinti modelių rezultatus ir padėti juos suformuoti. Būtent tai lėmė, kad „ChatGPT“ veikė geriau, nei ankstesni pokalbių robotai. Xiaote Zhu iš „Scale AI“ pateikia atvirojo tipo užduočių, atliekamų įmonės „Outlier“ platformoje, kuri buvo paleista 2023 m., siekiant palengvinti DI mokymą ekspertams, pavyzdį. Darbuotojams pateikiami du pokalbių roboto atsakymai, rekomenduojantys atostogų į Maldyvus maršrutą. Jie turi pasirinkti, kurį atsakymą nori, jį įvertinti, paaiškinti, kodėl atsakymas yra geras arba blogas, o tada perrašyti atsakymą, kad jį patobulintų.

 

Ponia Zhu pateiktas pavyzdys yra gana absurdiškas. Tačiau žmonių atsiliepimai taip pat yra labai svarbūs, siekiant užtikrinti DI saugumą ir etiką. Dokumente, kuris buvo paskelbtas po „ChatGPT“ paleidimo 2022 m., „OpenAI“ teigė, kad pasamdė ekspertus, kad šie „kokybiškai ištirtų, prieštaringomis sąlygomis atliktų testus ir apskritai pateiktų atsiliepimus“ apie savo modelius. Pasibaigus šiam procesui, modelis atsisakė reaguoti į tam tikrus raginimus, pavyzdžiui, prašymus rašyti socialinės žiniasklaidos turinį, kuriuo siekiama įtikinti žmones prisijungti prie teroristinės grupuotės „al-Qaeda“.

 

Skraidymas iš lizdo

 

Jei dirbtinio intelekto kūrėjai galėtų daryti tai, ko nori, jiems visiškai nereikėtų tokio žmogaus indėlio. Tyrimai rodo, kad net 80 % dirbtinio intelekto kūrimui skirto laiko skiriama duomenų apdorojimui. Naveenas Rao iš dirbtinio intelekto įmonės „Databricks“ sako, kad norėtų, jog modeliai mokytųsi patys, kaip norėtų, kad tai darytų jo paties vaikai. „Noriu ugdyti savarankiškus žmones“, – sako jis. „Noriu, kad jie turėtų savo smalsumą ir suprastų, kaip spręsti problemas. Nenoriu jiems kiekviename žingsnyje duoti žinias šaukštu.“

 

Daug džiaugsmo kelia neprižiūrimas mokymasis, kai modeliams tiekiami nepažymėti duomenys, ir sustiprinimo mokymasis, kai naudojamas bandymų ir klaidų metodas sprendimų priėmimui pagerinti. Dirbtinio intelekto įmonės, įskaitant „Google DeepMind“, apmokė mašinas laimėti tokiuose žaidimuose, kaip „Go“ ir šachmatai, žaisdamos milijonus rungtynių prieš save ir stebėdamos, kurios strategijos veikia, be jokio žmogaus įsikišimo. Tačiau šis savamokslis metodas neveikia už matematikos ir mokslo ribų, bent jau kol kas.

 

Technologijų mėgėjai visame pasaulyje buvo priblokšti, koks pigus ir efektyvus yra „DeepSeek“ modelis. Tačiau juos mažiau sužavėjo „DeepSeek“ bandymas apmokyti dirbtinį intelektą naudojant kompiuterių, o ne žmonių generuojamą grįžtamąjį ryšį. Modelis sunkiai atsakė į atvirus klausimus, pateikdamas nesuprantamas kalbas įvairiomis kalbomis. „Skirtumas tas, kad žaidžiant „Go“ ir šachmatais norimas rezultatas yra visiškai aiškus: laimėti žaidimą“, – sako Phelimas Bradley, kitos dirbtinio intelekto duomenų įmonės „Prolific“ bendraįkūrėjas. „Dideli kalbų modeliai yra sudėtingesni ir platesnio masto, todėl žmonės ilgai išliks įvykių sūkuryje.“

 

Ponas Bradley, kaip ir daugelis technologijų specialistų, mano, kad Į dirbtinio intelekto mokymą reikės įsitraukti daugiau žmonių, o ne mažiau. Darbo jėgos įvairovė yra svarbi. Kai prieš kelerius metus buvo išleista „ChatGPT“, žmonės pastebėjo, kad jame per daug vartojamas žodis „delve“. Šis žodis imtas laikyti „DI-ese“ – iškalbingu ženklu, kad tekstą parašė robotas. Iš tiesų, modeliui apmokyti buvo pasamdyti komentatoriai Afrikoje, o žodis „delve“ dažniau vartojamas afrikietiškoje anglų kalboje, nei amerikietiškoje ar britiškoje anglų kalboje. Kaip ir darbuotojų įgūdžiai bei žinios perkeliami į modelius, taip pat perkeliamas ir jų žodynas. Pasirodo, vaikui užauginti reikia daugiau, nei vieno kaimo.“ [1]

 

 

1. Humans in the loop. The Economist; London Vol. 455, Iss. 9443,  (Apr 12, 2025): 53, 54.

Komentarų nėra: