Sekėjai

Ieškoti šiame dienoraštyje

2024 m. liepos 19 d., penktadienis

Duomenys, įgalinantys dirbtinį intelektą, greitai nyksta

„Naujas „Data Provenance Initiative“ tyrimas atskleidė dramatišką turinio sumažėjimą, prieinamą kolekcijoms, naudojamoms dirbtiniam intelektui (A.I.) kurti.

 

 Daugelį metų žmonės, kuriantys galingas dirbtinio intelekto sistemas, naudojo didžiulius teksto, vaizdų ir vaizdo įrašų kiekius, paimtus iš interneto, norėdami apmokyti savo modelius.

 

 Dabar šie duomenys išdžiūsta.

 

 Per pastaruosius metus daugelis svarbiausių interneto šaltinių, naudotų, mokant A.I. modelius, apribojo savo duomenų naudojimą, rodo šią savaitę M.I.T. vadovaujamos tyrimų grupės „Data Provenance Initiative“ paskelbtas tyrimas.

 

 Tyrimas, kurio metu buvo nagrinėjama 14 000 žiniatinklio domenų, įtrauktų į tris dažniausiai naudojamus A.I. mokymo duomenų rinkinius, atrado „kylančią sutikimo krizę“, nes leidėjai ir internetinės platformos ėmėsi veiksmų, kad jų duomenys nebūtų renkami.

 

 Tyrėjai apskaičiavo, kad trijuose duomenų rinkiniuose, vadinamuose C4, RefinedWeb ir Dolma, 5 procentai visų duomenų ir 25 procentai duomenų iš aukščiausios kokybės šaltinių buvo apriboti. Šie apribojimai nustatyti, naudojant robotų išskyrimo protokolą – dešimtmečių senumo metodą, skirtą svetainių savininkams neleisti automatizuotiems robotams tikrinti jų puslapius, naudojant failą robots.txt.

 

 Tyrimas taip pat parodė, kad net 45 procentai duomenų viename rinkinyje, C4, buvo apriboti svetainių paslaugų teikimo sąlygų.

 

 „Matome, kad greitai mažėja sutikimas naudoti duomenis visame žiniatinklyje, o tai turės pasekmių ne tik A.I. įmonėms, bet tyrėjams, akademikams ir nekomerciniams subjektams“, – interviu sakė Shayne'as Longpre, tyrimo pagrindinis autorius.

 

 Duomenys yra pagrindinė šių dienų generatyvaus A.I sudedamoji dalis. Tai dalis sistemos, kurioje pateikiama milijardai teksto, vaizdų ir vaizdo įrašų pavyzdžių. Didžiąją dalį tų duomenų tyrėjai ištraukia iš viešųjų svetainių ir kaupia dideliais duomenų rinkiniais, kuriuos galima atsisiųsti ir laisvai naudoti arba papildyti duomenimis iš kitų šaltinių.

 

 Mokymasis iš tų duomenų leidžia generuoti A.I. įrankius, tokius, kaip OpenAI ChatGPT, Google Gemini ir Anthropic Claude, skirtus rašyti, koduoti ir generuoti vaizdus bei vaizdo įrašus. Kuo daugiau aukštos kokybės duomenų įvedama į šiuos modelius, tuo geresnė jų išvestis.

 

 Daugelį metų A.I. kūrėjai galėjo gana lengvai surinkti duomenis. Tačiau generatyvaus A.I. pastarųjų kelerių metų bumas sukėlė įtampą su tų duomenų savininkais – daugelis iš jų nerimauja dėl to, kad bus naudojami kaip A.I. dresūros pašaras, ar bent jau nori gauti už tai atlyginimą.

 

 Didėjant reakcijai, kai kurie leidėjai nustatė mokamas sieneles arba pakeitė paslaugų teikimo sąlygas, kad apribotų savo duomenų naudojimą A.I. mokymams. Kiti blokavo automatines žiniatinklio tikrinimo programas, kurias naudoja tokios įmonės, kaip „OpenAI“, „Anthropic“ ir „Google“.

 

 Tokios svetainės, kaip „Reddit“ ir „StackOverflow“ pradėjo apmokestinti A.I. kompanijas dėl prieigos prie duomenų, o keli leidėjai ėmėsi teisinių veiksmų, įskaitant „The New York Times“, kuris praėjusiais metais padavė į teismą OpenAI ir „Microsoft“ dėl autorių teisių pažeidimo, teigdamas, kad bendrovės naudojo naujienų straipsnius, kad mokytų savo modelius be leidimo.

 

 Tokios įmonės, kaip „OpenAI“, „Google“ ir „Meta“ pastaraisiais metais labai stengėsi surinkti daugiau duomenų, kad patobulintų savo sistemas, įskaitant „YouTube“ vaizdo įrašų perrašymą ir savo duomenų politikos pakeitimą.

 

 Visai neseniai kai kurios A.I. įmonės sudarė sandorius su leidėjais, įskaitant „The Associated Press“ ir „News Corp“, „The Wall Street Journal“ savininką, suteikiant joms nuolatinę prieigą prie jų turinio.

 

 Tačiau plačiai paplitę duomenų apribojimai gali kelti grėsmę A.I. įmonėms, kurioms reikalingas nuolatinis aukštos kokybės duomenų tiekimas, kad jų modeliai būtų nauji ir atnaujinami.

 

 Jie taip pat gali sukelti problemų mažesniems A.I. veikėjams ir akademiniams tyrėjams, kurie remiasi viešais duomenų rinkiniais ir negali sau leisti licencijuoti duomenų tiesiogiai iš leidėjų. „Common Crawl“, vienas iš tokių duomenų rinkinių, apimančių milijardus žiniatinklio turinio puslapių ir kurį tvarko ne pelno organizacija, buvo paminėtas daugiau, nei 10 000 akademinių tyrimų, sakė P. Longpre.

 

 Neaišku, kurie populiarūs A.I. produktai buvo mokomi apie šiuos šaltinius, nes tik nedaugelis kūrėjų atskleidžia visą naudojamų duomenų sąrašą. Tačiau duomenų rinkinius, gautus iš „Common Crawl“, įskaitant C4 (kuris reiškia Colossal, Cleaned Crawled Corpus), naudojo įmonės, įskaitant „Google“ ir „OpenAI“, kad apmokytų ankstesnes savo modelių versijas. 

 

„Google“ ir „OpenAI“ atstovai atsisakė komentuoti.

 

 Yacine Jernite, mašininio mokymosi tyrinėtoja iš Hugging Face, įmonės, teikiančios įrankius ir duomenis A.I. kūrėjai sutikimo krizę apibūdino, kaip natūralų atsaką į A.I. pramonės agresyvios duomenų rinkimo praktikos.

 

 „Nenuostabu, kad matome, kad duomenų kūrėjai atsiliepia po to, kai tekstai, vaizdai ir vaizdo įrašai, kuriais jie dalinosi internete, yra naudojami, kuriant komercines sistemas, kurios kartais kelia tiesioginę grėsmę jų pragyvenimui“, – sakė jis.

 

 Tačiau ji perspėjo, kad jei visus, A.I. reikalingus, duomenis reikia gauti, sudarant licencijavimo sandorius, „tyrėjams ir pilietinei visuomenei nebūtų leidžiama dalyvauti technologijų valdyme“.

 

 Stella Biderman, EleutherAI, ne pelno siekiančios A.I., vykdomoji direktorėpakartojo tas baimes.

 

 „Didžiosios technologijų įmonės jau turi visus duomenis“, – sakė ji. „Pakeitus duomenų licenciją, tas leidimas atgaline data neatšaukiamas, o pagrindinis poveikis yra vėliau atvykstantiems veikėjams, kurie paprastai yra mažesnės pradedančios įmonės arba mokslininkai."

 

 A.I. įmonės teigė, kad jų viešųjų žiniatinklio duomenų naudojimas yra teisiškai apsaugotas pagal sąžiningą naudojimą. Tačiau naujų duomenų rinkimas tapo sudėtingesnis. Kai kurie A.I. vadovai, su kuriais kalbėjau, nerimauja dėl atsitrenkimo į „duomenų sieną“ – jų terminas, kai išnaudojami visi viešajame internete esantys mokymo duomenys, o likusieji buvo paslėpti už mokamų sienų, užblokuoti robots.txt arba užsidarę išskirtiniais pasiūlymais.

 

 Kai kurios įmonės mano, kad gali padidinti duomenų sienelės mastelį, naudodamos sintetinius duomenis, ty duomenis, kuriuos pati generuoja A.I. sistemos — kad mokyti savo modelius. Tačiau daugelis tyrinėtojų abejoja, ar šiandieninis A.I. sistemos gali generuoti pakankamai aukštos kokybės sintetinių duomenų, kad pakeistų žmonių sukurtus duomenis, kuriuos jos praranda.

 

 Kitas iššūkis yra tai, kad, kai leidėjai gali bandyti sustabdyti A.I. įmones, neleisdami rinkti savo duomenų, taikydami apribojimus savo robots.txt failais, šios užklausos nėra teisiškai įpareigojančios, o jų laikymasis yra savanoriškas. (Pagalvokite apie tai kaip apie duomenų ženklą „įžengti draudžiama“, bet neturintį įstatymo jėgos.)

 

 Pagrindiniai paieškos varikliai patenkina šias atsisakymo užklausas, o keletas pirmaujančių A.I. bendrovės, įskaitant „OpenAI“ ir „Anthropic“, taip pat viešai pasakė tai darysiančios. Tačiau kitos bendrovės, įskaitant A.I. varomą paieškos variklį „Perplexity“, buvo apkaltintos jų ignoravimu. „Perplexity“ generalinis direktorius Aravindas Srinivasas man pasakė, kad bendrovė laikosi leidėjų duomenų apribojimų. Jis pridūrė, kad nors bendrovė kažkada dirbo su trečiųjų šalių žiniatinklio tikrinimo programomis, kurios ne visada laikėsi robotų išskyrimo protokolo, ji „padarė pakeitimus su mūsų teikėjais, kad užtikrintų, jog jie sektų robots.txt, kai tikrina Perplexity vardu“.

 

 P. Longpre teigė, kad vienas iš didžiausių tyrimo aspektų yra tai, kad mums reikia naujų įrankių, kad svetainių savininkai galėtų tiksliau kontroliuoti savo duomenų naudojimą. Kai kurios svetainės gali prieštarauti, jog A.I. milžinai naudoja svetainių duomenis pokalbių robotams mokyti, siekdami pelno, tačiau gali būti pasirengę leisti tuos pačius duomenis naudoti, ne pelno siekiančiai, arba švietimo įstaigai. Šiuo metu jiems nėra tinkamo būdo atskirti tuos naudojimo būdus arba blokuoti vieną ir leisti kitą.

 

 Tačiau čia taip pat yra pamoka dideliam A.I. įmonių skaičiui, įmonių, kurios daugelį metų internetą traktavo, kaip neribotą duomenų bufetą, nesuteikdamos tų duomenų savininkams didelės vertės mainais. Galų gale, jei taip pasinaudosite žiniatinklio privalumais, žiniatinklis pradės uždarinėti duris." [1]

 

1. The Data That Powers A.I. Is Disappearing Fast: The shift. Roose, Kevin.  New York Times (Online) New York Times Company. Jul 19, 2024.

Komentarų nėra: