Sekėjai

Ieškoti šiame dienoraštyje

2024 m. gruodžio 26 d., ketvirtadienis

Harvardas išleidžia didžiulį nemokamą dirbtinio intelekto mokymo duomenų rinkinį, finansuojamą „OpenAI“ ir „Microsoft“


 „Projekto vadovas teigia, kad leidimas kiekvienam pasiekti viešojo domeno knygų kolekciją padės „išlyginti sąlygas“ dirbtinio intelekto (AI) pramonėje.

 

 

 

 Harvardo universitetas ketvirtadienį paskelbė išleidžiantis aukštos kokybės duomenų rinkinį, sudarytą iš beveik 1 milijono viešojo domeno knygų, kurias bet kas galėtų naudoti mokydamas didelius kalbos modelius ir kitus AI įrankius. Duomenų rinkinį sukūrė naujai suformuota Harvardo Institucinių duomenų iniciatyva, finansuojant ir „Microsoft“, ir „OpenAI“. Jame yra knygų, nuskaitytų vykdant „Google“ knygų projektą, kurios nebėra saugomos autorių teisių.

 

 

 

 Maždaug penkis kartus didesnis už, liūdnai pagarsėjusį, Books3 duomenų rinkinį, kuris buvo naudojamas dirbtinio intelekto modeliams, pvz., Metos Llama, mokyti, Institucinių duomenų iniciatyvos duomenų bazė apima žanrus, dešimtmečius ir kalbas, o klasika iš Shakespeare'o, Charleso Dickenso ir Dantės įtraukta kartu su neaiškiais čekų matematikos vadovėliais. ir valų kalbos kišeniniais žodynais. Gregas Leppertas, Institucinių duomenų iniciatyvos vykdomasis direktorius, sako, kad šis projektas yra bandymas „išlyginti sąlygas“, suteikiant plačiajai visuomenei, įskaitant mažus AI pramonės dalyvius ir pavienius tyrėjus, prieigą prie labai patobulintos ir kuruojamos turinio saugyklos, kokias paprastai surinkti gali tik įsitvirtinę technologijų milžinai. „Tai buvo kruopščiai peržiūrėta“, - sako jis.

 

 

 

 Leppertas mano, kad naujoji viešojo domeno duomenų bazė galėtų būti naudojama kartu su kitomis licencijuotomis medžiagomis dirbtinio intelekto modeliams kurti. „Manau, kad tai panašu į tai, kaip Linux tapo pagrindine operacine sistema daugeliui pasaulio“, – sako jis ir pažymi, kad įmonėms vis tiek reikės naudoti papildomus mokymo duomenis, kad atskirtų jų modelius nuo konkurentų modelių.

 

 

 

 Burtonas Davisas, „Microsoft“ viceprezidentas ir generalinio advokato pavaduotojas intelektinės nuosavybės klausimais, pabrėžė, kad bendrovės parama projektui atitiko platesnius jos įsitikinimus apie „prieinamų duomenų telkinių“, skirtų dirbtinio intelekto įmonėms, kūrimo vertę, kuri yra „valdoma visuomenės interesais“. Kitaip tariant, „Microsoft“ nebūtinai planuoja pakeisti visus AI mokymo duomenis, kuriuos ji naudojo savo modeliuose, su viešojo domeno alternatyvomis, tokiomis, kaip knygos naujoje Harvardo duomenų bazėje. "Mes naudojame viešai prieinamus duomenis mūsų modelių mokymui", - sako Davis.

 

 

 

 Tomas Rubinas, OpenAI intelektinės nuosavybės ir turinio vadovas, apibūdino jo bendrovę kaip „gaunančią malonumo“, galint paremti šį projektą.

 

 

 

 Daugybė ieškinių, pateiktų dėl autorių teisių saugomų duomenų naudojimo, lavinant dirbtinį intelektą, sklinda teismuose, dirbtinio intelekto įrankių kūrimo ateitis kabo ant plauko. Jei dirbtinio intelekto įmonės laimės jų bylas, jos galės ir toliau naršyti internetą nesudarant licencijavimo sutarčių su autorių teisių turėtojais. Tačiau jei jos pralaimės, dirbtinio intelekto įmonės gali būti priverstos peržiūrėti jų modelių gamybą. Tokių projektų, kaip Harvardo duomenų bazė, banga plinta į priekį, darant prielaidą, kad, kad ir kas nutiktų, bus apetitas viešiesiems duomenų rinkiniams.

 

 

 

 Be daugybės knygų, Institucinių duomenų iniciatyva taip pat bendradarbiauja su Bostono viešąja biblioteka, siekdama nuskaityti milijonus straipsnių iš įvairių laikraščių, kurie dabar yra viešai prieinami, ir teigia, kad yra atvira panašiam bendradarbiavimui. Tikslus knygų duomenų rinkinio išleidimo būdas nenustatytas. Institucinių duomenų iniciatyva paprašė „Google“ bendradarbiauti, viešai platinant, tačiau detalės vis dar aiškinamos. Savo pranešime Kentas Walkeris, „Google“ pasaulinių reikalų prezidentas, teigė, kad bendrovė „didžiuojasi galėdama palaikyti“ projektą.

 

 

 

 Nepaisant to, kad IDI duomenų rinkinys bus išleistas, jis prisijungs prie daugybės panašių projektų, startuolių ir iniciatyvų, kurios žada suteikti įmonėms prieigą prie svarbios ir aukštos kokybės AI mokymo medžiagos, nerizikuojant susidurti su autorių teisių problemomis. Tokios įmonės, kaip „Calliope Networks“ ir „ProRata“ išduoda licencijas ir valdo kompensavimo schemas, skirtas kūrėjams ir teisių turėtojams sumokėti už AI mokymo duomenų teikimą.

 

 

 

 Taip pat yra ir kitų naujų viešųjų projektų. Praėjusį pavasarį prancūzų AI startuolis „Pleias“ išleido savo viešojo domeno duomenų rinkinį „Common Corpus“, kuriame yra maždaug 3–4 milijonai knygų ir periodinių leidinių kolekcijų, teigia projekto koordinatorius Pierre'as-Carl'as Langlais. Prancūzijos kultūros ministerijos remiamas „Common Corpus“ vien šį mėnesį buvo atsisiųstas daugiau nei 60 000 kartų iš atvirojo kodo AI platformos „Hugging Face“. Praėjusią savaitę Pleias paskelbė, kad išleidžia savo pirmąjį didelių kalbos modelių rinkinį, parengtą, naudojant šį duomenų rinkinį. Langlais sakė, kad WIRED yra pirmieji modeliai, „kurie kada nors buvo mokomi tik atvirų duomenų pagrindu ir atitinka [ES] AI Aktą.

 

 

Taip pat stengiamasi sukurti panašių vaizdų duomenų rinkinius. AI startuolis Spawning šią vasarą išleido savo „Source.Plus“, kuriame yra viešųjų vaizdų iš „Wikimedia Commons“, taip pat įvairių muziejų ir archyvų. Kelios svarbios kultūros institucijos jau seniai padarė savo archyvus prieinamus visuomenei, kaip atskirus projektus, pavyzdžiui, Metropoliteno meno muziejų Niujorke.

 

 

 

 Edas Newtonas-Rexas, buvęs „Stability AI“ vadovas, dabar vadovaujantis ne pelno siekiančiai organizacijai, kuri sertifikuoja etiškai parengtus AI įrankius, teigia, kad šių duomenų rinkinių atsiradimas rodo, kad nereikia vogti autorių teisių saugomos medžiagos kuriant našius ir kokybiškus AI modelius.

 

 

„OpenAI“ anksčiau sakė Jungtinės Karalystės įstatymų leidėjams, kad būtų „neįmanoma“ sukurti tokius produktus kaip „ChatGPT“, nenaudojant autorių teisių saugomų kūrinių. „Tokie dideli viešojo domeno duomenų rinkiniai, kaip šie, dar labiau griauna „būtinybės gynybą“, kurią kai kurios dirbtinio intelekto įmonės naudoja, siekdamos pateisinti autorių teisių saugomų darbų apsaugos pašalinimą, kad galėtų mokyti jų modelius“, – sako Newtonas-Rexas.

 

 

 

 Tačiau jis vis dar abejoja, ar IDI ir panašūs projektai iš tikrųjų pakeis AI mokymo status quo. „Šie duomenų rinkiniai turės teigiamą poveikį tik tuo atveju, jei jie bus naudojami, tikriausiai, kartu su licencijavimu kitiems duomenims, siekiant pakeisti nubrauktą autorių teisių saugomą darbą. Jei jie bus tiesiog įtraukti į rinkinį, vieną iš duomenų rinkinio, į kurį taip pat įtrauktas nelicencijuotas pasaulio kūrėjų gyvenimo darbas,  jie bus labai naudingi dirbtinio intelekto įmonėms“, – sako jis."


 


Komentarų nėra: