„Projekto vadovas
teigia, kad leidimas kiekvienam pasiekti viešojo domeno knygų kolekciją padės
„išlyginti sąlygas“ dirbtinio intelekto (AI) pramonėje.
Harvardo
universitetas ketvirtadienį paskelbė išleidžiantis aukštos kokybės duomenų
rinkinį, sudarytą iš beveik 1 milijono viešojo domeno knygų, kurias bet kas
galėtų naudoti mokydamas didelius kalbos modelius ir kitus AI įrankius. Duomenų
rinkinį sukūrė naujai suformuota Harvardo Institucinių duomenų iniciatyva,
finansuojant ir „Microsoft“, ir „OpenAI“. Jame yra knygų, nuskaitytų vykdant
„Google“ knygų projektą, kurios nebėra saugomos autorių teisių.
Maždaug penkis kartus
didesnis už, liūdnai pagarsėjusį, Books3 duomenų rinkinį, kuris buvo naudojamas
dirbtinio intelekto modeliams, pvz., Metos Llama, mokyti, Institucinių duomenų
iniciatyvos duomenų bazė apima žanrus, dešimtmečius ir kalbas, o klasika iš
Shakespeare'o, Charleso Dickenso ir Dantės įtraukta kartu su neaiškiais čekų
matematikos vadovėliais. ir valų kalbos kišeniniais žodynais. Gregas Leppertas,
Institucinių duomenų iniciatyvos vykdomasis direktorius, sako, kad šis
projektas yra bandymas „išlyginti sąlygas“, suteikiant plačiajai visuomenei,
įskaitant mažus AI pramonės dalyvius ir pavienius tyrėjus, prieigą prie labai
patobulintos ir kuruojamos turinio saugyklos, kokias paprastai surinkti gali tik
įsitvirtinę technologijų milžinai. „Tai buvo kruopščiai peržiūrėta“, - sako
jis.
Leppertas mano, kad
naujoji viešojo domeno duomenų bazė galėtų būti naudojama kartu su kitomis
licencijuotomis medžiagomis dirbtinio intelekto modeliams kurti. „Manau, kad
tai panašu į tai, kaip Linux tapo pagrindine operacine sistema daugeliui
pasaulio“, – sako jis ir pažymi, kad įmonėms vis tiek reikės naudoti papildomus
mokymo duomenis, kad atskirtų jų modelius nuo konkurentų modelių.
Burtonas Davisas,
„Microsoft“ viceprezidentas ir generalinio advokato pavaduotojas intelektinės
nuosavybės klausimais, pabrėžė, kad bendrovės parama projektui atitiko
platesnius jos įsitikinimus apie „prieinamų duomenų telkinių“, skirtų dirbtinio
intelekto įmonėms, kūrimo vertę, kuri yra „valdoma visuomenės interesais“.
Kitaip tariant, „Microsoft“ nebūtinai planuoja pakeisti visus AI mokymo
duomenis, kuriuos ji naudojo savo modeliuose, su viešojo domeno alternatyvomis,
tokiomis, kaip knygos naujoje Harvardo duomenų bazėje. "Mes naudojame
viešai prieinamus duomenis mūsų modelių mokymui", - sako Davis.
Tomas Rubinas, OpenAI
intelektinės nuosavybės ir turinio vadovas, apibūdino jo bendrovę kaip „gaunančią
malonumo“, galint paremti šį projektą.
Daugybė ieškinių,
pateiktų dėl autorių teisių saugomų duomenų naudojimo, lavinant dirbtinį
intelektą, sklinda teismuose, dirbtinio intelekto įrankių kūrimo ateitis kabo
ant plauko. Jei dirbtinio intelekto įmonės laimės jų bylas, jos galės ir
toliau naršyti internetą nesudarant licencijavimo sutarčių su autorių teisių
turėtojais. Tačiau jei jos pralaimės, dirbtinio intelekto įmonės gali būti
priverstos peržiūrėti jų modelių gamybą. Tokių projektų, kaip Harvardo
duomenų bazė, banga plinta į priekį, darant prielaidą, kad, kad ir kas nutiktų,
bus apetitas viešiesiems duomenų rinkiniams.
Be daugybės knygų,
Institucinių duomenų iniciatyva taip pat bendradarbiauja su Bostono viešąja
biblioteka, siekdama nuskaityti milijonus straipsnių iš įvairių laikraščių,
kurie dabar yra viešai prieinami, ir teigia, kad yra atvira panašiam
bendradarbiavimui. Tikslus knygų duomenų rinkinio išleidimo būdas nenustatytas.
Institucinių duomenų iniciatyva paprašė „Google“ bendradarbiauti, viešai
platinant, tačiau detalės vis dar aiškinamos. Savo pranešime Kentas Walkeris,
„Google“ pasaulinių reikalų prezidentas, teigė, kad bendrovė „didžiuojasi
galėdama palaikyti“ projektą.
Nepaisant to, kad IDI
duomenų rinkinys bus išleistas, jis prisijungs prie daugybės panašių projektų,
startuolių ir iniciatyvų, kurios žada suteikti įmonėms prieigą prie svarbios ir
aukštos kokybės AI mokymo medžiagos, nerizikuojant susidurti su autorių teisių
problemomis. Tokios įmonės, kaip „Calliope Networks“ ir „ProRata“ išduoda
licencijas ir valdo kompensavimo schemas, skirtas kūrėjams ir teisių turėtojams
sumokėti už AI mokymo duomenų teikimą.
Taip pat yra ir kitų
naujų viešųjų projektų. Praėjusį pavasarį prancūzų AI startuolis „Pleias“
išleido savo viešojo domeno duomenų rinkinį „Common Corpus“, kuriame yra
maždaug 3–4 milijonai knygų ir periodinių leidinių kolekcijų, teigia projekto
koordinatorius Pierre'as-Carl'as Langlais. Prancūzijos kultūros ministerijos
remiamas „Common Corpus“ vien šį mėnesį buvo atsisiųstas daugiau nei 60 000
kartų iš atvirojo kodo AI platformos „Hugging Face“. Praėjusią savaitę Pleias
paskelbė, kad išleidžia savo pirmąjį didelių kalbos modelių rinkinį, parengtą,
naudojant šį duomenų rinkinį. Langlais sakė, kad WIRED yra pirmieji modeliai,
„kurie kada nors buvo mokomi tik atvirų duomenų pagrindu ir atitinka [ES] AI
Aktą.
Taip pat stengiamasi sukurti panašių vaizdų duomenų
rinkinius. AI startuolis Spawning šią vasarą išleido savo „Source.Plus“,
kuriame yra viešųjų vaizdų iš „Wikimedia Commons“, taip pat įvairių muziejų ir
archyvų. Kelios svarbios kultūros institucijos jau seniai padarė savo archyvus
prieinamus visuomenei, kaip atskirus projektus, pavyzdžiui, Metropoliteno meno
muziejų Niujorke.
Edas Newtonas-Rexas,
buvęs „Stability AI“ vadovas, dabar vadovaujantis ne pelno siekiančiai
organizacijai, kuri sertifikuoja etiškai parengtus AI įrankius, teigia, kad šių
duomenų rinkinių atsiradimas rodo, kad nereikia vogti autorių teisių saugomos
medžiagos kuriant našius ir kokybiškus AI modelius.
Komentarų nėra:
Rašyti komentarą