Mokslas, studijos ir ekonomika

2024 m. liepos 27 d., šeštadienis

Duomenų šaltiniai dideliems kalbų modeliams

"2006 m. fei-fei li, tada Ilinojaus universitete, dabar Stanfordo universitete, pamatė, kaip interneto kasyba gali padėti pakeisti AI tyrimus. Kalbos tyrimai nustatė 80 000 "daiktavardžių sinonimų rinkinių" arba sinsetų: sinonimų grupių, kurios Dr Li skaičiavo, kad milijardai vaizdų internete turi pasiūlyti pakankamai jų pavyzdžių, ir jūs turėsite daug daugiau, nei kada nors su tuo dirbantys matė. "Daugelis žmonių atkreipia dėmesį į modelius", - sakė ji. "Atkreipkime dėmesį į duomenis". Rezultatas buvo „ImageNet“.

Internetas suteikė ne tik vaizdus, bet ir išteklius jiems pažymėti. Kai paieškos sistemos pateikdavo nuotraukas, kuriose jie laikomi šunimis, katėmis, kėdėmis ar bet kuo kitu, šiuos vaizdus apžiūrėjo ir komentavo žmonės, įdarbinti per „Amazon“ teikiamą „Mechanical Turk“ paslaugą, kuri leidžia žmonėms užsidirbti pinigų, atliekant kasdienes užduotis. Rezultatas buvo milijonų kuruotų, patikrintų vaizdų duomenų bazė. 2012 m. programa, pavadinta AlexNet, pademonstravo puikų „gilaus mokymosi“ potencialą, ty neuroninių tinklų, turinčių daug daugiau sluoksnių, nei buvo naudojama anksčiau, galimybes. Tai buvo ai bumo ir ženklinimo pramonės, skirtos teikti mokymo duomenis, pradžia.

Vėlesnis didelių kalbų modelių (LLMS) kūrimas taip pat priklausė nuo interneto duomenų, bet kitaip. Klasikinis treniruočių pratimas llm nenuspėja, koks žodis geriausiai apibūdina vaizdo turinį; tai nuspėjimas, koks yra žodis, iškirptas iš teksto dalies, remiantis kitais žodžiais aplink jį.

Tokio pobūdžio mokymuose nereikia žymėtų ir kuruojamų duomenų; sistema gali ištrinti žodžius, spėlioti ir įvertinti savo atsakymus procese, vadinamame „savarankiškai prižiūrimu mokymu“.

Tačiau reikia daug duomenų. Kuo daugiau teksto sistemai pateikiama treniruotėms, tuo ji geresnė.

Atsižvelgiant į tai, kad internetas siūlo šimtus trilijonų teksto žodžių, šiuolaikinė pramonė tapo tokia, kokia atsitiktinai nuosėdose nusėdusios anglies per eonus: kažkas, ką reikia išgryninti į stebuklingą kurą.

„Common Crawl“, daugelio atviro interneto, įskaitant 50 mlrd. tinklalapių, archyvas, buvo plačiai naudojamas dirbtinio intelekto tyrimuose. Naujesni modeliai jį papildė duomenimis iš vis daugiau šaltinių, tokių kaip Books3, plačiai naudojamas tūkstančių knygų rinkinys. Tačiau mašinų potraukis tekstui išaugo tokiu greičiu, kokio negali prilygti internetas. Tyrimų įmonė „Epoch ai“ apskaičiavo, kad iki 2028 m. visos aukštos kokybės tekstinių duomenų atsargos internete bus panaudotos. Pramonėje tai žinoma kaip „duomenų siena“. Kaip susidoroti su šia siena yra vienas iš didžiausių AI klausimų, ir galbūt greičiausiai jis sulėtins AI pažangą.

Vienas iš būdų yra sutelkti dėmesį į duomenų kokybę, o ne kiekybę. ai labs ne tik apmoko savo modelius visame internete. Jie filtruoja ir seka duomenis, kad maksimaliai padidintų, kiek jų modeliai išmoksta. Naveenas Rao iš Databricks, AI firmos, teigia, kad tai yra „pagrindinis skirtumas“ tarp rinkoje esančių AI modelių. Akivaizdu, kad „tikra informacija“ apie pasaulį yra svarbi; taip pat ir daugybė „samprotavimo“. Dėl to, pavyzdžiui, akademiniai vadovėliai yra ypač vertingi. Tačiau pusiausvyros tarp duomenų šaltinių nustatymas tebėra tamsus menas. Be to, svarbu ir tvarka, pagal kurią sistema susiduria su skirtingų tipų duomenimis. Mokymo proceso pabaigoje sudėkite visus duomenis apie vieną temą, pvz., matematiką, ir jūsų modelis gali tapti matematikos specialistu, bet pamiršti kai kurias kitas sąvokas.

Šie svarstymai gali tapti dar sudėtingesni, kai duomenys pateikiami ne tik skirtingomis temomis, bet ir skirtingomis formomis. Iš dalies dėl to, kad trūksta naujų tekstinių duomenų, pirmaujantys modeliai, tokie kaip „Openai“ gpt-4o ir „Google“ „Gemini“, dabar yra paleisti vaizdo, vaizdo ir garso failuose bei tekste, kai mokosi savarankiškai. Vaizdo įrašų mokymas yra sunkiausias, atsižvelgiant į tai, kad vaizdo failai yra tankūs su duomenų taškais. Dabartiniai modeliai paprastai žiūri į kadrų poaibį, kad būtų supaprastinti dalykai.

Kad ir kokie modeliai būtų naudojami, nuosavybės teisė vis dažniau pripažįstama, kaip problema.

Mokymo metu naudojama medžiaga dažnai yra saugoma autorių teisių ir naudojama be teisių turėtojų sutikimo ar nesumokant už tai. Kai kurie AI modeliai žvilgčioja už mokamų sienų. Modelių kūrėjai teigia, kad tokiems dalykams taikoma „sąžiningo naudojimo“ išimtis Amerikos autorių teisių įstatyme. Jie sako, kad ai modeliams turėtų būti leista skaityti autorių teisių saugomą medžiagą, kai jie mokosi, kaip tai gali padaryti žmonės. Tačiau, kaip sakė technologijų analitikas Benedictas Evansas, „masto skirtumas“ gali sukelti „principų skirtumą“.

Skirtingi teisių turėtojai taiko skirtingą taktiką. „Getty Images“ padavė į teismą „Stability ai“, vaizdų kūrimo įmonę, dėl neteisėto jos vaizdų parduotuvės naudojimo. „New York Times“ padavė OpenAI ir Microsoft į teismą dėl milijonų straipsnių autorių teisių pažeidimo. Kiti dokumentai sudarė sandorius dėl jų turinio licencijos. „News Corp“, „Wall Street Journal“ savininkas, per penkerius metus pasirašė 250 mln. dolerių vertės sandorį. (The Economist nepriėmė pozicijos dėl savo santykių su ai įmonėmis.) Tą patį daro ir kiti teksto ir vaizdo įrašų šaltiniai. „Stack Overflow“, kodavimo pagalbos svetainė, „Reddit“, socialinės žiniasklaidos svetainė ir „X“ (buvęs „Twitter“) dabar ima mokestį už prieigą prie savo turinio mokymosi tikslais.

Situacija įvairiose jurisdikcijose skiriasi. Japonija ir Izraelis laikosi labiau leistinos pozicijos, kad propaguoti savo AI pramonę. Europos Sąjunga neturi bendros „sąžiningo naudojimo“ koncepcijos, todėl gali būti griežtesnė. Ten, kur yra sukurtos rinkos, skirtingų tipų duomenys turės skirtingas kainas: modeliams reikės prieigos laiku gauti informaciją iš realaus pasaulio, kad jie būtų atnaujinami.

Modelio galimybes taip pat galima patobulinti, kai savarankiškai prižiūrimo mokymosi būdu sukurta versija, žinoma, kaip iš anksto apmokyta versija, patobulinama naudojant papildomus duomenis po mokymo. Pavyzdžiui, „prižiūrimas koregavimas“ apima žmonių surinktų arba rankomis sukurtų klausimų ir atsakymų porų padavimą modeliui. Tai moko modelius, kaip atrodo geri atsakymai. Kita vertus, „sustiprinimas-mokymasis iš žmogaus grįžtamojo ryšio“ (rlhf) nurodo, ar atsakymas patenkino klausėją (labai kitas dalykas).

rlhf naudotojai pateikia modeliui grįžtamąjį ryšį apie jo išvesties kokybę, kuri vėliau naudojama modelio parametrams arba „svoriams“ koreguoti. Naudotojo sąveika su pokalbių robotais, pvz., nykštys aukštyn arba žemyn, yra ypač naudinga rlhf. Taip sukuriamas tai, ką technikų vadina „duomenų smagračiu“, kuriame daugiau vartotojų gauna daugiau duomenų, kurie padeda sukurti geresnį modelį. ai startuoliai atidžiai stebi, kokius klausimus vartotojai užduoda savo modeliams, o tada renka duomenis, kad pritaikytų modelius tomis temomis.

Padidinkite jo mastelį

Internete išsekus duomenims išankstiniam mokymui, svarbesnis yra treniruotės po mokymo. Ženklinimo įmonės, tokios, kaip Scale ai ir Surge ai, uždirba šimtus milijonų dolerių per metus rinkdamos duomenis, naudojamus po mokymo. „Scale“ neseniai surinko 1 mlrd. dolerių, įvertinta 14 mlrd. dolerių.

Reikalai pasistūmėjo nuo „Mechanical Turk“ laikų: geriausi ženklintojai uždirba iki 100 dolerių per valandą. Tačiau, nors mokymas po mokymo padeda sukurti geresnius modelius ir yra pakankamas daugeliui komercinių programų, galiausiai tai yra tik laipsniškas pagerinimas.

Užuot po truputį grąžinus duomenų sieną atgal, kitas sprendimas būtų visiškai ją peršokti. Vienas iš būdų yra naudoti sintetinius duomenis, kurie yra sukurti mašinomis ir todėl neribojami. Geras pavyzdys yra „Google“ dukterinės įmonės „DeepMind“ sukurtas modelis „AlphaGo Zero“. Pirmasis sėkmingas bendrovės „Go-playing“ modelis buvo parengtas, naudojant duomenis apie milijonus ėjimų iš mėgėjiškų žaidimų. AlphaGo Zero nenaudojo jokių iš anksto esamų duomenų. Vietoj to, jis išmoko „Go“ žaisdamas 4,9 mln. rungtynių prieš save per tris dienas, atkreipdamas dėmesį į pergalių strategijas. Tas „pastiprinimo mokymasis“ išmokė reaguoti į priešininko judesius, imituojant daugybę galimų atsakymų ir pasirenkant tą, kuris turi didžiausią galimybę laimėti.

Panašus metodas galėtų būti naudojamas llms, rašant, tarkime, matematikos įrodymą, žingsnis po žingsnio. LLMS gali sukurti atsakymą, pirmiausia sugeneruodamas daug pirmųjų žingsnių. Atskiras „pagalbininkas“, apmokytas, remiantis žmonių ekspertų duomenimis, siekiant įvertinti kokybę, nustatytų, kuris yra geriausias ir kuriuo verta remtis. Toks AI sukurtas grįžtamasis ryšys yra sintetinių duomenų forma ir gali būti naudojamas tolesniam pirmojo modelio mokymui. Galų gale galite gauti aukštesnės kokybės atsakymą, nei tuo atveju, jei llms atsakytų vienu ypu, ir patobulintą llms. Šis gebėjimas pagerinti produkcijos kokybę, skiriant daugiau laiko mąstymui, yra panašus į lėtesnį, apgalvotą „sistemos 2“ mąstymą žmonėms, kaip aprašyta naujausiame „Openai“ įkūrėjo Andrej Karpathy pokalbyje. Šiuo metu llms naudoja „sistemos 1“ mąstymą, generuodamas atsaką be svarstymo, panašų į žmogaus refleksinį atsaką.

Sunkumai yra išplėsti požiūrį į tokias sritis kaip sveikatos priežiūra ar švietimas. Žaidimuose yra aiškus laimėjimo apibrėžimas ir lengviau rinkti duomenis apie tai, ar ėjimas naudingas. Kitur yra sudėtingiau. Duomenys apie tai, kas yra „geras“ sprendimas, paprastai renkami iš ekspertų. Tačiau tai brangu, užtrunka ir yra tik sulopytas sprendimas. O kaip žinoti, ar konkretus ekspertas teisus?

Akivaizdu, kad prieiga prie daugiau duomenų – tiek iš specialistų šaltinių, tiek sintetinių, tiek žmonių ekspertų pateiktų – yra labai svarbi, norint išlaikyti sparčią dirbtinio intelekto pažangą. Kaip ir naftos telkiniai, labiausiai prieinami duomenų rezervai buvo išeikvoti. Dabar iššūkis yra rasti naujų arba tvarių alternatyvų." [1]

1. Mining the net. The Economist; London Vol. 452, Iss. 9407, (Jul 27, 2024): 59, 60.

Data sources for large language models

"In 2006 fei-fei li, then at the University of Illinois, now at Stanford University, saw how mining the internet might help to transform ai research. Linguistic research had identified 80,000 “noun synonym sets”, or synsets: groups of synonyms that described the same sort of thing. The billions of images on the internet, Dr Li reckoned, must offer hundreds of examples of each synset. Assemble enough of them and you would have an ai training resource far beyond anything the field had ever seen. “A lot of people are paying attention to models,” she said. “Let’s pay attention to data.” The result was ImageNet.

The internet provided not only the images, but also the resources for labelling them. Once search engines had delivered pictures of what they took to be dogs, cats, chairs or whatever, these images were inspected and annotated by humans recruited through Mechanical Turk, a crowdsourcing service provided by Amazon which allows people to earn money by doing mundane tasks. The result was a database of millions of curated, verified images. It was through using parts of ImageNet for its training that, in 2012, a program called AlexNet demonstrated the remarkable potential of “deep learning”—that is to say, of neural networks with many more layers than had previously been used. This was the beginning of the ai boom, and of a labelling industry designed to provide it with training data.

The later development of large language models (llms) also depended on internet data, but in a different way. The classic training exercise for an llm is not predicting what word best describes the contents of an image; it is predicting what a word cut from a piece of text is, on the basis of the other words around it.

In this sort of training there is no need for labelled and curated data; the system can blank out words, take guesses and grade its answers in a process known as “self-supervised training”. There is, though, a need for copious data. The more text the system is given to train on, the better it gets. Given that the internet offers hundreds of trillions of words of text, it became to llms what aeons of carbon randomly deposited in sediments have been to modern industry: something to be refined into miraculous fuel.

Common Crawl, an archive of much of the open internet including 50bn web pages, became widely used in ai research. Newer models supplemented it with data from more and more sources, such as Books3, a widely used compilation of thousands of books. But the machines’ appetites for text have grown at a rate the internet cannot match. Epoch ai, a research firm, estimates that, by 2028, the stock of high-quality textual data on the internet will all have been used. In the industry this is known as the “data wall”. How to deal with this wall is one of ai’s great looming questions, and perhaps the one most likely to slow its progress.

One approach is to focus on data quality rather than quantity. ai labs do not simply train their models on the entire internet. They filter and sequence data to maximise how much their models learn. Naveen Rao of Databricks, an ai firm, says that this is the “main differentiator” between ai models on the market. “True information” about the world obviously matters; so does lots of “reasoning”. That makes academic textbooks, for example, especially valuable. But setting the balance between data sources remains something of a dark art. What is more, the ordering in which the system encounters different types of data matters too. Lump all the data on one topic, like maths, at the end of the training process, and your model may become specialised at maths but forget some other concepts.

These considerations can get even more complex when the data are not just on different subjects but in different forms. In part because of the lack of new textual data, leading models like Openai’s gpt-4o and Google’s Gemini are now let loose on image, video and audio files as well as text during their self-supervised learning. Training on video is hardest given how dense with data points video files are. Current models typically look at a subset of frames to simplify things.

Whatever models are used, ownership is increasingly recognised as an issue. The material used in training llms is often copyrighted and used without consent from, or payment to, the rights holders. Some ai models peep behind paywalls. Model creators claim this sort of thing falls under the “fair use” exemption in American copyright law. ai models should be allowed to read copyrighted material when they learn, just as humans can, they say. But as Benedict Evans, a technology analyst, has put it, “a difference in scale” can lead to “a difference in principle”.

Different rights holders are taking different tactics. Getty Images has sued Stability ai , an image-generation firm, for unauthorised use of its image store. The New York Times has sued Openai and Microsoft for copyright infringement of millions of articles. Other papers have struck deals to license their content. News Corp, owner of the Wall Street Journal, signed a deal worth $250m over five years. (The Economist has not taken a position on its relationship with ai firms.) Other sources of text and video are doing the same. Stack Overflow, a coding help-site, Reddit, a social-media site, and X (formerly Twitter) are now charging for access to their content for training.

The situation differs between jurisdictions. Japan and Israel have a permissive stance to promote their ai industries. The European Union has no generic “fair use” concept, so could prove stricter. Where markets are set up, different types of data will command different prices: models will need access to timely information from the real world to stay up to date.

Model capabilities can also be improved when the version produced by self-supervised learning, known as the pre-trained version, is refined through additional data in post-training. “Supervised fine-tuning”, for example, involves feeding a model question-and-answer pairs collected or handcrafted by humans. This teaches models what good answers look like. “Reinforcement-learning from human feedback” (rlhf), on the other hand, tells them if the answer satisfied the questioner (a subtly different matter).

In rlhf users give a model feedback on the quality of its outputs, which are then used to tweak the model’s parameters, or “weights”. User interactions with chatbots, such as a thumbs-up or -down, are especially useful for rlhf. This creates what techies call a “data flywheel”, in which more users lead to more data which feeds back into tuning a better model. ai startups are keenly watching what types of questions users ask their models, and then collecting data to tune their models on those topics.

Scale it up

As pre-training data on the internet dry up, post-training is more important. Labelling companies such as Scale ai and Surge ai earn hundreds of millions of dollars a year collecting post-training data. Scale recently raised $1bn on a $14bn valuation. Things have moved on from the Mechanical Turk days: the best labellers earn up to $100 an hour. But, though post-training helps produce better models and is sufficient for many commercial applications, it is ultimately incremental.

Rather than pushing the data wall back bit by bit, another solution would be to jump over it entirely. One approach is to use synthetic data, which are machine-created and therefore limitless. AlphaGo Zero, a model produced by DeepMind, a Google subsidiary, is a good example. The company’s first successful Go-playing model had been trained using data on millions of moves from amateur games. AlphaGo Zero used no pre-existing data. Instead it learned Go by playing 4.9m matches against itself over three days, noting the winning strategies. That “reinforcement learning” taught it how to respond to its opponent’s moves by simulating a large number of possible responses and choosing the one with the best chance of winning.

A similar approach could be used for llms writing, say, a maths proof, step-by-step. An llm might build up an answer by first generating many first steps. A separate “helper” ai, trained on data from human experts to judge quality, would identify which was best and worth building on. Such ai-produced feedback is a form of synthetic data, and can be used to further train the first model. Eventually you might have a higher-quality answer than if the llm answered in one go, and an improved llm to boot. This ability to improve the quality of output by taking more time to think is like the slower, deliberative “system 2” thinking in humans, as described in a recent talk by Andrej Karpathy, a co-founder of Openai. Currently, llms employ “system 1” thinking, generating a response without deliberation, similar to a human’s reflexive response.

The difficulty is extending the approach to settings like health care or education. In gaming, there is a clear definition of winning and it is easier to collect data on whether a move is advantageous. Elsewhere it is trickier. Data on what is a “good” decision are typically collected from experts. But that is costly, takes time and is only a patchy solution. And how do you know if a particular expert is correct?

It is clear that access to more data—whether culled from specialist sources, generated synthetically or provided by human experts—is key to maintaining rapid progress in AI. Like oilfields, the most accessible data reserves have been depleted. The challenge now is to find new ones—or sustainable alternatives." [1]

1. Mining the net. The Economist; London Vol. 452, Iss. 9407, (Jul 27, 2024): 59, 60.

A freely available large language model

"As alter egos go, Augustus Caesar is not a bad one for Mark Zuckerberg, pontifex maximus of Meta, owner of the Facebook family of apps. Both men started their march to power as teenagers. Both stopped at nothing to build empires—though unlike the impetuous Mr Zuckerberg, Augustus’s motto was “make haste slowly”. Both gave the illusion of sharing power (Augustus with the Senate, Mr Zuckerberg with shareholders) while wielding it almost absolutely. The Roman emperor is Mr Zuckerberg’s role model. In a recent podcast he used the 200-year era of stability ushered in by Augustus to illustrate why he is making Meta’s generative artificial-intelligence (AI) models available in a way that, with some poetic licence, he calls open source.

On July 23rd Mr Zuckerberg issued a manifesto laying out in greater detail the business case for open-source AI.
That coincided with the release by Meta of Llama 3.1, a freely available large language model (LLM) whose most powerful version, it says, rivals the top offering from OpenAI, maker of ChatGPT.
Mr Zuckerberg said Meta’s intent was to liberate itself from the sort of gatekeepers that have constrained it in the past, such as Apple and its iPhones. That sounds sensible. It was lost on no one, though, that Meta is Llama’s sole gatekeeper.

Meta’s new model is certainly an attention-grabber. The biggest version has 405bn parameters (a common definition of LLM power), almost six times those in its predecessor. Mr Zuckerberg claimed that by next year the company’s models will reign supreme, throwing down the gauntlet to rivals like OpenAI that have taken a closed approach. As both open and closed models get bigger, the debate over which is better is developing an almost theological intensity. On one side are the open-source purists in favour of decentralised “little tech”. On the other are closed-source realists who argue that greater centralisation and control are better for safety and national security.

Mr Zuckerberg’s manifesto further stirs that debate. Though questions remain about how genuinely open Meta’s models are, and its commitment to the approach, he makes a good case.

As he points out, open-source software has an illustrious pedigree. In the 1990s Linux, an obscure operating system created by a university student, eventually became the industry standard for servers, thanks in part to the backing of IBM, a tech giant of its day. The beauty of Linux’s approach was that it provided full access to its source code, enabling developers to modify and improve it.
That differs subtly from Meta’s approach to AI.
Percy Liang, co-founder of Together AI, a cloud-computing startup that will use Llama 3.1, calls the tech giant’s models “open weights”, rather than open source. Meta makes available the numerical values used in its models, known as weights, but doesn’t reveal the data on which the models are trained, which is the equivalent of the source code. That may reduce the ability of developers to customise its models. It is better than nothing, though.

This also raises the question of whether or not Meta might change its approach, leaving developers that rely on its models high and dry. Meta is not a charity, and building LLMs can be costly. Investors have shown in their hostile reaction to Mr Zuckerberg’s metaverse ambitions that, despite his control of the company’s voting shares, he does not have a blank cheque to splurge on whatever he likes. If Meta does not get the commercial benefits it expects, it may be forced to reconsider its approach.

Openness, meanwhile, raises two big safety concerns. The first is harm-prevention. Though Meta has probed Llama 3.1 for dangers, the bigger models get, the more risk there is that they could go rogue or be misused. Once released, such models do not have a kill switch. That, in turn, raises the issue of liability. Who bears responsibility if these models fall into the hands of bad actors? Regulators are grappling with such questions; a clampdown could affect the long-term viability of open-source AI.

Mr Zuckerberg’s rebuttal starts with self-interest. Meta benefits from its interactions with the open-source community, which will suggest ways to make its models better, he argues. Better models should in turn help the firm improve the performance of the AI products it offers to users of Facebook, Instagram and WhatsApp, boosting engagement and profit. Meta’s business is based on advertising, rather than subscriptions, so it has no risk of cannibalising itself.
What is more, though he does not say this, making its large language models available for free helps commodify the industry, undercutting the prospects of rival tech giants. As with IBM, which backed Linux against Microsoft’s Windows, Meta’s megabucks and clout are giving open-source AI a tailwind. Big firms such as Nvidia, creator of generative-AI chips and supplier of related offerings, and Amazon Web Services, a cloud provider, are incorporating Llama 3.1 into their products.

Mr Zuckerberg also insists that it is safer to have power concentrated in the hands of the many rather than the few. When it comes to national security, closing models to prevent China getting its hands on them would be counter-productive, he writes. It would hurt American innovation, and China might be able to steal the secrets anyway.

Actium man

Mr Zuckerberg’s long-term bet is that openness will be good for the world as well as Meta. He has likened it to Augustus’s Pax Romana. After years of civil war in the wake of Julius Caesar’s death in 44BC, few in Ancient Rome could conceive of the idea of a prolonged period of peace and prosperity. Likewise, he reckons, few investors at this point are able to imagine the long-term potential of Meta giving away its crown jewels. Like his hero, he has battles to fight before his position is secure. But he is on the warpath." [1]

1. Augustus on the open-source warpath. The Economist; London Vol. 452, Iss. 9407, (Jul 27, 2024): 58.

Laisvai prieinamas didelis kalbos modelis

"Kalbant apie alter ego, Augustas Cezaris nėra blogas Markui Zuckerbergui, Meta pontifex maximus, "Facebook" programų šeimos savininkui. Abu vyrai pradėjo jų žygį į valdžią, būdami paaugliai. Abu nesustojo, eidami pirmyn, kad sukurtų imperijas, nors, kitaip nei veržlusis ponas Zuckerbergas, Augusto šūkis buvo „skubėk pamažu“ (Augustas su Senatu, ponas Zuckerbergas su akcininkais), taigi, Romos imperatorius yra p. Zuckerbergo pavyzdys. Podcast'e jis panaudojo 200 metų stabilumo erą, kurią įvedė Augustas, norėdamas parodyti, kodėl jis daro Meta generatyvinius dirbtinio intelekto (AI) modelius prieinamus tokiu būdu, kurį, turėdamas tam tikrą poetinę licenciją, jis vadina atviruoju šaltiniu.

Liepos 23 d. Zuckerbergas paskelbė manifestą, kuriame išsamiau išdėstė atvirojo kodo AI verslo pagrindą.

Tai sutapo su Meta of Llama 3.1 – laisvai prieinamo didelės kalbos modelio (LLM) – išleidimu, kurio galingiausia versija, kaip teigiama, konkuruoja su geriausiu „ChatGPT“ kūrėjo OpenAI pasiūlymu.

M. Zuckerbergas teigė, kad „Meta“ ketino išsivaduoti nuo sargų, kurie ją anksčiau varžo, pavyzdžiui, „Apple“ ir jos „iPhone“. Tai skamba protingai. Vis dėlto niekas neprarado, kad Meta yra vienintelė Lamos vartų sargas.

Naujasis Metos modelis tikrai patraukia dėmesį. Didžiausia versija turi 405 milijardus parametrų (bendras LLM galios apibrėžimas), beveik šešis kartus daugiau, nei jos pirmtakė. P. Zuckerbergas tvirtino, kad kitais metais įmonės modeliai viešpataus ir mesti pirštinę tokiems konkurentams, kaip OpenAI, kurie laikosi uždaro požiūrio. Didėjant atviriems ir uždariems modeliams, diskusijos dėl to, kuris yra geresnis, tampa beveik teologiniu intensyvumu. Viena vertus, atvirojo kodo puristai pasisako už decentralizuotą „mažą technologiją“. Kita vertus, uždarojo kodo realistai teigia, kad didesnis centralizavimas ir kontrolė yra geresni saugai ir nacionaliniam saugumui.

Zuckerbergo manifestas dar labiau pakursto šias diskusijas. Nors išlieka klausimų apie tai, kiek atviri yra Metos modeliai ir koks jo atsidavimas tokiam požiūriui, jis pateikia gerą argumentą.

Kaip jis pažymi, atvirojo kodo programinė įranga turi puikų kilmę. Dešimtajame dešimtmetyje „Linux“, neaiški operacinė sistema, sukurta universiteto studento, galiausiai tapo serverių pramonės standartu, iš dalies dėl IBM, savo dienų technologijų milžino, paramos. „Linux“ metodo grožis buvo tas, kad ji suteikė visišką prieigą prie šaltinio kodo, leidžiantį kūrėjams ją modifikuoti ir tobulinti.

Tai subtiliai skiriasi nuo Meta požiūrio į AI.

Percy Liangas, debesų kompiuterijos startuolio „Together AI“, kuris naudos „Llama 3.1“, įkūrėjas, technologijų milžinės modelius vadina „atvirais svoriais“, o ne atviruoju šaltiniu. „Meta“ pateikia jos modeliuose naudojamas skaitines reikšmes, žinomas kaip svoriai, tačiau neatskleidžia duomenų, pagal kuriuos modeliai mokomi, o tai yra šaltinio kodo atitikmuo. Tai gali sumažinti kūrėjų galimybes pritaikyti tuos modelius. Vis dėlto tai geriau, nei nieko.

Tai taip pat kelia klausimą, ar „Meta“ gali pakeisti savo požiūrį, todėl kūrėjai, kurie remiasi jos modeliais, bus pakabinti aukštai ir sausi. Meta nėra labdara, o LLM kūrimas gali būti brangus. Investuotojai, priešiškai reaguodami į M. Zuckerbergo metaversines ambicijas, parodė, kad, nepaisant to, kad jis valdo bendrovės balsavimo teisę turinčias akcijas, jis neturi tuščio čekio, kad galėtų pasilepinti tuo, kas jam patinka. Jei Meta negaus komercinės naudos, kurios tikisi, ji gali būti priversta persvarstyti jos požiūrį.

Tuo tarpu atvirumas kelia du didelius saugumo klausimus. Pirmasis yra žalos prevencija. Nors „Meta“ ištyrė „Llama 3.1“ pavojų, kuo didesni modeliai, tuo didesnė rizika, kad jie gali sukčiauti arba būti netinkamai naudojami. Išleidžiami tokie modeliai neturi žudymo jungiklio. Tai savo ruožtu kelia atsakomybės klausimą. Kas prisiima atsakomybę, jei šie modeliai pateks į blogų aktorių rankas? Reguliavimo institucijos grumiasi su tokiais klausimais; apribojimas gali turėti įtakos ilgalaikiam atvirojo kodo AI gyvybingumui.

M. Zuckerbergo atsikirtimas prasideda nuo savanaudiškumo. Jis teigia, kad „Meta“ turi naudos iš sąveikos su atvirojo kodo bendruomene, kuri pasiūlys būdus, kaip pagerinti jos modelius. Geresni modeliai savo ruožtu turėtų padėti įmonei pagerinti AI produktų, kuriuos ji siūlo „Facebook“, „Instagram“ ir „WhatsApp“ vartotojams, našumą, didinant įsitraukimą ir pelną. „Meta“ verslas remiasi reklama, o ne prenumerata, todėl jai nekyla kanibalizmo pavojaus.

Be to, nors jis to nesako, didelių kalbų modelių pateikimas nemokamai padeda paversti pramonę prekine, o tai sumažina konkuruojančių technologijų milžinų perspektyvas. Kaip ir IBM, kuri palaikė „Linux“ prieš „Microsoft Windows“, „Meta“ milijardai dolerių ir įtaka atvirojo kodo dirbtiniam intelektui suteikia užpakalinį vėją. Didelės įmonės, tokios, kaip Nvidia, generatyvinių AI lustų kūrėja ir susijusių pasiūlymų tiekėja, bei debesų paslaugų teikėja Amazon Web Services į savo produktus įtraukia Llama 3.1.

M. Zuckerbergas taip pat tvirtina, kad saugiau valdžią sutelkti daugelio, o ne kelių rankose. Kalbant apie nacionalinį saugumą, modelių uždarymas, kad Kinija nepatektų į juos, būtų neproduktyvus, rašo jis. Tai pakenktų Amerikos naujovėms, o Kinija vis tiek gali pavogti paslaptis.

Veiksmo vyras

Pono Zuckerbergo ilgalaikis statymas yra tas, kad atvirumas bus naudingas pasauliui ir Metai. Jis palygino jį su Augusto Pax Romana. Po, ilgus metus trukusio, pilietinio karo po Julijaus Cezario mirties 44 m. pr. Kr. retas Senovės Romoje galėjo suvokti ilgalaikio taikos ir klestėjimo laikotarpio idėją. Be to, jis mano, kad šiuo metu nedaugelis investuotojų gali įsivaizduoti ilgalaikį potencialą, dėl kurio „Meta“ atiduos jos karūnos brangenybes. Kaip ir jo herojus, jis turi kovoti, kol nebus užtikrinta jo padėtis. Bet jis yra karo kelyje.“ [1]

1. Augustus on the open-source warpath. The Economist; London Vol. 452, Iss. 9407, (Jul 27, 2024): 58.

Mokslas, studijos ir ekonomika

Sekėjai

Ieškoti šiame dienoraštyje

Subscribe Now: Feed Icon

Tinklaraščio archyvas

Apie mane

2024 m. liepos 27 d., šeštadienis

Duomenų šaltiniai dideliems kalbų modeliams

Data sources for large language models

A freely available large language model

Laisvai prieinamas didelis kalbos modelis

Translate