Sekėjai

Ieškoti šiame dienoraštyje

2024 m. rugsėjo 4 d., trečiadienis

Generatyvinio dirbtinio intelekto modeliai


 "Įveskite klausimą į ChatGPT ir atsakymas bus matomas. Įveskite raginimą į DALL-E 3 ir atsiras vaizdas. Spustelėkite TikTok puslapį "Jums" ir jums bus pateikti vaizdo įrašai pagal jūsų skonį. Paklauskite Siri apie orus ir po akimirkos tai bus jums pasakyta.

 

 Visi šie dalykai yra maitinami dirbtinio intelekto (AI) modeliais. Dauguma remiasi neuroniniu tinklu, apmokytu didžiuliu kiekiu informacijos – teksto, vaizdų ir panašiai – atsižvelgiant į tai, kaip jis bus naudojamas.

 

 Per daug bandymų ir klaidų jungčių tarp imituojamų neuronų svoriai sureguliuojami, remiantis šiais duomenimis, panašiai, kaip koreguojami milijardai ratukų, kol tam tikros įvesties išvestis bus patenkinama.

 

 Yra daug būdų, kaip sujungti ir sluoksniuoti neuronus į tinklą. Šių architektūrų pažanga padėjo tyrėjams sukurti neuroninius tinklus, kurie gali efektyviau mokytis ir iš esamų duomenų rinkinių gauti daugiau naudingų išvadų, o tai paskatino didžiąją dalį pastarojo meto AI pažangos.

 

 Didžioji dalis dabartinių įspūdžių buvo nukreipta į dvi modelių šeimas: teksto didelius kalbos modelius (LLM) ir vaizdų sklaidos modelius. Jie yra gilesni (ty juose yra daugiau neuronų sluoksnių), nei anksčiau, ir yra sutvarkyti taip, kad jie galėtų greitai pereiti prie daugybės duomenų.

 

 LLM, pvz., GPT, Gemini, Claude ir Llama, yra sukurti pagal vadinamąją transformatorių architektūrą. 2017 m. pristatė Ashish Vaswani ir jo komanda „Google Brain“, pagrindinis transformatorių principas yra „dėmesio“. Dėmesio sluoksnis leidžia modeliui sužinoti, kaip keli įvesties aspektai, pvz., tam tikru atstumu vienas nuo kito esantys žodžiai tekste, yra susiję vienas su kitu, ir į tai atsižvelgti, formuojant išvestį. Daug dėmesio sluoksnių iš eilės leidžia modeliui išmokti asociacijas skirtingais detalumo lygiais – tarp žodžių, frazių ar net pastraipų. Šis metodas taip pat puikiai tinka diegti grafikos apdorojimo bloko (GPU) lustuose, o tai leido padidinti šių modelių mastelį ir, savo ruožtu, padidino Nvidia, pasaulyje pirmaujančios GPU gamintojos, rinkos kapitalizaciją.

 

 Transformatorių modeliai gali generuoti vaizdus ir tekstą. Pirmoji DALL-E versija, kurią OpenAI išleido 2021 m., buvo transformatorius, išmokęs susieti vaizdo taškų grupes, o ne žodžius tekste. Abiem atvejais neuroninis tinklas tai, ką mato, paverčia skaičiais ir atlieka su jais matematiką (konkrečiai, matricos operacijas). Tačiau transformatoriai turi savo apribojimų. Jie stengiasi išmokti nuoseklių pasaulio modelių. Pavyzdžiui, pateikdami žmogaus užklausas, jie prieštaraus sau nuo vieno atsakymo iki kito, „nesuprasdami“, kad pirmasis atsakymas padaro antrąjį beprasmišką (arba atvirkščiai), nes jie iš tikrųjų „nežino“ nei vieno atsakymo – tiesiog tam tikrų žodžių eilučių asociacijas, kurios atrodo, kaip atsakymai.

 

 Ir, kaip daugelis dabar žino, transformatorių modeliai yra linkę į vadinamąsias „haliucinacijas“, kai jie pateikia patikimai atrodančius, bet neteisingus atsakymus ir juos patvirtinančias citatas. Panašiai ankstyvųjų transformatorių modelių sukurti vaizdai dažnai pažeisdavo fizikos taisykles ir kitais būdais buvo neįtikimi (tai gali būti kai kurių vartotojų vertinama savybė, tačiau tai buvo klaida dizaineriams, kurie siekė sukurti tikroviškus vaizdus). Reikėjo kitokio modelio.

 

 Ne mano arbatos puodelis

 

 Įveskite difuzijos modelius, kurie gali sukurti daug tikroviškesnius vaizdus. Pagrindinę idėją jiems įkvėpė fizinis sklaidos procesas. Jei arbatos pakelį įdėsite į puodelį karšto vandens, arbatos lapai ims ekstrahuotis, arbatos spalva prasiskverbia ir susilieja į skaidrų vandenį. Palikite kelias minutes ir puodelyje esantis skystis taps vienodos spalvos. Fizikos dėsniai diktuoja šį sklaidos procesą. Nors galite naudoti fizikos dėsnius, norėdami nuspėti, kaip arbata pasklis, taip pat galite pakeisti šį procesą, kad atkurtumėte, kur ir kaip arbatos maišelis galėjo būti padėtas. Realiame gyvenime antrasis termodinamikos dėsnis daro šią gatvę vienpuse; negalima grąžinti originalaus arbatos pakelio iš puodelio. Tačiau išmokus imituoti šią, entropiją keičiančią, kelionę atgal, galima sukurti tikrovišką vaizdą.

 

 Treniruotės veikia taip. Nufotografuojate vaizdą ir palaipsniui taikote daugiau suliejimo ir triukšmo, kol jis atrodo visiškai atsitiktinis. Tada ateina sudėtingoji dalis: pakeisti šį procesą, kad būtų atkurtas originalus vaizdas, pavyzdžiui, atgauti arbatos maišelį iš arbatos puodelio su vandeniu. Tai atliekama, naudojant „savarankišką mokymąsi“, panašiai kaip LLM mokomi teksto: uždengiami sakinio žodžiai ir mokomasi nuspėti trūkstamus žodžius per bandymus ir klaidas. Vaizdų atveju tinklas išmoksta pašalinti vis didėjantį triukšmą, kad būtų atkurtas originalus vaizdas. Veikdamas per milijardus vaizdų, mokydamasis šablonų, reikalingų iškraipymams pašalinti, tinklas įgyja galimybę sukurti visiškai naujus vaizdus iš nieko daugiau, kaip tik atsitiktinis triukšmas.

 

 Daugumoje naujausių vaizdo generavimo sistemų naudojamas difuzijos modelis, nors jos skiriasi tuo, kaip „mažina triukšmą“ arba keičia iškraipymus. „Stable Diffusion“ (iš „Stability AI“) ir „Imagen“, abu išleisti 2022 m., naudojo architektūros, vadinamos konvoliuciniu neuroniniu tinklu (CNN), variantus, kurie gerai analizuoja į tinklelį panašius duomenis, pvz., pikselių eilutes ir stulpelius. Tiesą sakant, CNN per savo įvestį perkelia mažus stumdomus langus aukštyn ir žemyn, ieškodami konkrečių artefaktų, tokių, kaip raštai ir kampai. Tačiau nors CNN puikiai veikia su pikseliais, kai kurie naujausi vaizdo generatoriai naudoja vadinamuosius difuzijos transformatorius, įskaitant naujausią „Stability AI“ modelį „Stable Diffusion 3“. Išmokę difuzijos, transformatoriai daug geriau suvokia, kaip įvairios vaizdo dalys. ar vaizdo kadras yra susiję vienas su kitu ir kaip stipriai ar silpnai jie tai daro, todėl gaunami tikroviškesni rezultatai (nors jie vis tiek daro klaidų).

 

 Rekomendacinės sistemos yra dar vienas žuvies akvariumas. Retai kada pavyksta pažvelgti į jo vidų, nes įmonės, kuriančios ir naudojančios rekomendacinius algoritmus, yra labai slaptos. Tačiau 2019 m. „Meta“, tada „Facebook“, paskelbė išsamią informaciją apie savo gilaus mokymosi rekomendacijų modelį (DLRM). Modelį sudaro trys pagrindinės dalys. Pirma, ji paverčia įvestus duomenis (pvz., vartotojo amžių ar „patinka“ paspaudimus platformoje arba turinį, kurį jie suvartojo) į „įterpimus“. Jis išmoksta taip, kad panašūs dalykai (pvz., tenisas ir stalo tenisas) yra arti vienas kito šioje įterpimo erdvėje.

 

 Tada DLRM naudoja neuroninį tinklą, kad padarytų tai, kas vadinama matricos faktorizavimu. Įsivaizduokite skaičiuoklę, kurioje stulpeliai yra vaizdo įrašai, o eilutės – skirtingi vartotojai. Kiekvienoje langelyje nurodoma, kiek kiekvienam vartotojui patinka kiekvienas vaizdo įrašas. Tačiau dauguma tinklelio langelių yra tušti. Rekomendacijos tikslas – numatyti visų tuščių langelių prognozes. Vienas iš būdų, kaip DLRM gali tai padaryti, yra padalinti tinklelį (matematine prasme, suskaidyti matricą) į du tinklelius: vieną, kuriame yra duomenys apie vartotojus, ir kitą, kuriame yra duomenys apie vaizdo įrašus. Iš naujo sujungus šiuos tinklelius (arba padauginus matricas) ir įvedus rezultatus į kitą neuroninį tinklą, kad būtų galima tiksliau nustatyti skaičių, galima užpildyti tinklelio langelius, kurie anksčiau buvo tušti, ty numatyti, kiek kiekvienam vartotojui patiks kiekvienas vaizdo įrašas.

 

 Tas pats metodas gali būti taikomas reklamai, dainoms srautinio perdavimo paslaugoje, produktams el. prekybos platformoje ir kt. Technologijų įmones labiausiai domina modeliai, kurie puikiai atlieka tokias, komerciškai naudingas, užduotis, kaip šios. Tačiau, norint naudoti šiuos modelius dideliu mastu, reikia labai gilių kišenių, didžiulio duomenų kiekio ir didžiulės apdorojimo galios.

 

 Palaukite, kol pamatysite kitų metų modelį

 

 Akademiniame kontekste, kur duomenų rinkiniai yra mažesni ir biudžetai riboti, kitų tipų modeliai yra praktiškesni. Tai apima pasikartojančius neuroninius tinklus (skirta analizuoti duomenų sekas), variacinius autokoduotojus (skirti duomenų šablonams nustatyti), generatyvius priešingus tinklus (kur vienas modelis išmoksta atlikti užduotį pakartotinai, bandydamas apgauti kitą modelį) ir grafikų neuroninius tinklus (skirti numatyti sudėtingų sąveikų rezultatus).

 

 Lygiai taip pat, kaip gilieji neuroniniai tinklai, transformatoriai ir difuzijos modeliai padarė šuolį nuo tyrimų įdomybių iki plataus diegimo, šių kitų modelių funkcijos ir principai bus panaudoti ir įtraukti į būsimus AI modelius. Transformatoriai yra labai efektyvūs, tačiau neaišku, ar jų padidinimas gali išspręsti jų polinkį į haliucinacijas ir polinkį daryti logines klaidas samprotaujant. Jau ieškoma „post-transformatorinių“ architektūrų, nuo „būsenos erdvės modelių“ iki „neurosimbolinio“ dirbtinio intelekto, kurie galėtų įveikti tokius trūkumus ir įgalinti kitą šuolį į priekį. Idealiu atveju tokia architektūra derintų dėmesį su didesniu mąstymo meistriškumu. Šiuo metu dar nė vienas žmogus nežino, kaip sukurti tokį modelį. Galbūt, kada nors dirbtinio intelekto modelis atliks šį darbą." [1]

 

1.  Fashionable models. The Economist; London Vol. 452, Iss. 9409,  (Aug 10, 2024): 54, 55.

Models of Generative AI


"Type in a question to ChatGPT and an answer will materialise. Put a prompt into DALL-E 3 and an image will emerge. Click on TikTok’s “for you” page and you will be fed videos to your taste. Ask Siri for the weather and in a moment it will be spoken back to you.

All these things are powered by artificial-intelligence (AI) models. Most rely on a neural network, trained on massive amounts of information—text, images and the like—relevant to how it will be used. 

Through much trial and error the weights of connections between simulated neurons are tuned on the basis of these data, akin to adjusting billions of dials until the output for a given input is satisfactory.

There are many ways to connect and layer neurons into a network. A series of advances in these architectures has helped researchers build neural networks which can learn more efficiently and which can extract more useful findings from existing datasets, driving much of the recent progress in AI.

Most of the current excitement has been focused on two families of models: large language models (LLMs) for text, and diffusion models for images. These are deeper (ie, have more layers of neurons) than what came before, and are organised in ways that let them churn quickly through reams of data.

LLMs—such as GPT, Gemini, Claude and Llama—are all built on the so-called transformer architecture. Introduced in 2017 by Ashish Vaswani and his team at Google Brain, the key principle of transformers is that of “attention”. An attention layer allows a model to learn how multiple aspects of an input—such as words at certain distances from each other in text—are related to each other, and to take that into account as it formulates its output. Many attention layers in a row allow a model to learn associations at different levels of granularity—between words, phrases or even paragraphs. This approach is also well-suited for implementation on graphics-processing unit (GPU) chips, which has allowed these models to scale up and has, in turn, ramped up the market capitalisation of Nvidia, the world’s leading GPU-maker.

Transformer-based models can generate images as well as text. The first version of DALL-E, released by OpenAI in 2021, was a transformer that learned associations between groups of pixels in an image, rather than words in a text. In both cases the neural network is translating what it “sees” into numbers and performing maths (specifically, matrix operations) on them. But transformers have their limitations. They struggle to learn consistent world-models. For example, when fielding a human’s queries they will contradict themselves from one answer to the next, without any “understanding” that the first answer makes the second nonsensical (or vice versa), because they do not really “know” either answer—just associations of certain strings of words that look like answers.

And as many now know, transformer-based models are prone to so-called “hallucinations” where they make up plausible-looking but wrong answers, and citations to support them. Similarly, the images produced by early transformer-based models often broke the rules of physics and were implausible in other ways (which may be a feature for some users, but was a bug for designers who sought to produce photo-realistic images). A different sort of model was needed.

Not my cup of tea

Enter diffusion models, which are capable of generating far more realistic images. The main idea for them was inspired by the physical process of diffusion. If you put a tea bag into a cup of hot water, the tea leaves start to steep and the colour of the tea seeps out, blurring into clear water. Leave it for a few minutes and the liquid in the cup will be a uniform colour. The laws of physics dictate this process of diffusion. Much as you can use the laws of physics to predict how the tea will diffuse, you can also reverse-engineer this process—to reconstruct where and how the tea bag might first have been dunked. In real life the second law of thermodynamics makes this a one-way street; one cannot get the original tea bag back from the cup. But learning to simulate that entropy-reversing return trip makes realistic image-generation possible.

Training works like this. You take an image and apply progressively more blur and noise, until it looks completely random. Then comes the hard part: reversing this process to recreate the original image, like recovering the tea bag from the tea. This is done using “self-supervised learning”, similar to how LLMs are trained on text: covering up words in a sentence and learning to predict the missing words through trial and error. In the case of images, the network learns how to remove increasing amounts of noise to reproduce the original image. As it works through billions of images, learning the patterns needed to remove distortions, the network gains the ability to create entirely new images out of nothing more than random noise.

Most state-of-the-art image-generation systems use a diffusion model, though they differ in how they go about “de-noising” or reversing distortions. Stable Diffusion (from Stability AI) and Imagen, both released in 2022, used variations of an architecture called a convolutional neural network (CNN), which is good at analysing grid-like data such as rows and columns of pixels. CNNs, in effect, move small sliding windows up and down across their input looking for specific artefacts, such as patterns and corners. But though CNNs work well with pixels, some of the latest image-generators use so-called diffusion transformers, including Stability AI’s newest model, Stable Diffusion 3. Once trained on diffusion, transformers are much better able to grasp how various pieces of an image or frame of video relate to each other, and how strongly or weakly they do so, resulting in more realistic outputs (though they still make mistakes).

Recommendation systems are another kettle of fish. It is rare to get a glimpse at the innards of one, because the companies that build and use recommendation algorithms are highly secretive about them. But in 2019 Meta, then Facebook, released details about its deep-learning recommendation model (DLRM). The model has three main parts. First, it converts inputs (such as a user’s age or “likes” on the platform, or content they consumed) into “embeddings”. It learns in such a way that similar things (like tennis and ping pong) are close to each other in this embedding space.

The DLRM then uses a neural network to do something called matrix factorisation. Imagine a spreadsheet where the columns are videos and the rows are different users. Each cell says how much each user likes each video. But most of the cells in the grid are empty. The goal of recommendation is to make predictions for all the empty cells. One way a DLRM might do this is to split the grid (in mathematical terms, factorise the matrix) into two grids: one that contains data about users, and one that contains data about the videos. By recombining these grids (or multiplying the matrices) and feeding the results into another neural network for more number-crunching, it is possible to fill in the grid cells that used to be empty—ie, predict how much each user will like each video.

The same approach can be applied to advertisements, songs on a streaming service, products on an e-commerce platform, and so forth. Tech firms are most interested in models that excel at commercially useful tasks like this. But running these models at scale requires extremely deep pockets, vast quantities of data and huge amounts of processing power.

Wait until you see next year’s model

In academic contexts, where datasets are smaller and budgets are constrained, other kinds of models are more practical. These include recurrent neural networks (for analysing sequences of data), variational autoencoders (for spotting patterns in data), generative adversarial networks (where one model learns to do a task by repeatedly trying to fool another model) and graph neural networks (for predicting the outcomes of complex interactions).

Just as deep neural networks, transformers and diffusion models all made the leap from research curiosities to widespread deployment, features and principles from these other models will be seized upon and incorporated into future AI models. Transformers are highly efficient, but it is not clear that scaling them up can solve their tendencies to hallucinate and to make logical errors when reasoning. The search is already under way for “post-transformer” architectures, from “state-space models” to “neuro-symbolic” AI, that can overcome such weaknesses and enable the next leap forward. Ideally such an architecture would combine attention with greater prowess at reasoning. Right now no human yet knows how to build that kind of model. Maybe someday an AI model will do the job." [1]

1.  Fashionable models. The Economist; London Vol. 452, Iss. 9409,  (Aug 10, 2024): 54, 55.

 

Europa ekonomiškai sustingusi ir atsilieka

 

 

"2021 m. namų ūkiai Europos Sąjungoje vidutiniškai turėjo tik 61 procentą amerikiečių disponuojamų pajamų. 

 

Pagal šią priemonę turtingos Europos šalys, tokios, kaip Norvegija, atsilieka nuo neturtingų Amerikos valstijų, tokių, kaip Misisipė. McKinsey Global Institute duomenimis, didelė Europos 2022 m. korporacijos investavo 60 procentų mažiau, nei Amerikos korporacijos ir augo dviem trečdaliais lėčiau. Dešimtmetį Europa atsilieka nuo kapitalo plėtros, mokslinių tyrimų ir plėtros bei produktyvumo augimo. Net išliaupsinta Vokietijos ekonomika nuo 2018 m. iš esmės sustojo. “ [1]

1. How Trump Wins (and Harris and the Democrats Blow It): David Brooks.  New York Times (Online) New York Times Company. Sep 4, 2024.

 

Europe is economically stagnant and falling behind

 


"In 2021, households in the European Union enjoyed, on average, only 61 percent of the disposable income Americans enjoyed.

 

By this measure, rich European countries like Norway are behind poor American states like Mississippi. According to the McKinsey Global Institute, large European corporations invested 60 percent less than American corporations in 2022 and grew at two-thirds the pace. For a decade, Europe has been falling behind on capital development, research and development, and productivity growth. Even the vaunted German economy has basically flatlined since 2018." [1]


1. How Trump Wins (and Harris and the Democrats Blow It): David Brooks.  New York Times (Online) New York Times Company. Sep 4, 2024.