Sekėjai

Ieškoti šiame dienoraštyje

2024 m. liepos 15 d., pirmadienis

How spies should use technology


"Philo of Byzantium, an inventor of the third century BC, described how crushed gallnuts, dissolved in water, could make invisible ink

Technology has shaped spycraft for millennia, but today it is having an unprecedented effect. The internet enables covert action on a grand scale. Biometric border controls impede spies operating abroad. Smartphones haemorrhage secrets.

Some conclude that intelligence services in their current form are obsolete. Why steal secrets when open and commercial sources such as satellite imagery and phone-location data can expose mischief? 

Who needs human spooks when it is so hard to protect their identities and so easy to snoop digitally?

In truth, intelligence needs both the old and new ways. Human intelligence is getting harder, costlier and riskier. Yet, for all that, it remains essential. That is not just because there are still some things that only an agent can do, such as read the mood in the corridors of the Kremlin. It is also because human and technical operations are intertwined. When an unknown operator, presumably a state, recently attempted to insert a surreptitious backdoor into a vital piece of software called XZ Utils, they did so by spending years pretending to be a well-meaning volunteer on the project.

Public and commercial sources are increasingly valuable. Around 90% of NATO’s intelligence on cyber threats now comes from private firms, for instance. But the real value is derived by blending open and secret sources. That is harder than it sounds. For good reason, spy agencies have long maintained a gap between the classified and unclassified worlds. Now it has to be bridged.

Intelligence services will need top-secret cloud servers. Currently these are built largely by American or Chinese firms, which spy agencies from most other countries do not trust. Within and between countries, those agencies will often want to share data that are now siloed. And they will need to experiment with artificial intelligence to exploit it all, balancing the hallucinatory habits of today’s large language models against the huge promise of future ones.

Whereas the secret world once far outstripped the private sector, it is now often the reverse. Spy agencies will have to work with companies at the cutting-edge and recruit talent that may balk at the prospect of working in a windowless room without access to phones or the internet.

More broadly, a world in which digital technology has seeped into everything—into everyone’s pockets, power plants and the cameras that watch over government buildings—is one in which access to data becomes central to the intelligence contest between America, China and other big powers. At the moment, that is a lopsided fight.

Chinese hackers hoover up data from around the world, giving them potential leverage over their adversaries. 

American and European intelligence services also collect a lot. 

But they are far more constrained by law. It is easier for a private firm to collect bulk data, such as phone-location logs, than for a state agency to do so.

Data brokers who buy and sell private data, often to law-enforcement and intelligence agencies, need tighter rules and a brighter light shone on their often murky business. States which bar their agencies from collecting and fusing data about rivals will blind themselves. But those that allow such activities without proper legal authority and robust oversight do not just stomp on individual rights, they also risk provoking a backlash, as after Edward Snowden’s revelations in 2013.

It is tempting to dismiss the technologies of spycraft as just an entertaining diversion from real geopolitics. In fact, the two are intertwined. Israel’s failure to foresee Hamas’s assault on October 7th was a national calamity. If China chooses to reunite with Taiwan, intelligence will be crucial to denying it the element of surprise. Forewarned is forearmed." [1] 

1.  How spies should use technology. The Economist; London Vol. 452, Iss. 9404,  (Jul 6, 2024): 12.

Dideli kalbų modeliai: generatyvaus dirbtinio intelekto pagrindai

„Didelių kalbų modeliai (LLM), tokie, kaip GPT, Bard ir Llama 2, patraukė visuomenės vaizduotę ir sulaukė įvairiausių reakcijų. Šiame straipsnyje apžvelgiamas ažiotažas, padedantis suprasti didelių kalbų modelių kilmę ir jų veikimo būdą, sukurimą ir apmokymą, ir įvairias užduotis, kurioms jie specializuojasi. Taip pat apžvelgsime populiariausius, šiandien naudojamus, LLM.

 

 Kas yra didelės kalbos modelis?

 

 Kalbos modeliai siekia dvidešimtojo amžiaus pradžią, tačiau dideli kalbų modeliai (LLM) atsirado po to, kai buvo įdiegti neuroniniai tinklai. Transformatoriaus giluminio neuroninio tinklo architektūra, pristatyta 2017 m., buvo ypač svarbi evoliucijai nuo kalbos modelių iki LLM.

 

 Dideli kalbų modeliai yra naudingi, atliekant įvairias užduotis, įskaitant teksto generavimą iš aprašomojo raginimo, kodo generavimą ir kodo užbaigimą, teksto apibendrinimą, vertimą iš vienos kalbos į kitą ir teksto į šnekamąją kalbą bei šnekamosios kalbos keitimo į tekstą programas.

 

 LLM taip pat turi trūkumų, bent jau dabartiniame vystymosi etape. Sukurtas tekstas dažniausiai būna vidutiniškas, o kartais ir komiškai blogas. Yra žinoma, kad LLM išranda faktus, vadinamus haliucinacijomis, kurios gali atrodyti pagrįstos, jei nežinote geriau. Kalbos vertimai retai būna 100 % tikslūs, nebent juos patikrintų tie, kuriems tai yra gimtoji kalba, o tai paprastai daroma tik įprastoms frazėms. Sugeneruotas kodas dažnai turi klaidų ir kartais neturi vilties būti paleistas. Nors LLM paprastai yra sureguliuoti, kad būtų išvengta prieštaringų pareiškimų ar rekomendacijų atlikti neteisėtus veiksmus, šiuos apsauginius turėklus galima pažeisti, naudojant kenkėjiškus raginimus.

 

 Didelių kalbų modelių mokymui reikalingas bent vienas didelis teksto korpusas. Mokymo pavyzdžiai apima 1B Word etaloną, Wikipedia, Toronto Books Corpus, Common Crawl duomenų rinkinį ir viešąsias atvirojo kodo GitHub saugyklas. Dvi galimos didelių teksto duomenų rinkinių problemos yra autorių teisių pažeidimas ir šiukšlės. Autorių teisių pažeidimas šiuo metu yra daugelio ieškinių objektas. Šiukšles bent jau galima išvalyti; išvalyto duomenų rinkinio pavyzdys yra „Colossal Clean Crawled Corpus“ (C4), 800 GB duomenų rinkinys, pagrįstas „Common Crawl“ duomenų rinkiniu.

 

 Kartu su bent vienu dideliu treniruočių korpusu, LLM reikia daug parametrų, dar vadinamų svoriais. Bėgant metams, parametrų skaičius augo. ELMo (2018) turi 93,6 mln. parametrų; BERT (2018) buvo išleistas 100 milijonų ir 340 milijonų parametrų dydžių; GPT (2018) naudoja 117 milijonų parametrų; ir T5 (2020 m.) turi 220 milijonų parametrų. GPT-2 (2019) turi 1,6 milijardo parametrų; GPT-3 (2020) naudoja 175 milijardus parametrų; o PaLM (2022) turi 540 milijardų parametrų. GPT-4 (2023) turi 1,76 trilijono parametrų.

 

 Dėl daugiau parametrų modelis tampa tikslesnis, tačiau modeliams su aukštesniais parametrais taip pat reikia daugiau atminties ir jie veikia lėčiau. 

 

2023 m. pradėjome matyti kai kuriuos santykinai mažesnius įvairių dydžių modelius: pavyzdžiui, „Llama 2“ yra 7 milijardų, 13 milijardų ir 70 milijardų, o Claude 2 – 93 milijardų ir 137 milijardų parametrų. .

 

 Dirbtinio intelekto (AI) modelių, skirtų tekstui generuoti, istorija

 

 Kalbos modeliai siekia Andrejų Markovą, kuris 1913 m. pritaikė matematiką poezijoje. Markovas parodė, kad Puškino „Eugenijus Oneginas“ raidės atsiradimo tikimybė priklausė nuo ankstesnės raidės ir kad apskritai priebalsiai ir balsės buvo linkę kaitalioti. Šiandien Markovo grandinės naudojamos apibūdinti įvykių seką, kurioje kiekvieno įvykio tikimybė priklauso nuo ankstesnio įvykio būsenos.

 

 Markovo darbą 1948 m. išplėtė Claude'as Shannonas, skirdamas komunikacijos teorijai, o 1985 m. – Fredas Jelinekas ir Robertas Merceris iš IBM, kad sukurtų kalbos modelį, pagrįstą kryžminiu patvirtinimu (kuriuos jie vadino išbrauktais įvertinimais), ir pritaikytas realiu laiku didelio žodyno kalbos atpažinimui. Iš esmės statistinis kalbos modelis priskiria tikimybes žodžių sekoms.

 

 Norėdami greitai pamatyti veikiantį kalbos modelį, tiesiog įveskite kelis žodžius į „Google“ paiešką arba teksto pranešimų programą telefone, kai įjungtas automatinis užbaigimas.

 

 2000 m. Yoshua Bengio ir bendraautoriai paskelbė dokumentą, kuriame išsamiai aprašomas neuroninis tikimybinis kalbos modelis, kuriame neuroniniai tinklai pakeičia tikimybes statistiniame kalbos modelyje, aplenkdami matmenų prakeiksmą ir pagerindami žodžių numatymą, lyginant su išlygintu trigramos modeliu (tuo metu meno lygis) nuo 20 % iki 35 %. Kalbos automatinio regresinio neuroninio tinklo modelių idėja tebenaudojama ir šiandien, nors dabar modeliai turi milijardus parametrų ir yra parengti, naudojant plačius korpusus; taigi terminas „didelis kalbos modelis“.

 

 Kalbos modeliai, laikui bėgant, vis tobulėjo, siekiant pagerinti našumą. Tačiau toks augimas turi ir minusų. 2021 m. straipsnyje „Apie stochastinių papūgų pavojų: ar kalbos modeliai gali būti per dideli?“ keliama klausimų, ar mes per toli einame su tendencija „didesnis yra geriau“.Autoriai siūlo pirmiausia pasverti aplinkos ir finansines išlaidas ir investuoti išteklius į duomenų rinkinių kuravimą ir dokumentavimą, o ne viską, kas yra žiniatinklyje.

 

 Kalbų modeliai ir LLM paaiškinami žemiau

 

 Dabartiniai kalbų modeliai turi įvairių užduočių ir tikslų ir yra įvairių formų. Pavyzdžiui, be užduoties nuspėti kitą dokumente esantį žodį, kalbos modeliai gali generuoti originalų tekstą, klasifikuoti tekstą, atsakyti į klausimus, analizuoti jausmus, atpažinti įvardintus subjektus, atpažinti kalbą, atpažinti tekstą vaizduose ir atpažinti rašyseną. Kalbos modelių pritaikymas konkrečioms užduotims atlikti, paprastai naudojant mažus ir vidutinio dydžio papildomus mokymo rinkinius, vadinamas koregavimu.

 

 Kai kurios tarpinės užduotys, kurios patenka į kalbos modelius, yra šios:

 

 * Mokymo korpuso segmentavimas į sakinius

 

 * Žodžių tokenizavimas

 

 * Stiebas

 

 * Lematizavimas (konvertavimas į pagrindinį žodį)

 

 * POS (kalbos dalies) žymėjimas

 

 * Sustojimo ženklo identifikavimas ir (galbūt) pašalinimas

 

 * Pavadinto subjekto atpažinimas (NER)

 

 * Teksto klasifikacija

 

 * Suskaidymas (sakinių skaidymas į prasmingas frazes)

 

 * Nuorodų skiriamoji geba (visų posakių, nurodančių tą patį teksto objektą, radimas)

 

 Kai kurie iš jų taip pat yra naudingi, kaip užduotys ar programos, pvz., teksto klasifikavimas.

 

 Dideli kalbų modeliai skiriasi nuo tradicinių kalbų modelių tuo, kad juose naudojamas gilus mokymosi neuroninis tinklas ir didelis mokymo korpusas, be to, jiems reikia milijonų ar daugiau neuroninio tinklo parametrų ar svorių. Mokant LLM, reikia optimizuoti svorius, kad modelio klaidų lygis būtų kuo mažesnis, atliekant jam paskirtą užduotį. Pavyzdinė užduotis būtų nuspėti kitą žodį bet kuriame korpuso taške, paprastai savarankiškai prižiūrint.

 

 Žvilgsnis į populiariausius LLM

 

 Pastarąjį didelių kalbų modelių sprogimą paskatino 2017 m. leidinys „Attention is All You Need“, kuriame „Transformer“ pristatoma kaip „nauja paprasta tinklo architektūra, pagrįsta tik dėmesio mechanizmais, visiškai atsisakant pasikartojimo ir vingių“.

 

 Štai keletas populiariausių šiandien naudojamų didelių kalbų modelių.

 

 ELMo

 

 ELMo yra 2018 m. giliai kontekstualizuotas žodžių vaizdavimo LLM iš AllenNLP, kuris modeliuoja sudėtingas žodžių vartojimo ypatybes ir tai, kaip šis vartosena skiriasi įvairiuose kalbiniuose kontekstuose. Originalus modelis turi 93,6 milijono parametrų ir buvo apmokytas pagal 1B Word etaloną.

 

 BERT

 

 BERT yra 2018 m. „Google AI“ sukurtas kalbos modelis, pagrįstas bendrovės „Transformer“ neuroninio tinklo architektūra. BERT buvo sukurta tam, kad iš anksto išmokytų gilų dvikryptį atvaizdavimą iš nepažymėto teksto, bendrai nustatant tiek kairiajame, tiek dešiniajame kontekste visuose sluoksniuose. Iš pradžių buvo naudojami du modelių dydžiai – 100 milijonų ir 340 milijonų bendrų parametrų. LLM naudoja maskuotos kalbos modeliavimą (MLM), kuriame ~15% žetonų yra „sugadinami“ mokymui. Jis buvo apmokytas anglų kalbos Vikipedijoje ir Toronto knygų korpuse.

 

 T5

 

 2020 m. „Google“ sukurtas teksto į tekstą perdavimo transformatoriaus (T5) modelis sintezuoja naują modelį, pagrįstą geriausiais GPT, ULMFiT, ELMo, BERT ir jų įpėdinių perdavimo mokymosi metodais. Jis naudoja atvirojo kodo Colossal Clean Crawled Corpus (C4) kaip išankstinio mokymo duomenų rinkinį. Standartinis C4 anglų kalba yra 800 GB duomenų rinkinys, pagrįstas originaliu „Common Crawl“ duomenų rinkiniu. T5 perfrazuoja visas NLP užduotis į vieningą teksto į tekstą formatą, kuriame įvestis ir išvestis visada yra teksto eilutės, priešingai, nei BERT modeliai, kurie gali išvesti tik klasės etiketę arba įvesties intervalą. Baziniame T5 modelyje iš viso yra apie 220 milijonų parametrų.

 

 GPT šeima

 

 „OpenAI“, AI tyrimų ir diegimo įmonė, turi misiją „užtikrinti, kad dirbtinis bendrasis intelektas (AGI) būtų naudingas visai žmonijai“. Žinoma, ji dar nepasiekė AGI, o kai kurie AI tyrinėtojai, pavyzdžiui, mašininio mokymosi pradininkas Yann LeCun iš Meta-FAIR, mano, kad dabartinis OpenAI požiūris į AGI yra aklavietė.

 

 OpenAI yra atsakinga už GPT kalbų modelių šeimą. Čia trumpai apžvelgiama visa GPT šeima ir jos raida nuo 2018 m. (Atminkite, kad visa GPT šeima yra pagrįsta „Google Transformer“ neuroninio tinklo architektūra, kuri yra teisėta, nes „Google“ yra atvirojo kodo transformatorius.)

 

 GPT (Generative Pretrained Transformer) yra 2018 m. OpenAI modelis, kuriame naudojama apie 117 milijonų parametrų. GPT yra vienakryptis transformatorius, iš anksto paruoštas Toronto knygų korpuse ir buvo išmokytas naudoti priežastinės kalbos modeliavimo (CLM) tikslą, o tai reiškia, kad jis buvo išmokytas numatyti kitą žetoną iš eilės.

 

 GPT-2 yra 2019 m. tiesioginis GPT padidinimas su 1,5 milijardo parametrų, parengtas, naudojant 8 milijonų tinklalapių duomenų rinkinį, apimantį ~ 40 GB teksto duomenų. „OpenAI“ iš pradžių apribojo prieigą prie GPT-2, nes jis buvo „per geras“ ir sukeltų „netikras naujienas“. Bendrovė galiausiai nusileido, nors galimos socialinės problemos tapo blogesnės,  išleidus GPT-3.

 

 GPT-3 yra 2020 m. automatinės regresinės kalbos modelis su 175 milijardais parametrų, parengtas naudojant filtruotą Common Crawl, WebText2, Books1, Books2 ir anglišką Vikipediją. GPT-3 naudojamas neuroninis tinklas yra panašus į GPT-2, su keliais papildomais blokais.

 

 Didžiausias GPT-3 trūkumas yra tas, kad jis linkęs „haliucinuoti“, o tai reiškia, kad jis sukuria faktus be jokio pastebimo pagrindo. GPT-3.5 ir GPT-4 turi tą pačią problemą, nors ir mažesniu mastu.

 

 CODEX yra 2021 m. GPT-3 palikuonis, kuris buvo tiksliai suderintas kodo generavimui 54 milijonuose atvirojo kodo GitHub saugyklų. Tai modelis, naudojamas „GitHub Copilot“.

 

 GPT-3.5 yra 2022 m. GPT-3 ir CODEX naujinimų rinkinys. 

 

Modelis gpt-3.5-turbo yra optimizuotas pokalbiams, bet taip pat puikiai tinka atliekant tradicines užbaigimo užduotis.

 

 GPT-4 yra 2023 m. didelis daugiarūšis modelis (priimamas vaizdo ir teksto įvestis, skleidžiamas teksto išvestis), kuris, kaip teigia OpenAI, demonstruoja žmogaus lygio našumą pagal kai kuriuos profesinius ir akademinius etalonus. GPT-4 aplenkė GPT-3.5 įvairiuose modeliuojamuose egzaminuose, įskaitant vienodo teisės baro egzaminą, LSAT, GRE ir kelis AP dalykų egzaminus.

 

 Atminkite, kad, laikui bėgant, GPT-3.5 ir GPT-4 našumas pasikeitė. 2023 m. liepos mėn. Stanfordo dokumente buvo nurodytos kelios užduotys, įskaitant pirminio skaičiaus identifikavimą, kurių elgesys labai skyrėsi nuo 2023 m. kovo iki 2023 m. birželio mėn.

 

 „ChatGPT“ ir „BingGPT“ yra pokalbių robotai, kurie iš pradžių buvo pagrįsti „gpt-3.5-turbo“, o 2023 m. kovo mėn. buvo atnaujinti, kad būtų galima naudoti GPT-4. Šiuo metu, norėdami pasiekti „ChatGPT“ versiją, pagrįstą GPT-4, turite užsiprenumeruoti „ChatGPT Plus“. Standartinis „ChatGPT“, pagrįstas GPT-3.5, buvo apmokytas, remiantis duomenimis, kurie nutrūko 2021 m. rugsėjo mėn.

 

 BingGPT, dar žinomas, kaip „The New Bing“, kurį galite pasiekti, naudodami „Microsoft Edge“ naršyklę, taip pat buvo apmokytas 2021 m. nutrūkusių duomenų. Paklaustas robotas tvirtina, kad nuolat mokosi ir atnaujina jo žinias nauja informacija iš žiniatinklio.

 

 2023 m. kovo pradžioje Honkongo mokslo ir technologijų universiteto Dirbtinio intelekto tyrimų centro profesorius Pascale Fung skaitė pranešimą apie ChatGPT vertinimą. Verta skirti valandą tam pažiūrėti.

 

 LaMDA

 

 LaMDA (angl. Language Model for Dialogue Applications), „Google“ 2021 m. „proveržio“ pokalbių technologija, yra transformatoriumi pagrįstas kalbos modelis, parengtas dialogui ir sureguliuotas taip, kad žymiai pagerintų jo atsakymų jautrumą ir specifiškumą. Viena iš LaMDA privalumų yra tai, kad ji gali susidoroti su žmonių pokalbiuose dažnai pasitaikančiais temų poslinkiais.

 

 PaLM

 

 PaLM (Pathways Language Model) yra 2022 m. tankus tik dekoderis skirtas transformatoriaus modeliui iš „Google Research“ su 540 milijardų parametrų, parengtas, naudojant Pathways sistemą. PaLM buvo apmokytas, naudojant anglų ir daugiakalbių duomenų rinkinių, apimančių aukštos kokybės žiniatinklio dokumentus, knygas, Vikipediją, pokalbius ir GitHub kodą, derinį. „Google“ taip pat sukūrė „be nuostolių“ žodyną, kuris išsaugo visus tarpus (ypač svarbius kodui), padalija iš žodyno nepriklausančius Unikodo simbolius į baitus ir padalija skaičius į atskirus žetonus, po vieną kiekvienam skaitmeniui.

 

 „PaLM-Coder“ yra „PaLM 540B“ versija, tiksliai suderinta tik „Python“ kodo duomenų rinkinyje.

 

 PaLM-E

 

 PaLM-E yra 2023 m. įkūnytas (robotikai) daugiarūšis kalbos modelis iš Google. Tyrėjai pradėjo nuo PaLM ir „įkūnijo“ jį (angl. embodied) (tai atspindi E raidė PaLM-E), papildydami jį jutiklio duomenimis iš roboto agento. „PaLM-E“ taip pat yra bendras regėjimo ir kalbos modelis; be PaLM, jame yra ViT-22B regėjimo modelis.

 

 Bardas

 

 „Bard“ yra 2023 m. „Google“ pokalbio AI paslauga, pagrįsta LaMDA. „Google Bard“ buvo išleistas 2023 m. kovo 21 d. ir visuotinai pasiekiamas 2023 m. gegužės 10 d.

 

 „Bard“ buvo atnaujintas kelis kartus nuo jo išleidimo. 2023 m. balandžio mėn. ji įgijo galimybę generuoti kodą 20 programavimo kalbų. 2023 m. liepos mėn. jis gavo palaikymą įvesties 40 žmonių kalbomis, įtraukė „Google Lens“ ir pridėjo teksto į kalbą galimybių daugiau, nei 40 žmonių kalbų.

 

 LLAMA

 

 LLaMA (Large Language Model Meta AI) yra 65 milijardų parametrų „neapdorotas“ didelis kalbos modelis, kurį 2023 m. vasario mėn. išleido Meta AI (anksčiau žinomas, kaip Meta-FAIR).

 

 Didelėje kalbų modelių erdvėje pageidautina mokyti mažesnius pagrindinius modelius, tokius, kaip LLaMA, nes norint išbandyti naujus metodus, patvirtinti kitų darbą ir ištirti naujus naudojimo atvejus, reikia daug mažiau skaičiavimo galios ir išteklių. Pamatiniai modeliai treniruojami, naudojant didelį nepažymėtų duomenų rinkinį, todėl jie puikiai tinka įvairioms užduotims derinti.

 

 LLaMA buvo išleista kelių dydžių, kartu su modelio kortele, kurioje išsamiai aprašyta, kaip ji buvo sukurta. Iš pradžių turėjote paprašyti patikros punktų ir žetonų, bet dabar jie yra atvirai prieinami: atsisiunčiamas torrentas. Pasak Yann LeCun iš Meta AI, 4chan paskelbė kažkas, kas tinkamai gavo modelius, pateikdamas prašymą.

 

 Lama 2

 

 „Llama 2“ yra naujos kartos „Meta AI“ didelės kalbos modelis, parengtas 2023 m. sausio–liepos mėn., naudojant 40 % daugiau duomenų (2 trilijonai žetonų iš viešai prieinamų šaltinių) nei „LLaMA 1“ ir dvigubai ilgesnis kontekstas (4096). „Llama 2“ yra įvairių parametrų dydžių – 7 milijardų, 13 milijardų ir 70 milijardų – taip pat iš anksto paruoštų ir tiksliai suderintų variantų. „Meta AI“ vadina „Llama 2“ atviruoju šaltiniu, tačiau kai kurie su tuo nesutinka, nes jame yra apribojimų dėl priimtino naudojimo. Be bendruomenės licencijos galima įsigyti ir komercinę licenciją.

 

 „Llama 2“ yra automatiškai regresuojantis kalbos modelis, kuriame naudojama optimizuota transformatoriaus architektūra. Suderintose versijose naudojamas prižiūrėtas koregavimas (SFT) ir sustiprintas mokymasis su žmogaus grįžtamuoju ryšiu (RLHF), kad atitiktų žmogaus pageidavimus dėl naudingumo ir saugumo. „Llama 2“ šiuo metu yra tik anglų kalba. Modelio kortelėje pateikiami etaloniniai rezultatai ir anglies pėdsako statistika. Tyrimo dokumente „Llama 2: Open Foundation and Fine-Tuned Chat Models“ pateikiama papildomos informacijos.

 

 Mokymas Llama-2-chat IDG

 

 „Llama 2“ yra iš anksto apmokytas, naudojant viešai prieinamus internetinius duomenis. Tada naudojant prižiūrimą koregavimą, sukuriama pradinė Llama-2-chat versija. Be to, „Llama-2-chat“ pakartotinai tobulinamas, naudojant sustiprintą mokymąsi iš žmogaus grįžtamojo ryšio (RLHF), įskaitant atmetimo atranką ir proksimalinės politikos optimizavimą.

 

Claude 2

 

 Anthropic's Claude 2, išleistas 2023 m. liepos mėn., vienu raginimu priima iki 100 000 žetonų (apie 70 000 žodžių) ir gali sukurti istorijas iki kelių tūkstančių žetonų. Claude'as gali redaguoti, perrašyti, apibendrinti, klasifikuoti, išgauti struktūrinius duomenis, atsakyti į klausimus ir duoti atsakymus pagal turinį ir kt. Jame daugiausiai išmokta anglų kalba, tačiau jis puikiai veikia ir įvairiomis kitomis įprastomis kalbomis, tačiau vis tiek gali bendrauti retesnėmis kalbomis. Claude'as taip pat turi daug žinių apie programavimo kalbas.

 

 Claude'as pagal konstituciją buvo išmokytas būti naudingas, sąžiningas ir nekenksmingas (HHH, angl.), o taip pat buvo sukurtas, kad būtų nekenksmingesnis ir sunkiau paskatintas sukurti įžeidžiančius ar pavojingus rezultatus. Ji nesinaudoja jūsų duomenimis ir nesikreipia į internetą, kad gautų atsakymus, nors galite pateikti Claude'ui tekstą iš interneto ir paprašyti jo atlikti užduotis su tuo turiniu. „Claude“ yra prieinama vartotojams JAV ir JK, kaip nemokama beta versija, o ją priėmė komerciniai partneriai, tokie, kaip „Jasper“ (generacinė AI platforma), „Sourcegraph Cody“ (kodinė AI platforma) ir „Amazon Bedrock“.

 

 Išvada

 

 Kaip matėme, keliose įmonėse aktyviai kuriami dideli kalbų modeliai, o naujos versijos daugiau ar mažiau kas mėnesį pristatomos iš OpenAI, Google AI, Meta AI ir Anthropic. Nors nė vienas iš šių LLM nepasiekia tikro dirbtinio bendro intelekto (AGI), nauji modeliai dažniausiai gerėja, palyginti su senesniais. Vis dėlto dauguma LLM yra linkę į haliucinacijas ir kitus būdus nukrypti nuo bėgių ir kai kuriais atvejais gali pateikti netikslius, šališkus ar kitokius nepriimtinus atsakymus į vartotojų raginimus. 

 

Kitaip tariant, turėtumėte juos naudoti tik tuo atveju, jei galite patikrinti, ar jų išvestis yra teisinga." [1]

 

 

1. Large language models: The foundations of generative AI. Heller, Martin.  InfoWorld.com; San Mateo (Nov 14, 2023).