Sekėjai

Ieškoti šiame dienoraštyje

2024 m. liepos 26 d., penktadienis

The Most Important Result From NATO Push Into Ukraine: U.S. Intercepts Russian And Chinese War Planes --- Flights near Alaska reflect closer military, security ties between Moscow and Beijing


"Russian and Chinese warplanes were intercepted off the coast of Alaska by U.S. and Canadian fighters Wednesday, marking the first time strategic bombers from the two U.S. adversaries have operated together near North America, a U.S. official said.

Two Russian TU-95 Bear and two Chinese H-6 bombers flew into the Alaska Air Defense Identification Zone, a buffer zone in international airspace, the North American Aerospace Defense Command said. The flights, which came as close as 200 miles off the Alaskan coast, were the most recent sign of growing military and security cooperation between Moscow and Beijing.

"It's the first time that we've seen these two countries fly together like that [but] they didn't enter our airspace," Defense Secretary Lloyd Austin said Thursday.

The Russian and Chinese bombers all took off from a Russian air base, a development first reported by Air & Space Forces Magazine and confirmed by a second U.S. official. Norad, a joint U.S. and Canadian command that protects against air threats to North America, said the planes weren't seen as a military threat.

The Russian and Chinese planes were closely tracked by U.S. F-16s and F-35s, as well as Canadian CF-18s. "Norad will continue to monitor competitor activity near North America and meet presence with presence," the command said.

Austin said he is concerned about the evolving relationship between the two countries.

In August 2023, a combined Russian and Chinese naval force patrolled near the coast of Alaska in what experts said was the largest such flotilla to approach American shores. Eleven Russian and Chinese ships steamed close to the Aleutian Islands. The ships, which were shadowed by U.S. destroyers and P-8 Poseidon aircraft, didn't enter U.S. territorial waters.

China also has bolstered Russia's military industry by providing it with microelectronics, machine tools and other dual-use components that have helped Moscow make more weapons. Beijing has denied supplying weapons to Russia.

Russia's Defense Ministry said its aerospace forces and the Chinese air force conducted a joint mission. "The activity was carried out as part of the 2024 military cooperation plan and was not directed against third countries."" [1]

1. World News: U.S. Intercepts Russian And Chinese War Planes --- Flights near Alaska reflect closer military, security ties between Moscow and Beijing. Gordon, Michael R; Youssef, Nancy A. 
Wall Street Journal, Eastern edition; New York, N.Y.. 26 July 2024: A.7.   

2024 m. liepos 25 d., ketvirtadienis

Trumpa dirbtinio intelekto istorija

„1956 m. vasarą Dartmuto koledže Naujajame Hampšyre susirinko nedidelė, bet garsi grupė; į ją buvo įtrauktas Claude'as Shannonas, informacijos teorijos pradininkas, ir Herbas Simonas, vienintelis asmuo, kada nors laimėjęs Nobelio atminimo ekonomikos mokslų premiją, kurią skyrė Švedijos karališkoji mokslų akademija ir Kompiuterinių mašinų asociacijos suteiktą Turingo apdovanojimą. Juos sukvietė jaunas mokslininkas Johnas McCarthy, norėdamas aptarti, „kaip priversti mašinas naudoti kalbą, formuoti abstrakcijas ir sąvokas“. Tai buvo pirmasis akademinis susibūrimas, skirtas tam, ką McCarthy pavadino „dirbtiniu intelektu“, ir tai buvo šablonas ateinantiems 60 metų, kad būtų nepasiekta jokia pažanga, nepaisant jų ambicijos.

 

 Dartmuto susitikimas nepažymėjo mokslinių tyrimų apie mašinas, galinčias mąstyti, kaip žmonės, pradžią. Alanas Turingas, kuriam pavadinta Tiuringo premija, apie tai susimąstė; taip padarė ir Johnas von Neumannas, McCarthy įkvėpėjas. 1956 m. jau buvo daug požiūrių į šį klausimą; Istorikai mano, kad viena iš priežasčių, kodėl McCarthy savo projektui sukūrė terminą dirbtinis intelektas, vėliau AI, buvo ta, kad jis buvo pakankamai platus, kad apimtų juos visus, todėl klausimas, kuris iš jų galėtų būti geriausias, lieka atviras. Kai kurie tyrinėtojai pirmenybę teikė sistemoms, pagrįstoms faktų apie pasaulį derinimu su aksiomomis, tokiomis, kaip geometrija ir simbolinė logika, kad būtų galima padaryti išvadas apie tinkamus atsakymus; kiti pirmenybę teikė pastatų sistemoms, kuriose vieno dalyko tikimybė priklausė nuo nuolat atnaujinamų daugelio kitų tikimybių.

 

 Vėlesniais dešimtmečiais buvo daug intelektualinio ažiotažo ir ginčų šia tema, tačiau devintajame dešimtmetyje buvo pasiektas platus sutarimas dėl tolesnio kelio: „ekspertų sistemos“, kurios naudojo simbolinę logiką, kad gautų ir pritaikytų geriausias žmogaus žinias. Visų pirma Japonijos vyriausybė prisilaikė tokių sistemų ir joms reikalingos techninės įrangos idėjos. Tačiau dažniausiai tokios sistemos pasirodė pernelyg nelanksčios, kad susidorotų su realaus pasaulio netvarka. Iki devintojo dešimtmečio pabaigos dirbtinis intelektas buvo nukritęs į nešvankybę, o tai buvo priežodis, reiškiantis pernelyg daug žadantį ir nepakankamą rezultatą. Tie tyrėjai, vis dar dirbantys šioje srityje, pradėjo vengti šio termino.

 

 Būtent iš vienos iš tų atkaklumo kišenių gimė šiandieninis bumas. Kai 1940-aisiais buvo sujungtos smegenų ląstelių – tam tikro tipo neuronų – darbo užuomazgos, kompiuterių mokslininkai pradėjo domėtis, ar mašinos gali būti sujungtos taip pat. 

 

Biologinėse smegenyse yra jungtys tarp neuronų, kurios leidžia aktyvumui viename sukelti arba slopinti kito aktyvumą; tai, ką daro vienas neuronas, priklauso nuo to, ką veikia kiti su juo susiję neuronai. Pirmasis bandymas tai modeliuoti laboratorijoje (Marvin Minsky, Dartmouth dalyvis) naudojo aparatinę įrangą neuronų tinklams modeliuoti. Nuo tada programine įranga buvo imituojami tarpusavyje sujungtų neuronų sluoksniai.

 

 Šie dirbtiniai neuroniniai tinklai nėra užprogramuoti, naudojant aiškias taisykles; vietoj to jie „mokosi“ gavę daugybę pavyzdžių. Šios treniruotės metu jungčių tarp neuronų stiprumas (žinomas, kaip „svoriai“) pakartotinai koreguojamas taip, kad galiausiai tam tikra įvestis sukurtų tinkamą išvestį. Pats Minskis šios idėjos atsisakė, bet kiti jos ėmėsi. Dešimtojo dešimtmečio pradžioje neuroniniai tinklai buvo išmokyti daryti tokius dalykus, kaip padėti rūšiuoti įrašus, atpažįstant ranka rašytus skaičius. Tyrėjai manė, kad pridėjus daugiau neuronų sluoksnių, būtų galima pasiekti sudėtingesnių pasiekimų. Tačiau tai taip pat privertė sistemas veikti daug lėčiau.

 

 Nauja kompiuterio aparatinė įranga padėjo išspręsti problemą. Jo potencialas buvo dramatiškai parodytas 2009 m., kai Stanfordo universiteto mokslininkai padidino greitį, su kuriuo neuroninis tinklas gali veikti 70 kartų, naudodamiesi žaidimų kompiuteriu savo bendrabučio kambaryje. Tai buvo įmanoma, nes, kaip ir visuose kompiuteriuose esantis „centrinis procesorius“ (cpu), šis taip pat turėjo „grafikos apdorojimo bloką“ (gpu), kad būtų galima sukurti žaidimų pasaulius ekrane. GPU buvo sukurtas taip, kad būtų tinkamas neuroninio tinklo kodui paleisti.

 

 Sujungus šį aparatinės įrangos pagreitį su efektyvesniais mokymo algoritmais, tinklai su milijonais jungčių galėjo būti apmokyti per protingą laiką; neuroniniai tinklai galėtų apdoroti didesnes įvestis ir, svarbiausia, jiems būtų suteikta daugiau sluoksnių. Šie „gilesni“ tinklai pasirodė esą daug pajėgesni.

 

 Šio naujo požiūrio, kuris buvo žinomas, kaip „gilus mokymasis“, galia išryškėjo 2012 m. „ImageNet Challenge“. Iššūkyje konkuruojančioms vaizdo atpažinimo sistemoms buvo suteikta daugiau, nei milijono, pažymėtų vaizdo failų duomenų bazė. Bet kuriam žodžiui, pavyzdžiui, „šuo“ ar „katė“, duomenų bazėje buvo keli šimtai nuotraukų. Vaizdo atpažinimo sistemos būtų apmokytos, naudojant šiuos pavyzdžius, „sužymėti“ įvestį vaizdų pavidalu į išvestį vieno žodžio aprašymo forma. Tada sistemos buvo užginčytos sukurti tokius aprašymus, kai pateikiami anksčiau nematyti bandomieji vaizdai. 2012 m. komanda, vadovaujama Geoffo Hintono, iš tuometinio Toronto universiteto, naudojo gilų mokymąsi, kad pasiektų 85 % tikslumą. Tai akimirksniu buvo pripažinta, kaip proveržis.

 

 Iki 2015 m. beveik visi, vaizdo atpažinimo srityje dirbantys, asmenys naudojo gilų mokymąsi, o „ImageNet Challenge“ nugalėtojų tikslumas siekė 96 % – geriau, nei vidutinis žmogaus rezultatas. Gilus mokymasis taip pat buvo taikomas, sprendžiant daugybę kitų „problemų, skirtų žmonėms“, kurias galima susiaurinti iki vieno tipo dalykų susiejimo su kitais: kalbos atpažinimas (garso susiejimas su tekstu), veido atpažinimas (veidų susiejimas su vardais) ir vertimas.

 

 Visose šiose programose didžiulis duomenų kiekis, kurį buvo galima pasiekti internetu, buvo labai svarbus sėkmei; be to, internetu besinaudojančių, žmonių skaičius bylojo apie didelių rinkų galimybę. Ir kuo didesni (ty gilesni) tinklai buvo sukurti ir kuo daugiau mokymo duomenų jiems buvo suteikta, tuo labiau pagerėjo jų veikimas.

 

 Gilus mokymasis netrukus buvo pritaikytas visuose naujuose produktuose ir paslaugose. Atsirado balsu valdomi įrenginiai, tokie, kaip „Amazon“ „Alexa“. Internetinės transkripcijos paslaugos tapo naudingos. Interneto naršyklės siūlė automatinius vertimus. Pasakyti, kad tokius dalykus įgalino dirbtinis intelektas, ėmė skambėti šauniai, o ne gėdingai, nors tai taip pat buvo šiek tiek perteklinis dalykas; beveik visos technologijos, anksčiau ir dabar vadinamos AI, iš tikrųjų priklauso nuo gilaus mokymosi po variklio dangčiu.

 

 2017 m. prie kiekybinės naudos buvo pridėtas kokybinis pokytis, kurį suteikia didesnė skaičiavimo galia ir daugiau duomenų: naujas būdas sudaryti jungtis tarp neuronų, vadinamas transformatoriumi. Transformatoriai leidžia neuroniniams tinklams sekti įvesties šablonus, net jei modelio elementai yra toli vienas nuo kito, tokiu būdu, kad jie galėtų skirti „dėmesį“ tam tikroms duomenų savybėms.

 

 Transformatoriai leido tinklams geriau suvokti kontekstą, o tai jiems pritaikė metodiką, vadinamą „savęs prižiūrimu mokymusi“. Iš esmės kai kurie žodžiai treniruočių metu atsitiktinai ištrinami, o modelis pats mokosi užpildyti labiausiai tikėtiną kandidatą. Kadangi mokymo duomenų nereikia iš anksto pažymėti, tokius modelius galima apmokyti, naudojant milijardus žodžių neapdoroto teksto, paimto iš interneto.

 

 Atsižvelkite į savo kalbos modelį

 

 Transformatoriumi pagrįsti didelių kalbų modeliai (LLM) pradėjo pritraukti platesnį dėmesį 2019 m., kai startuolis OpenAI (GPT reiškia generatyvų iš anksto parengtą transformatorių) išleido modelį, pavadintą GPT-2. Paaiškėjo, kad tokie LLM gali „pademonstruoti“ elgesį, kurio jie nebuvo specialiai apmokyti. Įsisavinę didžiulį kalbos kiekį, jie ne tik stebėtinai sugebėjo atlikti kalbines užduotis, pvz., apibendrinimą ar vertimą, bet ir tokius dalykus, kaip paprasta aritmetika ir programinės įrangos rašymas, kurie buvo numanomi mokymo duomenyse. 

 

Mažiau laiminga, tai taip pat reiškė, kad jie atkartojo jiems teikiamų duomenų šališkumą, o tai reiškė, kad jų produkcijoje išryškėjo daug žmonių visuomenėje vyraujančių išankstinių nusistatymų.

 

 2022 m. lapkritį visuomenei buvo pristatytas didesnis OpenAI modelis GPT-3.5 pokalbių roboto pavidalu. Kiekvienas, turintis žiniatinklio naršyklę, gali įvesti raginimą ir gauti atsakymą. Jokia plataus vartojimo prekė niekada nebuvo taip greitai išpopuliarėjusi. Per kelias savaites „ChatGPT“ sukūrė viską nuo kolegijos esė iki kompiuterio kodo. AI padarė dar vieną didelį šuolį į priekį.

 

 Pirmoji AI varomų produktų grupė buvo pagrįsta atpažinimu, o antroji – generavimu. Giluminio mokymosi modeliai, tokie, kaip Stable Diffusion ir DALL-E, kurie taip pat debiutavo maždaug tuo metu, naudojo techniką, vadinamą difuzija, kad teksto raginimus paverstų vaizdais. Kiti modeliai gali sukurti stebėtinai tikrovišką vaizdo įrašą, kalbą ar muziką.

 

 Šuolis nėra tik technologinis. Daiktų kūrimas daro skirtumą. „ChatGPT“ ir konkurentai, tokie, kaip „Gemini“ (iš „Google“) ir Claude'as (iš Anthropic, kurį anksčiau įkūrė OpenAI tyrėjai), pateikia skaičiavimų rezultatus, kaip ir kitos gilaus mokymosi sistemos. Tačiau tai, kad jie atsako į užklausas su naujovėmis, verčia juos jausti labai nepanašiais į programinę įrangą, kuri atpažįsta veidus, diktuoja ar verčia meniu. Atrodo, kad jie „naudoja kalbą“ ir „sudaro abstrakcijas“, kaip tikėjosi McCarthy.

 

 Šioje trumpų serijoje bus apžvelgta, kaip šie modeliai veikia, kiek dar gali išaugti jų galios, kokiems naujiems tikslams jie bus panaudoti, taip pat kam jie nebus arba neturėtų būti naudojami." [1]

 

1.  A short history of AI. The Economist; London Vol. 452, Iss. 9406,  (Jul 20, 2024): 53, 54.

A short history of AI


"Over the summer of 1956 a small but illustrious group gathered at Dartmouth College in New Hampshire; it included Claude Shannon, the begetter of information theory, and Herb Simon, the only person ever to win both the Nobel Memorial Prize in Economic Sciences awarded by the Royal Swedish Academy of Sciences and the Turing Award awarded by the Association for Computing Machinery. They had been called together by a young researcher, John McCarthy, who wanted to discuss “how to make machines use language, form abstractions and concepts” and “solve kinds of problems now reserved for humans”. It was the first academic gathering devoted to what McCarthy dubbed “artificial intelligence”. And it set a template for the field’s next 60-odd years in coming up with no advances on a par with its ambitions.

The Dartmouth meeting did not mark the beginning of scientific inquiry into machines which could think like people. Alan Turing, for whom the Turing prize is named, wondered about it; so did John von Neumann, an inspiration to McCarthy. By 1956 there were already a number of approaches to the issue; historians think one of the reasons McCarthy coined the term artificial intelligence, later AI, for his project was that it was broad enough to encompass them all, keeping open the question of which might be best. Some researchers favoured systems based on combining facts about the world with axioms like those of geometry and symbolic logic so as to infer appropriate responses; others preferred building systems in which the probability of one thing depended on the constantly updated probabilities of many others.

The following decades saw much intellectual ferment and argument on the topic, but by the 1980s there was wide agreement on the way forward: “expert systems” which used symbolic logic to capture and apply the best of human know-how. The Japanese government, in particular, threw its weight behind the idea of such systems and the hardware they might need. But for the most part such systems proved too inflexible to cope with the messiness of the real world. By the late 1980s AI had fallen into disrepute, a byword for overpromising and underdelivering. Those researchers still in the field started to shun the term.

It was from one of those pockets of perseverance that today’s boom was born. As the rudiments of the way in which brain cells—a type of neuron—work were pieced together in the 1940s, computer scientists began to wonder if machines could be wired up the same way. In a biological brain there are connections between neurons which allow activity in one to trigger or suppress activity in another; what one neuron does depends on what the other neurons connected to it are doing. A first attempt to model this in the lab (by Marvin Minsky, a Dartmouth attendee) used hardware to model networks of neurons. Since then, layers of interconnected neurons have been simulated in software.

These artificial neural networks are not programmed using explicit rules; instead, they “learn” by being exposed to lots of examples. During this training the strength of the connections between the neurons (known as “weights”) are repeatedly adjusted so that, eventually, a given input produces an appropriate output. Minsky himself abandoned the idea, but others took it forward. By the early 1990s neural networks had been trained to do things like help sort the post by recognising handwritten numbers. Researchers thought adding more layers of neurons might allow more sophisticated achievements. But it also made the systems run much more slowly.

A new sort of computer hardware provided a way around the problem. Its potential was dramatically demonstrated in 2009, when researchers at Stanford University increased the speed at which a neural net could run 70-fold, using a gaming PC in their dorm room. This was possible because, as well as the “central processing unit” (cpu) found in all pcs, this one also had a “graphics processing unit” (gpu) to create game worlds on screen. And the gpu was designed in a way suited to running the neural-network code.

Coupling that hardware speed-up with more efficient training algorithms meant that networks with millions of connections could be trained in a reasonable time; neural networks could handle bigger inputs and, crucially, be given more layers. These “deeper” networks turned out to be far more capable.

The power of this new approach, which had come to be known as “deep learning”, became apparent in the ImageNet Challenge of 2012. Image-recognition systems competing in the challenge were provided with a database of more than a million labelled image files. For any given word, such as “dog” or “cat”, the database contained several hundred photos. Image-recognition systems would be trained, using these examples, to “map” input, in the form of images, onto output in the form of one-word descriptions. The systems were then challenged to produce such descriptions when fed previously unseen test images. In 2012 a team led by Geoff Hinton, then at the University of Toronto, used deep learning to achieve an accuracy of 85%. It was instantly recognised as a breakthrough.

By 2015 almost everyone in the image-recognition field was using deep learning, and the winning accuracy at the ImageNet Challenge had reached 96%—better than the average human score. Deep learning was also being applied to a host of other “problems…reserved for humans” which could be reduced to the mapping of one type of thing onto another: speech recognition (mapping sound to text), face-recognition (mapping faces to names) and translation.

In all these applications the huge amounts of data that could be accessed through the internet were vital to success; what was more, the number of people using the internet spoke to the possibility of large markets. And the bigger (ie, deeper) the networks were made, and the more training data they were given, the more their performance improved.

Deep learning was soon being deployed in all kinds of new products and services. Voice-driven devices such as Amazon’s Alexa appeared. Online transcription services became useful. Web browsers offered automatic translations. Saying such things were enabled by AI started to sound cool, rather than embarrassing, though it was also a bit redundant; nearly every technology referred to as AI then and now actually relies on deep learning under the bonnet.

In 2017 a qualitative change was added to the quantitative benefits being provided by more computing power and more data: a new way of arranging connections between neurons called the transformer. Transformers enable neural networks to keep track of patterns in their input, even if the elements of the pattern are far apart, in a way that allows them to bestow “attention” on particular features in the data.

Transformers gave networks a better grasp of context, which suited them to a technique called “self-supervised learning”. In essence, some words are randomly blanked out during training, and the model teaches itself to fill in the most likely candidate. Because the training data do not have to be labelled in advance, such models can be trained using billions of words of raw text taken from the internet.

Mind your language model

Transformer-based large language models (LLMs) began attracting wider attention in 2019, when a model called GPT-2 was released by OpenAI, a startup (GPT stands for generative pre-trained transformer). Such LLMs turned out to be capable of “emergent” behaviour for which they had not been explicitly trained. Soaking up huge amounts of language did not just make them surprisingly adept at linguistic tasks like summarisation or translation, but also at things—like simple arithmetic and the writing of software—which were implicit in the training data. Less happily it also meant they reproduced biases in the data fed to them, which meant many of the prevailing prejudices of human society emerged in their output.

In November 2022 a larger OpenAI model, GPT-3.5, was presented to the public in the form of a chatbot. Anyone with a web browser could enter a prompt and get a response. No consumer product has ever taken off quicker. Within weeks ChatGPT was generating everything from college essays to computer code. AI had made another great leap forward.

Where the first cohort of AI-powered products was based on recognition, this second one is based on generation. Deep-learning models such as Stable Diffusion and DALL-E, which also made their debuts around that time, used a technique called diffusion to turn text prompts into images. Other models can produce surprisingly realistic video, speech or music.

The leap is not just technological. Making things makes a difference. ChatGPT and rivals such as Gemini (from Google) and Claude (from Anthropic, founded by researchers previously at OpenAI) produce outputs from calculations just as other deep-learning systems do. But the fact that they respond to requests with novelties makes them feel very unlike software which recognises faces, takes dictation or translates menus. They really do seem to “use language” and “form abstractions”, just as McCarthy had hoped.

This series of briefs will look at how these models work, how much further their powers can grow, what new uses they will be put to, as well as what they will not, or should not, be used for." [1]

1.  A short history of AI. The Economist; London Vol. 452, Iss. 9406,  (Jul 20, 2024): 53, 54.