Mokslas, studijos ir ekonomika: Kaip dirbtinis intelektas mokosi skaityti vaizdus

2023 m. spalio 20 d., penktadienis

Kaip dirbtinis intelektas mokosi skaityti vaizdus

   „Šiuo metu „ChatGPT“ gauna atnaujinimą, leidžiantį analizuoti įkeltus vaizdus. Dirbtinis intelektas (AI) neapsiriboja vien vaizdų atpažinimu – ir atveria naujus ryšius.

     „ChatGPT-4V“ yra naujausio „Open AI“ (chat.openai.com) populiariojo dirbtinio intelekto posūkio pavadinimas. V reiškia regėjimą. Programa tampa įvairiarūšė, o tai reiškia, kad dabar galima įvesti ne tik rašytines instrukcijas („raginimus“), bet ir vaizdus bei garsą. Funkcija palaipsniui pristatoma visame pasaulyje mokamos ChatGPT versijos naudotojams (t. y. ne nemokamoje 3.5 versijoje).

     „Open AI“ arba pagrindinis finansinis rėmėjas „Microsoft“ jau prieš kelias savaites suaktyvino tokią vaizdų įkėlimo į „Microsoft Bing Chat“ funkciją. Tačiau daugelio Bing užklausų rezultatas buvo ir vis dar yra netinkamas naudoti. Bing Chat dažnai haliucinuoja vaizdais. Mes dar kartą atsitiktine tvarka išbandėme toliau nurodytas naujojo ChatGPT-4V užklausas „Bing Chat“ – rezultatai gerokai atsilieka nuo naujojo GPT-4V.

    Vaizdo AI paprastai atpažįsta tokius objektus, kaip Marksburgo pilis iš tolo. Naktiniai kadrai, tokie kaip Ehrenbreitstein tvirtovė Koblence, taip pat dažnai nėra problema.

     Viena iš paprastesnių programų: įkeliate vaizdą ir klausiate, ką matote. Pavyzdžiui, AI GPT-4V atpažįsta tokius lankytinus objektus, kaip Marksburgo pilis Vidurio Reine arba Ehrenbreitstein tvirtovė Koblence. Pagal pavaizduotus automobilius ir jų valstybinius numerius jis taip pat gali padėti nustatyti vietą, kurioje buvo padaryta nuotrauka.

     Be vidutiniškai linksmo vietų spėliojimo, galimos rimtos programos. Į GPT-4V drąsiai padavėme surinktų grybų nuotrauką ir paklausėme, ar tarp jų nėra nuodingų grybų. Aparatas išanalizavo po skubaus įspėjimo apie klaidingumą: aukščiau esančiame paveikslėlyje esantys oranžinės spalvos grybai gali būti voveraitės, tačiau balti ir pilki grybai viduryje buvo sunkiai atpažįstami; tamsesnio paviršiaus grybai gali būti baravykai. (Virėjas, šios srities ekspertas, išgyveno po šio valgio.)

    Įkeliant dvi vadinamųjų Sinus Milieus diagramas 2021 ir 2010 m., dirbtinis intelektas pateikia mažiau gyvybei pavojingus atsakymus. Juose tikslinės grupės išsidėsčiusios pagal socialinius, ekonominius ir kultūrinius kriterijus ir įvardijamos nupieštais ovalais. Mašina teisingai atpažįsta postmaterialinę ir neoekologinę aplinką jaunesnėje grafikos versijoje, o sociologijos studentas tuo džiaugiasi. Mašina nesprendžia buržuazinio vidurio išnykimo – akivaizdu, kad tam vis dar reikia parengtų sociologijos ekspertų.

     AI taip pat gali suprasti sudėtingesnes diagramas, bet ne visada be klaidų. Koronos pandemijos metu galiojo sudėtingos karantino taisyklės, jei biure dirbantis kolega užsikrėtė. 2021 m. kovo mėn. [paroda] paaiškino šias taisykles.

     Po to, kai vaizdas buvo įkeltas į GPT-4V, kaip JPG failas, buvo pateiktas raginimas: kiek laiko turiu būti karantine, jei

     a) pirmadienį artimai bendravo su kolega,

     b) šiandien yra trečiadienis ir

     c) jis paskambino sergantis,

     d) Ką tik padariau teigiamą PGR testą ir

     e) pats rodau simptomus?

     Mašina reagavo pagal diagramą:

     "Tuoj pat privalote izoliuotis. [...] Kadangi paskutinis kontaktas buvo pirmadienį, o šiandien yra trečiadienis, karantine būtumėte iki kito trečiadienio (10 dienų po kontakto), jei izoliuositės ketvirtadienį (11 dieną). ) "Jei atliksite testą ir rezultatas bus neigiamas, galite nutraukti karantiną. Jei nuspręsite neatlikti tyrimo, turėsite likti karantine iki kito sekmadienio (14 dienų po kontakto).

     Svarbu šiuos teiginius išsamiai patikrinti diagramoje. Kai buvo atliekami išsamesni tyrimai, aparatas kartais susipainiodavo su savaitės dienomis – tikriausiai, ir dėl neaiškių formuluočių šaltinyje.

     Tas pats pasakytina ir apie techninę DAX analizę. Į neseniai paskelbtą straipsnį F.A.Z. paskelbta diagrama, įkelta į GPT-4V, AI pažymėjo, atsakydamas į raginimą:

     Raginimas: tai Dax kreivė. Paaiškink man. Įeiti dabar ar dar ne?

     KI: Diagrama rodo DAX kainų pokyčius per tam tikrą laikotarpį. Augimo tendencija: raudona tendencijos linija rodo bendrą Dax augimo tendenciją. Tai reiškia, kad nagrinėjamuoju laikotarpiu bendra rinka turėjo tendenciją kilti. Atsparumo zona: Atrodo, kad sritis nuo 16 300 iki 16 500 yra pasipriešinimo zona, nes kaina šioje srityje sunkiai stengiasi toliau augti. [...] Ar turėtumėte įsitraukti dabar, ar ne, priklauso nuo įvairių veiksnių: rizikos tolerancijos, investavimo horizonto, rinkos sąlygų ir kt. pagrindinių duomenų.

     Čia mes sutrumpinome atsakymą. Dėl to mašina nepateikia jokių aiškių rekomendacijų, bet bent jau suteikia naudingą įžanginę diskusiją. Būtų gerai, jei tada galėsite perskaityti išsamesnę redakcinės komandos eksperto analizę aukščiau pateiktame tekste.

     Klasikinė smegenų šturmo idėja yra lenta, ant kurios keli dalyviai pritvirtina spalvingus popieriaus lapus su ranka rašytais terminais ta tema. Tada kiekvienas priklijuoja spalvingus taškelius ant mėgstamiausių. Prieš kruopščiai apžiūrėdami nufotografuotą lentą, įveskite ją, kaip lentelę, ir tada suskaičiuokite taškus, perduodate vaizdą vaizdo AI. Raginimas: daugelyje popieriaus lapų paveikslėlyje yra spalvingų taškų. Padarykite iš jos lentelę ir suskaičiuokite taškus ant kiekvieno popieriaus lapo.

     Savo darbe ChatGPT-4V kūrėjai pateikia išsamius tolesnio vaizdų skaitymo AI naudojimo pavyzdžius. Sprendžiami paveiksliniai galvosūkiai, skaitomi ID duomenys, skaičiuojami obuoliai ir vertinami matematiniai brėžiniai. Mašina gali atpažinti žmones, ypač įžymybes, vaizduose, tačiau OpenAI dabar nustatė politiką, neleidžiančią veikti šiai funkcijai. Mašina taip pat leidžia vertinti jausmus tik animacinių filmų personažams, bet ne vaizduojamiems žmonėms. Bet būtų įmanoma.

     Aparatas pateikia patiekalų nuotraukų receptą ir pradinį nenormalaus išminties danties įvertinimą, kad būtų galima analizuoti medicininius žmogaus dantų rentgeno vaizdus. „McDonald's“ ir „Nike“ prekės ženklų logotipai atpažįstami vaizduose. AI gali iššifruoti rašyseną ir paaiškinti ranka rašytus apskritimus laukus nuskaitytose „Excel“ skaičiuoklėse.

     Iš nupiešto buto grindų plano eskizo aparatas nustato bendrą plotą, remdamasis vienu sienos ilgio nurodymu (nors ir niurzgėdamas dėl būtino įvertinimo, kuriame yra klaidų).

     Įrenginys gali sukurti programavimo kodą iš nufotografuotos diagramos, kad jis būtų rodomas, kaip švarus grafikas svetainėje. Dar AI nuskaito numerius iš avarijų automobilių nuotraukų ir paprašius gali pateikti pradinį žalos įvertinimą.

     Esmė ta, kad AI gauna akis ir galingas atpažinimo funkcijas. Tai nėra be klaidų, tačiau AI ir toliau mokosi, remdamasis pasauline vartotojų veikla.

Jei nenorite, kad jūsų įkelti vaizdai ir įvesti raginimai būtų naudojami tolesniam mokymui, galite tai išjungti GPT-4V nustatymuose, skiltyje „Duomenų valdikliai“. Taip pat galioja šie dalykai: būkite atsargūs ir neįkelkite neskelbtinų verslo duomenų ar asmeninių duomenų, pvz., programų į trečiųjų šalių serverius.“ [1]

1.Wie die KI lernt, Bilder zu lesen. Frankfurter Allgemeine Zeitung (online)Frankfurter Allgemeine Zeitung GmbH. Oct 17, 2023. Von Marcus Schwarze

Komentarų nėra:

Rašyti komentarą

Mokslas, studijos ir ekonomika

Sekėjai

Ieškoti šiame dienoraštyje

Subscribe Now: Feed Icon

Tinklaraščio archyvas

Apie mane

2023 m. spalio 20 d., penktadienis

Kaip dirbtinis intelektas mokosi skaityti vaizdus

Komentarų nėra:

Translate