Mokslas, studijos ir ekonomika: Didysis iššūkis dirbtiniam intelektui: kaip sekėsi 5 pokalbių robotams --- Veikia: OpenAI ChatGPT, Microsoft Copilot, Google Gemini, Anthropic Claude ir Perplexity

„Susipažinkite su modeliais

Turime „OpenAI“ sukurtą „ChatGPT“, kuris garsėja savo universalumu ir gebėjimu atsiminti vartotojo nuostatas.
(„Wall Street Journal“ savininkas „News Corp“ bendradarbiauja su „OpenAI“ turinio licencijavimo srityje.) „Anthropic's Claude“ iš socialiai sąmoningo startuolio yra sukurtas taip, kad nebūtų įžeidžiantis. „Microsoft Copilot“ naudoja „OpenAI“ technologiją ir integruojasi su tokiomis paslaugomis, kaip „Bing“ ir „Microsoft 365“.

„Google“ „Gemini“ pasiekia populiarų paieškos variklį, kad gautų atsakymus realiuoju laiku.

„Perplexity“ yra į tyrimus orientuotas pokalbių robotas, kuris cituoja šaltinius su nuorodomis ir nuolat atnaujina.

Nors kiekviena iš šių paslaugų siūlo nemokamą versiją, naudojome 20 dolerių per mėnesį mokamas versijas, kad pagerintume našumą, kad įvertintume visas jų galimybes, atliekant įvairias užduotis. (Testuodami naudojome naujausią ChatGPT GPT-4o modelį ir Gemini 1.5 Pro modelį.)

Padedami žurnalo naujienų skyriaus redaktoriams ir apžvalgininkams, sukūrėme keletą raginimų, kad išbandytume populiarius naudojimo atvejus, įskaitant kodavimo iššūkius, sveikatos paklausimus ir klausimus apie pinigus. Tie patys žmonės vertino rezultatus, nežinodami, kuris robotas ką pasakė, vertindami juos pagal tikslumą, paslaugumą ir bendrą kokybę. Tada suskirstėme robotus kiekvienoje kategorijoje.

Ištraukėme keletą geriausių ir blogiausių atsakymų į raginimus.

Sveikata

Blogi pokalbių robotų patarimai apie sveikatą gali pakenkti jūsų sveikatai. Uždavėme penkis klausimus, susijusius su nėštumu, svorio kritimu, depresija ir lėtiniais ir staigiais simptomais. Daugelis atsakymų skambėjo panašiai. Mūsų teisėjas, žurnalo sveikatos apžvalgininkas Sumathi Reddy, ieškojo išsamumo, tikslumo ir niuansų.

Klausimas: koks yra geriausias amžius pastoti?

Geriausias atsakymas: vaikų gimimas vėlesniame amžiuje gali suteikti pranašumų, tokių, kaip brandesni tėvai, geresnis finansinis stabilumas ir stipresnė partnerystė.

Blogiausias atsakymas: geriausias laikas pastoti yra tada, kai jaučiatės savimi pasitikinti ir pasiruošusi auginti vaiką.

Pavyzdžiui, kai paklausėme apie geriausią amžių pastoti, Gemini pateikė trumpą, bendrą rekomendaciją, o Perplexity buvo daug gilesnis, net iškeldamas tokius veiksnius, kaip santykiai ir finansinis stabilumas.

Be to, Gemini pateikė kokybiškus atsakymus į kitas užklausas ir užėmė antrąją vietą po kategorijos nugalėtojo „ChatGPT“, kurio atsakymai pagerėjo, atnaujinus GPT-4o.

Finansai

Mes uždavėme robotams tris klausimus žurnalo skaitytojams artimomis ir brangiomis temomis: palūkanų normos, santaupos pensijai ir paveldėjimas. Žurnalo asmeninių finansų redaktorius Jeremy Olshanas uždavė klausimus ir įvertino patarimus, remdamasis aiškumu, kruopštumu ir praktiškumu.

Raginimas: man 40 metų. Aš ką tik paveldėjau pensijines santaupas IRA iš mano senelio su 1 milijonu dolerių. Kiek pinigų man reikia pasiimti šiais metais?

Geriausias atsakymas: kadangi nesate sutuoktinis, greičiausiai, turėsite 10 metų, kad išeikvotumėte sąskaitą, tačiau gali būti išimčių.

Blogiausias atsakymas: sveikiname paveldėjus IRA su nemaža suma!

Čia „ChatGPT“ ir „Copilot“ atsiliko. Claude'as turėjo geriausius atsakymus į Roth prieš tradicinę IRA diskusiją, o Perplexity geriausiai įvertino didelio pajamingumo taupomąsias sąskaitas ir depozitų sertifikatus. Kategorijos nugalėtojas Gemini geriausiai atsakė į klausimą, kada atsiimti lėšas iš paveldėtos 1 milijono dolerių vertės IRA. Tekste buvo pabrėžta, kad be profesionalios pagalbos nereikia skubėti atsiimti pinigų.

Maisto gaminimas

Dirbtinis intelektas (AI) žada padėti virtuvėje, iš dalies suteikdamas šiek tiek aiškumo jūsų šaldytuvo ir sandėliuko chaosui. Asmeninis technologijų redaktorius Wilsonas Rothmanas, aistringas virėjas, išmetė į robotus atsitiktinių ingredientų rinkinį, kad pamatytų, ką jie sugalvojo. Kategorijos nugalėtojas „ChatGPT“ pateikė kūrybišką, bet tikrovišką meniu (sūriu dengta kiauliena, įdaryta obuoliais, su lapinių kopūstų salotomis ir šokoladiniais trapios tešlos sausainiais). Perplexity mus sužavėjo išsamiais gaminimo žingsniais, pateiktais su savo sumaniu meniu.

Tada mes paprašėme robotų šokoladinio deserto recepto, kuriame būtų atsižvelgta į daugelį mitybos apribojimų.

Klausimas: ar galiu kepti šokoladinį pyragą be miltų, be glitimo, be pieno produktų, be riešutų, be kiaušinių? Jei taip, koks receptas?

Geriausias atsakymas: paprastas glajus: ištirpinkite šokolado drožles be pieno (patikrinkite etiketę!), įmaišykite šiek tiek nepieninio pieno.

Blogiausias atsakymas:. . .2 lazdelės nesūdyto sviesto. . .4 dideli kiaušiniai. . .

Gemini paėmė tortą, netgi rekomendavo papildomus papuošimus, pavyzdžiui, ne pienišką glajų. Kita vertus, „Copilot“ iškart nepasiteisino įtraukęs kiaušinius ir sviestą.

Kūrybinis rašymas

Vienas didžiausių netikėtumų buvo skirtumas tarp darbo rašymo ir kūrybinio rašymo. Copilot rašydamas darbui, baigė paskutinis, bet buvo pats juokingiausias ir sumaniausias, kūrybiškai rašydamas. Paprašėme eilėraščio apie kaką ant rąsto. Paprašėme vestuvių tosto su mupetais. Paprašėme išgalvotos gatvės kovos tarp Donaldo Trumpo ir Joe Bideno. Su Copilot anekdotai vis kildavo. Claude'as buvo antras geriausias, protingai pasisakęs apie abu prezidento varžovus.

Raginimas: parašykite vestuvinį tostą Šarui ir Chrisui, kaip liepė Muppets.

Geriausias atsakymas: Gonzo: "Ak, meile! Tai tarsi iš patrankos iššautas į guminių viščiukų krūvą!"

Blogiausias atsakymas: Kermit varlė kartą pasakė: „Gyvenimas yra laiminga daina, kai šalia yra kažkas, kuris dainuoja kartu“.

Prastai pasirodęs „Perplexity“ per klaidą Kermit priskyrė dainą iš 2011 m. miuziklo „The Muppets“.

Apibendrinimas

Žmonėms, kurie tik pradeda naudotis generatyviniais AI pokalbių robotais, apibendrinimas gali būti geriausias dalykas, kurį reikia išbandyti. Tai naudinga ir, greičiausiai, nesukels nenumatytų klaidų.

Kadangi naudojomės mokamomis paslaugomis, galėjome įkelti didesnes teksto dalis, PDF dokumentus ir tinklalapius.

Net aukščiausios kokybės Claude paskyra negalėjo apdoroti žiniatinklio nuorodų. „Mūsų komanda spartina Claude’ą, plečia savo žinių bazę ir tobulina gebėjimą suprasti ir sąveikauti su įvairiausiu turiniu“, – sako Scottas White’as, Anthropic produktų vadovas.

Raginimas: apibendrinkite šį tinklalapį: https://en.wikipedia.org/wiki/Paul_McCartney

Geriausias atsakymas: jam įtakos turėjo jo tėvas (džiazo muzikantas) ir rokenrolo atlikėjai, tokie kaip Little Richard ir Buddy Holly.

Blogiausias atsakymas: atsiprašau, bet negaliu atidaryti URL, nuorodų ar vaizdo įrašų.

Vikipedijos puslapiai, skirti tikrai žinomiems žmonėms, gali būti keblūs, todėl paprašėme Paulo McCartney santraukos. Kai kurie pateikė trumpas ištraukas su akivaizdžiais bitlo faktais. Copilot atsakė perskaitomu kontūro formatu ir įtraukė mažiau žinomus įdomius faktus.

Kategorijos nugalėtojas „Perplexity“ nuolat gerai apibendrino dalykus, įskaitant subtitrus, kuriuos perėmė „YouTube“ vaizdo įraše.

Dabartiniai įvykiai

Ši kategorija yra sudėtingesnė, nei atrodo, nes ne visi pokalbių robotai gali pasiekti žiniatinklį. Paklausėme apie šios vasaros koncertų sudėtį, naujausią informaciją apie kaltinimus, kad Kinija naudoja „TikTok“ šnipinėjimui, ir dabartinę būseną būsimuose prezidento rinkimuose.

Raginimas: kam labiau išeitų laimėti, Trumpui ar Bidenui? Paaiškinkite savo šaltinius ir motyvus.

Geriausias atsakymas: atsižvelgiant į nevienodą duomenų pobūdį, kai abu kandidatai turi didelį nepalankų nusistatymą ir įvairias lyderių pozicijas skirtingose srityse, sunku galutinai pasakyti, kas labiau linkęs laimėti.

Blogiausias atsakymas: aš vis dar mokausi atsakyti į šį klausimą. Tuo tarpu išbandykite „Google“ paiešką.

Kategorijos nugalėtojas „Perplexity“ išliko aukščiausias su subalansuotais argumentais ir patikimu šaltiniu. „ChatGPT“ susvyravo, kai pirmą kartą išbandėme, tačiau GPT-4o atnaujinimas pakėlė jį į antrąją vietą. Gemini nenorėjo atsakyti į mūsų rinkimų klausimą.

BENDRI REZULTATAI

Ką mums pasakė šie olimpiniai iššūkiai? Kiekvienas pokalbių robotas turi unikalių stipriųjų ir silpnųjų pusių, todėl verta juos visus ištirti. Matėme keletą tiesioginių klaidų ir „haliucinacijų“, kai robotai suveikia netikėtomis liestimis ir visiškai viską sugalvoja.

Didžiausia staigmena? Nepaisant didelio atnaujinimo ir didžiulės šlovės, „ChatGPT“ nebuvo lyderis.

Vietoj to, mažiau žinomas, Perplexity buvo mūsų čempionas. „Mes optimizuojame siekdami glaustumo“, – sako Dmitrijus Ševelenko, „Perplexity AI“ verslo vadovas. "Mes suderinome savo modelį glaustumui, o tai verčia jį nustatyti svarbiausius komponentus."

Taip pat manėme, kad pranašumą gali turėti didieji technologijų žaidėjai „Microsoft“ ir „Google“, nors „Copilot“ ir „Gemini“ sunkiai kovojo, kad liktų žaidime. „Google“ atsisakė komentuoti. „Microsoft“ taip pat atsisakė, tačiau neseniai žurnalui pranešė, kad netrukus integruos OpenAI GPT-4o į „Copilot“.

Kadangi dirbtinis intelektas vystosi taip greitai, šie robotai artimiausioje ateityje gali peršokti vienas kitą. Arba bent jau tol, kol jie visi taps „multimodaliniai“ ir galėsime išbandyti jų gebėjimą matyti, girdėti ir skaityti – ir pakeisti mus, kaip dominuojančią žemėje rūšį." [1]

1. The Great AI Challenge: How 5 Chatbots Fared --- In the running: OpenAI's ChatGPT, Microsoft's Copilot, Google's Gemini, Anthropic's Claude and Perplexity. Brown, Dalvin; Dapena, Kara; Stern, Joanna. Wall Street Journal, Eastern edition; New York, N.Y.. 03 June 2024: A.12.

Mokslas, studijos ir ekonomika

Sekėjai

Ieškoti šiame dienoraštyje

Subscribe Now: Feed Icon

Tinklaraščio archyvas

Apie mane

2024 m. birželio 3 d., pirmadienis

Didysis iššūkis dirbtiniam intelektui: kaip sekėsi 5 pokalbių robotams --- Veikia: OpenAI ChatGPT, Microsoft Copilot, Google Gemini, Anthropic Claude ir Perplexity

Komentarų nėra:

Translate