„Tikrai, čia yra galimas įvadas į jūsų temą...“ – pradėjo neseniai paskelbtas straipsnis moksliniame žurnale „Surfaces and Interfaces“. Dėmesingi skaitytojai galėjo susimąstyti, kam tiksliai buvo skirta ta keista įžanginė eilutė. Jie taip pat galėjo susimąstyti, ar paskesnį straipsnį baterijų technologijos tema parašė žmogus arba mašina.
Šį klausimą užduoda vis daugiau mokslinių straipsnių skaitytojų.
Dideli kalbų modeliai (LLM) dabar yra daugiau, nei pakankamai geri, kad padėtų parašyti mokslinį darbą. Jie gali įkvėpti gyvybės tankiai mokslinei prozai ir pagreitinti rengimo procesą, ypač tiems, kuriems anglų kalba nėra gimtoji.
Toks naudojimas taip pat susijęs su rizika: pavyzdžiui, LLM yra ypač jautrūs šališkumui ir gali išmesti daugybę tikėtinų nesąmonių.
Vis dėlto neaišku, kiek tai buvo plačiai paplitusi problema.
Neseniai „arXiv“ paskelbtame išankstiniame spaudinyje mokslininkai iš Tiubingeno universiteto Vokietijoje ir Šiaurės Vakarų universiteto Amerikoje pateikia šiek tiek aiškumo. Jų tyrimai, kurie dar nebuvo recenzuoti, rodo, kad mažiausiai viename iš dešimties naujų mokslinių straipsnių yra medžiaga, kurią sukūrė LLM. Tai reiškia, kad vien šiais metais bus paskelbta daugiau, nei 100 000 tokių straipsnių. Ir tai yra apatinė riba. Apskaičiuota, kad kai kuriose srityse, pavyzdžiui, kompiuterių mokslo, daugiau nei 20 % tyrimų santraukų yra LLM sukurto teksto. Tarp Kinijos kompiuterių mokslininkų darbų šis skaičius yra vienas iš trijų.
Aptikti LLM sukurtą tekstą nėra lengva. Tyrėjai paprastai rėmėsi vienu iš dviejų metodų: aptikimo algoritmais, išmoktais atpažinti signalinius žmonių prozos ritmus, ir paprastesnę LLM neproporcingai mėgstamų įtartinų žodžių, tokių, kaip „pagrindinis“ ar „sfera“, medžioklę. Abu metodai remiasi „pagrindinės tiesos“ duomenimis: viena krūva tekstų, parašytų žmonių, o kita – mašinų. Juos surinkti stebėtinai sunku: laikui bėgant, keičiasi ir žmonių, ir mašinų sukurtas tekstas, vystantis kalboms ir atnaujinant modelius. Be to, šios problemos tyrėjai paprastai renka LLM tekstą, patys ragindami šiuos modelius, ir tai, kaip jie tai daro, gali skirtis nuo to, kaip elgiasi mokslininkai.
Naujausias Dmitrijaus Kobako iš Tiubingeno universiteto ir jo kolegų tyrimas rodo trečią būdą, visiškai apeinant pagrindines tiesos duomenų poreikį. Grupės metodas įkvėptas demografinio darbo dėl perteklinių mirčių, leidžiančių nustatyti mirtingumą, susijusį su įvykiu, atsižvelgiant į numatomų ir stebimų mirčių skaičiaus skirtumus. Lygiai taip pat, kaip perteklinio mirtingumo metodas ieško nenormalaus mirtingumo, jų perteklinio žodyno metodas ieško nenormalaus žodžių vartojimo. Konkrečiai, tyrėjai ieškojo žodžių, kurie mokslinėse santraukose pasirodė žymiai dažniau, nei prognozuojama esamoje literatūroje. Korpusą, kurį jie pasirinko analizuoti, sudarė beveik visų straipsnių anglų kalba, kuriuos galima rasti biomedicininių tyrimų paieškos sistemoje PubMed, paskelbtų nuo 2010 m. sausio mėn. iki 2024 m. kovo mėn., santraukos, iš viso apie 14,2 mln.
Tyrėjai nustatė, kad daugeliu metų žodžių vartojimas buvo gana stabilus: 2013–2019 m. jokiais metais žodžių dažnis nepadidėjo daugiau, nei 1%. Tai pasikeitė 2020 m., kai sprogo „SARS“, „koronavirusas“, „pandemija“, „liga“, „pacientai“ ir „sunkūs“. (Su „Covid“ susiję žodžiai ir toliau nusipelnė neįprastai daug vartojimo iki 2022 m.)
2024 m. pradžioje, praėjus maždaug metams po to, kai LLM, pvz., ChatGPT, tapo plačiai prieinami, atsirado kitokių žodžių. Iš 774 žodžių, kurių vartojimas labai išaugo 2013–2024 m., 329 išaugo per pirmuosius tris 2024 m. mėnesius. Iš viso 280 iš jų buvo susiję su stiliumi, o ne su tema. Įspūdingi pavyzdžiai: „įsigilinimai“, „potencialūs“, „sudėtingi“, „skrupulingai“, „svarbūs“, „reikšmingi“ ir „įžvalgos“.
Labiausiai tikėtina tokio padidėjimo priežastis, pasak mokslininkų, yra LLM pagalba. Kai jie įvertino santraukų, kuriose buvo naudojamas bent vienas perteklinis žodis (praleidžiant žodžius, kurie vis tiek plačiai vartojami), dalį, jie nustatė, kad mažiausiai 10%, tikriausiai, turėjo LLM įvestį. Kadangi PubMed kasmet indeksuoja apie 1,5 mln. straipsnių, tai reikštų, kad šiuo metu su LLM pagalba per metus parašoma daugiau, nei 150 000 straipsnių.
Atrodo, kad kai kuriose srityse tai yra labiau paplitusi praktika, nei kitose. Tyrėjai nustatė, kad kompiuterių moksle buvo naudojama daugiausiai – daugiau, nei 20 %, o ekologijoje – mažiausiai, o apatinė riba buvo mažesnė, nei 5 %. Taip pat buvo skirtumų pagal geografiją: Taivano, Pietų Korėjos, Indonezijos ir Kinijos mokslininkai dažniausiai jais naudojosi, o iš Didžiosios Britanijos ir Naujosios Zelandijos – mažiausiai. (Tyrėjai iš kitų angliškai kalbančių šalių taip pat retai diegė LLM.) Skirtingi žurnalai taip pat davė skirtingus rezultatus. Nature šeimoje priklausančiose, taip pat kitose prestižinėse tokiose, kaip „Science“ ir „Cell“, atrodo, kad LLM pagalbos lygis yra žemas (mažiau, nei 10 %), o „Sensors“ (žurnalas apie jutiklius) viršijo 24 proc.
Perteklinio žodyno metodo rezultatai apytiksliai atitinka rezultatus, gautus, naudojant senesnius aptikimo algoritmus, kurie nagrinėjo mažesnius pavyzdžius iš ribotesnių šaltinių. Pavyzdžiui, 2024 m. balandžio mėn. išleistame išankstiniame leidinyje Stanfordo komanda nustatė, kad 17,5 % kompiuterių mokslo santraukų sakinių, greičiausiai, buvo sukurti LLM. Jie taip pat nustatė mažesnį paplitimą gamtos leidiniuose ir matematikos darbuose (LLM yra baisūs matematikoje). Nustatytas perteklinis žodynas taip pat atitinka esamus įtartinų žodžių sąrašus.
Tokie rezultatai neturėtų pernelyg stebinti. Tyrėjai nuolat pripažįsta LLM naudojimą, rašant dokumentus. Vienoje 2023 m. rugsėjį apklausoje, kurioje dalyvavo 1 600 tyrėjų, daugiau, nei 25 % mokslininkų Nature teigė, kad, rankraščius rašydami, naudojo LLM.
Didžiausia nauda, kurią nurodė pašnekovai, kurių daugelis mokėsi arba naudojo dirbtinį intelektą savo darbe, buvo padėti redaguoti ir versti tiems, kuriems anglų kalba nebuvo gimtoji. Greitesnis ir lengvesnis kodavimas buvo antras, kartu su administracinių užduočių supaprastinimu; mokslinės literatūros apibendrinimas arba tralavimas; ir, iškalbingai, pagreitina tyrimų rankraščių rašymą.
Nepaisant visų šių privalumų, LLM naudojimas rankraščiams rašyti nėra be rizikos. Pavyzdžiui, moksliniai darbai remiasi tiksliu neapibrėžtumo perdavimu, o tai yra sritis, kurioje LLM galimybės išlieka miglotos. Haliucinacijos, kai LLM užtikrintai teigia savo fantazijas, išlieka dažnos, kaip ir polinkis perkalbėti kitų žmonių žodžius, pažodžiui ir be priskyrimo.
Tyrimai taip pat rodo, kad LLM pirmenybę teikia kitiems straipsniams, kurie tam tikroje srityje yra labai cituojami, o tai gali sustiprinti esamą šališkumą ir apriboti kūrybiškumą. Kaip algoritmai, jie taip pat negali būti išvardyti kaip autoriai popieriuje arba atsakyti už padarytas klaidas. Turbūt, labiausiai nerimą kelia tai, kad greitis, kuriuo LLM gali leisti prozą, gali užtvindyti mokslo pasaulį žemos kokybės publikacijomis.
LLM naudojimo akademinė politika keičiasi. Kai kurie žurnalai tai visiškai draudžia. Kiti persigalvojo. Iki 2023 m. lapkričio mėn. „Science“ visą LLM tekstą vadino plagiatu, sakydama: „Galiausiai produktas turi kilti iš nuostabių kompiuterių mūsų galvose ir būti išreikštas jais“. Nuo tada jie pakeitė savo politiką: LLM tekstas dabar leidžiamas, jei dokumentų metodų skyriuje ir lydimuosiuose laiškuose pateikiamos išsamios pastabos apie tai, kaip jie buvo naudojami. Nature ir Cell taip pat leidžia jį naudoti, jei tai aiškiai pripažįstama.
Neaišku, ar tokia politika bus įgyvendinama. Kol kas nėra jokio patikimo metodo, kaip išplauti LLM prozą.
Net žodyno pertekliaus metodas, nors ir naudingas nustatant didelio masto tendencijas, negali pasakyti, ar konkreti santrauka turėjo LLM įvestį.
Ir mokslininkams tereikia vengti tam tikrų žodžių, kad visiškai išvengtų aptikimo.
Kaip sakoma naujajame išankstiniame spaudinyje, tai yra iššūkiai, į kuriuos reikia kruopščiai įsigilinti.“ [1]
1. Scientists, et ai. The Economist; London Vol. 451, Iss. 9403, (Jun 29, 2024): 70, 71.