„Pasaulis renka vis daugiau duomenų apie beveik kiekvieną mūsų gyvenimo aspektą.
Šie duomenys dažnai pagerina mūsų gebėjimą analizuoti mus supantį pasaulį, tačiau pasitaiko ir situacijų, kai daugiau duomenų pablogina, o ne pagerina mūsų sprendimus ir pasaulio supratimą.
Ši įžvalga yra augančios ir šiek tiek prieštaringos studijų srities, kurioje nagrinėjami scenarijai, pagal kuriuos mažiau duomenų lemia geresnius statistinius modelius arba geresnius sprendimus, dėmesio centre. Priimant sprendimus su duomenimis, dažnai „mažiau yra daugiau“.
„Idealiame pasaulyje, kai duomenis apdoroja idealus žmogus arba algoritmas, daugiau duomenų yra geriau“, – sakė Jerkeris Denrellas, Warwick universiteto strategijos ir sprendimų priėmimo profesorius. – Tačiau mes ne visada esame tame pasaulyje.
Frazę „mažiau yra daugiau“, kai reikia priimti sprendimus, išpopuliarino vokiečių psichologas Gerdas Gigerenzeris, kurio karjera buvo susijusi su situacijų, kuriose mažiau duomenų lemia geresnių sprendimų priėmimą, nustatymu. Išvados aktualios ir sprendimus priimantiems žmonėms, ir algoritmams.
Šiame lauke nustatoma, kad dažnai nedidelis duomenų taškų skaičius yra labai naudingi ir kad pridėjus duomenų taškus jie tampa vis mažiau naudingi. Jei nenaudojate atsargiai, jie gali sujaukti vaizdą, o ne jį pagerinti.
Neseniai paskelbtame šios srities dokumente buvo klausiama: „Ar norint numatyti, kas gerai atliks tam tikrą darbą, darbdaviui visada geriau naudoti kuo daugiau informacijos apie kandidatus į darbą? Atsakymas, kurį pateikė autoriai Felipe Csaszar, Diana Jue-Rajasingh ir Michael Jensen iš Mičigano universiteto Rosso verslo mokyklos, yra ne.
Jų darbe modeliuojama statistinės diskriminacijos problema – XX a. aštuntojo dešimtmečio ekonomikos teorija, kuri teigė, kad viena iš nuolatinio diskriminacijos priežasčių buvo ta, kad įmonė, siekianti maksimaliai padidinti pelną, kaip vienintelį tikslą, naudos visą turimą informaciją apie, tarkime, kandidatus į darbą. Įdarbinantis vadovas, siekdamas šio tikslo, gali naudoti rasę ar lytį, net jei nesąmoningai, kad padarytų geriausią prognozę.
Rasė ir lytis yra prastos veiklos prognozės, palyginti su įgūdžiais. Tačiau jos gali būti lengviau pastebėti, todėl samdančiam vadovui gali turėti poveikio, teigia autoriai. Šiuo atveju statistinė diskriminacija, kuri rekomenduoja naudoti abiejų tipų informaciją, norint gauti geriausią prognozę, veikia priešingai, teigia jie.
Tyrimai, parodantys, kad žmonių sprendimai retai būna 100% racionalūs, paskatino labiau pasitikėti robotų algoritmais, kurie bando įsisavinti kuo daugiau duomenų. Kai kuriais atvejais šie algoritmai daro stebuklus, pašalindami emocijas ir išankstines nuostatas. Kitu metu jie kodifikuoja klaidas. Savo knygoje „Matematikos naikinimo ginklai“ matematikė Cathy O'Neil pateikia bejausmių algoritmų, duodančių diskriminuojančius ar nenaudingus rezultatus, pavyzdžių.
Yra daug atvejų, kai mažiau duomenų pasirodė esąs geresnė situacija. Dešimtojo dešimtmečio pradžioje daktaras Gigerenzeris palygino du didelius Vokietijos miestus – viename su profesionalia futbolo komanda, o kitame – be jos. Miestai su komanda yra didesni 87% atvejų. Žmonės, kurie pasikliauja šia paprasta gudrybe, gali geriau atspėti, kurie miestai yra didesni, nei tie, kurie bando prisiminti daugybę sudėtingų miesto detalių. Pasirodo, sporto komandos yra labiau susijusios su gyventojų skaičiumi, nei daugelis dalykų, kuriuos žmonės gali žinoti, pavyzdžiui, ar miestas yra valstijos sostinė, ar prie pagrindinio greitkelio.
(Štai JAV versija: suskaičiuokite miesto profesionalų futbolo, beisbolo, krepšinio ir ledo ritulio komandų skaičių. Iš 50 didžiausių miestų porų 89 % atvejų miestas, kuriame yra daugiau komandų, yra didesnis. Naudingas patarimas, jei kada nors prireiks atspėti, ar Pitsburgas yra didesnis už Nešvilį.)
Arba paimkite įmonę, siekiančią nuspėti, kurie klientai vis dar aktyvūs, t. Tyrėjai išsiaiškino, kad neįtikėtinai paprasta taisyklė – ar kas nors pirko iš bendrovės per pastaruosius devynis mėnesius – geriau nuspėja, ar klientai yra aktyvūs, nei pažangiausi sudėtingi modeliai.
Investavimo pavyzdys yra 1/N taisyklė, kuri teigia, kad jei norite nusipirkti, tarkime, 12 įmonių akcijų, kiekvienai iš jų turėtumėte skirti 1/12 savo portfelio paskirstymo. Londono verslo mokyklos komanda palygino tai su 14 modelių, kurie naudoja didelius duomenų kiekius, kad būtų galima rasti geresnius paskirstymus, ir nustatė, kad nė vienas iš šių 14 modelių nėra geresni, negu 1/N taisyklė.
Žinoma, ne visada lengva atpažinti, kuriuos duomenų taškus reikia pašalinti. Anksčiau pandemijos metu Masačusetso technologijos institutas atsisakė reikalavimo, kad pareiškėjai pateiktų stojamųjų egzaminų, vadinamų SAT (arba ACT) balą. Kritikai jau seniai teigė, kad tokie testai yra prasti akademinės sėkmės prognozei ir kliūtis žmonėms iš nepalankios aplinkos.
Tačiau po dvejų metų MIT šį pavasarį grąžino SAT. Priėmimo dekanas sakė MIT atrado, kad SAT padarė geresnį darbą "mokiniams iš šių nepalankios aplinkos grupių, palyginti su kitais dalykais, kuriuos galime apsvarstyti. Taip yra dėl to, kad išsilavinimo nelygybė turi įtakos visiems būsimojo studento pasirengimo ir taikymo aspektams, o ne tik testų laikymui". Pasirodo, testas buvo geresnis, nei tinkamų užklasinių, rekomendacinių laiškų ar aukštesnio lygio klasių turėjimas, o tai dar labiau pakrypo turtingesnių mokinių naudai.
Nors ne visada lengva išsiaiškinti, kuriuos duomenis atmesti, tai yra svarbi tyrimų sritis, nes renkami skaičiai apie mūsų gyvenimą auga.
„Tai kažkas panašaus į abipusį laimėjimą“, – sakė dr. Csaszar. "Jei naudojate paprastesnį sprendimų priėmimo procesą, geriau prognozuojate ir tampate sąžiningesni, nes neatsižvelgiate į rasę ar kitus diskriminuojančius dalykus. Paprastas, teisingas ir tikslus yra suderinimi dalykai. "" [1]
1. U.S. News -- The Numbers: When It Comes to Data, Less Can Be More
Zumbrun, Josh.
Wall Street Journal, Eastern edition; New York, N.Y. [New York, N.Y]. 05 Nov 2022: A.2.