"Įsivaizduokite: knyga su trilijonais puslapių – jos niekas
negali perskaityti. Geriausiu atveju būtų galima joje ieškoti, bet kaip tai
turėtų veikti masėms? Dar blogiau tai, kad daugelis puslapių nuolat
keičiasi ir kasdien jų pridedama vis daugiau. Taigi, kaip atversti šią
milžinišką knygą, kuri, žinoma, yra ne knyga, o elektroniniu būdu saugoma
žmonijos informacija – pasaulinis internetas?
Iš esmės tas pats, kas su įprasta
knyga. Su turiniu ar geriau: raktinių žodžių indeksu, dar vadinamu indeksu.
Prieš kas nors įvesdamas paieškos terminą ir paspaudęs
grįžimo klavišą, pasaulyje pirmaujanti paieškos sistema Google jau atliko
parengiamąjį darbą ir sudarė indeksą. Vadinamieji vikšrai tai daro priekinėje
linijoje – galite tai išversti kaip roplį arba vikšrą. Jie minta internete, kaip
nepasotinamas vikšras. Paieškos programos seka visas puslapyje esančias
nuorodas, o ten paeiliui ir nuorodas, rastas naujame puslapyje. Ir taip toliau.
Puslapiai bus atsisiųsti. Tada sistema žiūri į puslapius –
nors ir kitaip nei žmogus. Ji ieško nuorodų ir žodžių, kurie rodomi puslapyje,
bando atpažinti, kas yra nuotraukose, ir atitinkamai klasifikuoja. Kiekvienas
žodis patenka į indeksą, tai yra, raktinių žodžių indeksą, ir yra panašių
žodžių, randamų kitose svetainėse, kompanijoje. Vien šis indeksas yra maždaug
šimto milijonų gigabaitų dydžio – tam reikia dešimčių tūkstančių standžiųjų
diskų.
Daugiau nei tik žodžiai
Tačiau, kaip „Google“ naudotojas, žinote, kad paieška gali
padaryti daug daugiau, nei tik ieškoti atskirų žodžių internete. Dėl to
daugumos užklausų rezultatai būtų nepatenkinami. Todėl yra algoritmai, t.y.
matematinės procedūrinės taisyklės, kurių pagalba gerinami ir galiausiai
pasveriami rezultatai. Pirminė idėja (ir kertinis Google pranašumo prieš kitas
paieškos sistemas akmuo) buvo puslapio reitingo algoritmas.
Puslapio reitingas ir šiandien vaidina svarbų vaidmenį,
tačiau yra tik vienas iš daugelio kriterijų. Dabar yra keli šimtai algoritmų ir
jie nuolat keičiasi. Dažniausiai, bent jau būdamas įprastas vartotojas, to daug
nepastebi, bet kartais įvyksta didelių pokyčių. Viena to priežasčių gali būti,
pavyzdžiui, tai, kad „Google“ bando užkirsti kelią gudrybėms, kurias svetainių
operatoriai nori panaudoti, norėdami apgauti paieškos rezultatų tvarką.
Ko iš tikrųjų nori vartotojai?
„Google“ yra žinoma, kad viską automatizuoja – ir turint
įsivaizduojamos knygos dydį, kito kelio nėra. Dirbtinis intelektas (AI) ilgą
laiką vaidino pagrindinį vaidmenį pateikiant paieškos rezultatus vartotojams.
Tai prasideda atpažinus, ko vartotojas iš tikrųjų nori. Vis daugiau naujų
ir sudėtingesnių AI sistemų užtikrina, kad paieška visada iš karto parodys
gerus rezultatus – net ir daug sudėtingesnių klausimų atveju. Tai taip pat
būtina, nes apie 15 procentų visų užklausų niekada nebuvo atlikta. Taip yra,
pavyzdžiui, dėl dabartinių įvykių, tokių kaip sporto įvykiai ar politiniai
įvykiai.
Tūkstančiai serverių padeda
Kad būtų galima greitai pateikti rezultatus, paieškos
užklausa gali laikinai užimti tūkstantį skirtingų serverių kompiuterių viename
iš Google duomenų centrų – jau vien todėl, kad indeksas yra toks didelis ir
todėl turi būti padalintas tarp daugelio serverių. Galiausiai algoritmai bando
interpretuoti, ko ieškoma, ir nustato rezultatų rodymo tvarką. Į daug ką
atsižvelgiama, įskaitant tai, ar ieškote naudodami mobilųjį telefoną ar stalinį
kompiuterį, ar tema yra aktuali, pvz., į naujausių futbolo komandos rungtynių
rezultatus. Nustatymuose vartotojai gali nurodyti, kuriuos jų duomenis
„Google“ gali naudoti, pavyzdžiui, dabartinę padėtį. Atsižvelgiant į tai, kiek
duomenų atskleidžiate, paieška gali parodyti individualiai tinkamesnius
rezultatus.
Tai, kad paieška dabar vis dažniau atveda prie gerų
rezultatų, taip pat yra dėl to, kad AI algoritmai vis geriau atspėja, ko iš
tikrųjų ieškoma, treniruojant duomenų masėse. Taigi, kaip yra susiję vartotojo
įvesti paieškos terminai, koks kontekstas turimas galvoje – net jei tikrasis
terminas nerodomas paieškos užklausoje. „Google“ sukūrė tam tikrą universalią
sistemą, kuri iš esmės nepriklauso nuo kalbų, kurioms ji taikoma.
Bet be žmonių vis tiek nepavyksta. Bet koks algoritmo
pakeitimas bus tik pirmiausia išbandytas bandomojoje grupėje, prieš pradedant naudoti
visiems „Google“ naudotojams. Tik labai dideli tiekėjai turi tokią duomenų
masę, o potencialiems konkurentams bus sunku neatsilikti. Jiems trūksta duomenų
ir skaičiavimo galios juos apdoroti."
Komentarų nėra:
Rašyti komentarą