Sekėjai

Ieškoti šiame dienoraštyje

2022 m. kovo 21 d., pirmadienis

Tūkstančiai serverių ir šimtai algoritmų: kas tiksliai nutinka, kai „Google“ spustelite paieškos mygtuką?

 "Įsivaizduokite: knyga su trilijonais puslapių – jos niekas negali perskaityti. Geriausiu atveju būtų galima joje ieškoti, bet kaip tai turėtų veikti masėms? Dar blogiau tai, kad daugelis puslapių nuolat keičiasi ir kasdien jų pridedama vis daugiau. Taigi, kaip atversti šią milžinišką knygą, kuri, žinoma, yra ne knyga, o elektroniniu būdu saugoma žmonijos informacija – pasaulinis internetas? 

Iš esmės tas pats, kas su įprasta knyga. Su turiniu ar geriau: raktinių žodžių indeksu, dar vadinamu indeksu.

Prieš kas nors įvesdamas paieškos terminą ir paspaudęs grįžimo klavišą, pasaulyje pirmaujanti paieškos sistema Google jau atliko parengiamąjį darbą ir sudarė indeksą. Vadinamieji vikšrai tai daro priekinėje linijoje – galite tai išversti kaip roplį arba vikšrą. Jie minta internete, kaip nepasotinamas vikšras. Paieškos programos seka visas puslapyje esančias nuorodas, o ten paeiliui ir nuorodas, rastas naujame puslapyje. Ir taip toliau.

Puslapiai bus atsisiųsti. Tada sistema žiūri į puslapius – nors ir kitaip nei žmogus. Ji ieško nuorodų ir žodžių, kurie rodomi puslapyje, bando atpažinti, kas yra nuotraukose, ir atitinkamai klasifikuoja. Kiekvienas žodis patenka į indeksą, tai yra, raktinių žodžių indeksą, ir yra panašių žodžių, randamų kitose svetainėse, kompanijoje. Vien šis indeksas yra maždaug šimto milijonų gigabaitų dydžio – tam reikia dešimčių tūkstančių standžiųjų diskų.

Daugiau nei tik žodžiai

Tačiau, kaip „Google“ naudotojas, žinote, kad paieška gali padaryti daug daugiau, nei tik ieškoti atskirų žodžių internete. Dėl to daugumos užklausų rezultatai būtų nepatenkinami. Todėl yra algoritmai, t.y. matematinės procedūrinės taisyklės, kurių pagalba gerinami ir galiausiai pasveriami rezultatai. Pirminė idėja (ir kertinis Google pranašumo prieš kitas paieškos sistemas akmuo) buvo puslapio reitingo algoritmas.

Puslapio reitingas ir šiandien vaidina svarbų vaidmenį, tačiau yra tik vienas iš daugelio kriterijų. Dabar yra keli šimtai algoritmų ir jie nuolat keičiasi. Dažniausiai, bent jau būdamas įprastas vartotojas, to daug nepastebi, bet kartais įvyksta didelių pokyčių. Viena to priežasčių gali būti, pavyzdžiui, tai, kad „Google“ bando užkirsti kelią gudrybėms, kurias svetainių operatoriai nori panaudoti, norėdami apgauti paieškos rezultatų tvarką.

Ko iš tikrųjų nori vartotojai?

„Google“ yra žinoma, kad viską automatizuoja – ir turint įsivaizduojamos knygos dydį, kito kelio nėra. Dirbtinis intelektas (AI) ilgą laiką vaidino pagrindinį vaidmenį pateikiant paieškos rezultatus vartotojams. Tai prasideda atpažinus, ko vartotojas iš tikrųjų nori. Vis daugiau naujų ir sudėtingesnių AI sistemų užtikrina, kad paieška visada iš karto parodys gerus rezultatus – net ir daug sudėtingesnių klausimų atveju. Tai taip pat būtina, nes apie 15 procentų visų užklausų niekada nebuvo atlikta. Taip yra, pavyzdžiui, dėl dabartinių įvykių, tokių kaip sporto įvykiai ar politiniai įvykiai.

Tūkstančiai serverių padeda

Kad būtų galima greitai pateikti rezultatus, paieškos užklausa gali laikinai užimti tūkstantį skirtingų serverių kompiuterių viename iš Google duomenų centrų – jau vien todėl, kad indeksas yra toks didelis ir todėl turi būti padalintas tarp daugelio serverių. Galiausiai algoritmai bando interpretuoti, ko ieškoma, ir nustato rezultatų rodymo tvarką. Į daug ką atsižvelgiama, įskaitant tai, ar ieškote naudodami mobilųjį telefoną ar stalinį kompiuterį, ar tema yra aktuali, pvz., į naujausių futbolo komandos rungtynių rezultatus. Nustatymuose vartotojai gali nurodyti, kuriuos jų duomenis „Google“ gali naudoti, pavyzdžiui, dabartinę padėtį. Atsižvelgiant į tai, kiek duomenų atskleidžiate, paieška gali parodyti individualiai tinkamesnius rezultatus.

Tai, kad paieška dabar vis dažniau atveda prie gerų rezultatų, taip pat yra dėl to, kad AI algoritmai vis geriau atspėja, ko iš tikrųjų ieškoma, treniruojant duomenų masėse. Taigi, kaip yra susiję vartotojo įvesti paieškos terminai, koks kontekstas turimas galvoje – net jei tikrasis terminas nerodomas paieškos užklausoje. „Google“ sukūrė tam tikrą universalią sistemą, kuri iš esmės nepriklauso nuo kalbų, kurioms ji taikoma.

Bet be žmonių vis tiek nepavyksta. Bet koks algoritmo pakeitimas bus tik pirmiausia išbandytas bandomojoje grupėje, prieš pradedant naudoti visiems „Google“ naudotojams. Tik labai dideli tiekėjai turi tokią duomenų masę, o potencialiems konkurentams bus sunku neatsilikti. Jiems trūksta duomenų ir skaičiavimo galios juos apdoroti."

 


Komentarų nėra: