„MetaGraph“ suspaudžia didžiulius duomenų archyvus į mokslininkams skirtą paieškos sistemą, atverdama naujas biologinių atradimų ribas.
Internetas turi „Google“. Dabar biologija turi „MetaGraph“. Šiandien žurnale „Nature1“ išsamiai aprašyta paieškos sistema gali greitai peržiūrėti stulbinančius biologinių duomenų kiekius, saugomus viešosiose saugyklose.
„Tai didžiulis pasiekimas“, – sako Rayanas Chikhi, biokompiuterių tyrėjas Pasteuro institute Paryžiuje. „Jie nustatė naują standartą“ analizuodami neapdorotus biologinius duomenis, įskaitant DNR, RNR ir baltymų sekas, iš duomenų bazių, kuriose gali būti milijonai milijardų DNR raidžių, tai yra informacijos „petabazės“ – daugiau įrašų nei visuose tinklalapiuose didžiuliame „Google“ indekse.
Nors „MetaGraph“ pažymėta kaip „Google DNR paieškai“, Chikhi šį įrankį lygina su „YouTube“ paieškos sistema, nes užduotys reikalauja daugiau skaičiavimo išteklių. Lygiai taip pat, kaip „YouTube“ paieškos gali rasti kiekvieną vaizdo įrašą, kuriame yra, tarkime, raudoni balionai, net jei šių raktinių žodžių nėra pavadinime, žymose ar aprašyme, „MetaGraph“ gali atskleisti genetinius modelius, paslėptus giliai plačiuose sekoskaitos duomenų rinkiniuose, nereikalaujant, kad šie modeliai būtų iš anksto aiškiai anotuoti.
„Tai leidžia daryti tai, ko negalima padaryti jokiu kitu būdu“, – sako Chikhi.
„MetaGraph“ motyvacija buvo spręsti sekoskaitos duomenų rinkinių prieinamumo problemą. Šių saugyklų dydis per pastaruosius kelis dešimtmečius augo žaibišku greičiu, tačiau šis augimas sukėlė iššūkių mokslininkams, naudojantiems jose esančius duomenis. Neapdoroti sekoskaitos duomenys yra fragmentiški, triukšmingi ir per daug, kad būtų galima jų ieškoti tiesiogiai. „Paradoksu, bet duomenų kiekis yra pagrindinė kliūtis, trukdanti mums iš tikrųjų naudoti duomenis“, – sako Artemas Babaianas, skaičiavimo biologas iš Toronto universiteto Kanadoje.
Pasak vieno iš tyrimo autorių, André Kahleso, bioinformatiko iš Šveicarijos federalinio technologijos instituto (ETH) Ciuriche, Šveicarijoje, „MetaGraph“ galėtų padėti tyrėjams užduoti biologinius klausimus apie tokias saugyklas kaip Sequence Read Archive (SRA) – vieša duomenų bazė, kurioje yra daugiau nei 100 milijonų milijardų DNR raidžių2.
Jie sprendė šią problemą naudodami matematinius „grafus“, kurie susieja persidengiančius DNR fragmentus. kartu, panašiai kaip sakiniai, kuriuose tie patys žodžiai yra išdėstyti knygų rodyklėje.
Tyrėjai integravo duomenis iš septynių viešai finansuojamų duomenų saugyklų, sukurdami 18,8 mln. unikalių DNR ir RNR sekų rinkinių ir 210 mlrd. aminorūgščių sekų rinkinių, apimančių visas gyvybės rūšis – įskaitant virusus, bakterijas, grybus, augalus ir gyvūnus, įskaitant žmones. Jie taip pat sukūrė šių sekų paieškos sistemą, kurioje vartotojai naudoja tekstinius raginimus, kad ieškotų šiuose integruotuose neapdorotų duomenų archyvuose.
„Tai visiškai naujas būdas sąveikauti su šiuo duomenų rinkiniu“, – sako Kahlesas. „Jis yra suspaustas, bet pasiekiamas iš karto.“
Siekdami įrodyti „MetaGraph“ naudingumą, tyrimo autoriai panaudojo jį 241 384 žmogaus žarnyno mikrobiomo mėginių nuskaitymui, ieškodami genetinių antibiotikų atsparumo rodiklių visame pasaulyje, remdamiesi darbu, kuriame ankstesnė įrankio versija buvo naudojama vaistams atsparumo genams sekti bakterijų padermėse, kurios gyvena metro sistemose didžiuosiuose miestuose3. Autoriai teigia, kad analizę atliko maždaug per valandą galingu kompiuteriu.
Atviras kelias į atradimus
„MetaGraph“ nėra vienintelė šiuo metu siūloma didelio masto sekų paieškos priemonė.
Pavyzdžiui, Chikhi ir Babaian sukūrė platformą pavadinimu „Logan“, kuri sujungia milijardus trumpų sekoskaitų, kad sukurtų ilgesnes, organizuotas DNR atkarpas. Ši projektavimo architektūra leidžia sistemai aptikti ištisus genus ir jų variantus dar didesnėse sekoskaitų kolekcijose nei įmanoma naudojant „MetaGraph“, nors ir su tam tikrais kompromisais. „Turime mažiau funkcionalumo, bet daugiau našumo“, – sako Chikhi.
Papildytas „Logan“ pasiekiamumas padėjo tyrėjams atrasti daugiau nei 200 milijonų natūraliai susidarančių plastiką ėdančio fermento versijų, randamų įvairiose bakterijose, grybuose ir vabzdžiuose, įskaitant kai kurias versijas, kurios veikia dar geriau. nei laboratorijoje sukurti fermentai. Chikhi ir Babaianas savo išvadas paskelbė praėjusį mėnesį paskelbtame išankstiniame leidinyje4.
Jie ir kiti taip pat naudojo ankstesnę, siauresnę paieškos priemonę, pritaikytą virusų DNR saugykloms, kad atskleistų anksčiau nedokumentuotų virusų5 ir virusinių teršalų gausą sukurtose T ląstelių terapijose vėžiui gydyti6.
Pasak Babaiano, tokie atradimai nebūtų buvę įmanomi be dviejų dalykų: atvirojo kodo paieškos įrankių, prieinamų tokiose svetainėse kaip metagraph.ethz.ch ir logan-search.org, ir viešųjų sekvenavimo saugyklų, kuriomis jie naudojasi. Finansavimo mažinimui keliant grėsmę kitų rūšių biologinėms duomenų bazėms, Babaianas pabrėžia, kad šios paieškos naujovės pabrėžia „atvirų duomenų dalijimosi svarbą“.
„Tai ištekliai, skatinantys mokslo pažangą visame pasaulyje“, – sako Babaianas. „Jie atveria visiškai naują sritį, vadinamą petabazės masto genomika“ – o įtakingiausi pritaikymai dar tik ateityje.“ [A]
A. Nature 646, 528 (2025) By Elie Dolgin
Komentarų nėra:
Rašyti komentarą