Sekėjai

Ieškoti šiame dienoraštyje

2025 m. gruodžio 13 d., šeštadienis

Ar yra atvirojo kodo dirbtinis intelektas (DI), galintis žodžiais apibūdinti vaizdo įrašą ir pritaikyti jam samprotavimus?

 

Taip, kuriami keli atvirojo kodo DI modeliai ir sistemos, kurių tikslas – ir apibūdinti vaizdo įrašo turinį žodžiais, ir pritaikyti jam sudėtingą samprotavimą. Šie modeliai paprastai priskiriami vaizdo įrašų didelių kalbų modelių (Vid-LLM) arba multimodalinio DI kategorijai.

 

Pagrindiniai tokie atvirojo kodo modeliai ir sistemos

 

video-SALMONN-o1: Apibūdinamas, kaip „pirmasis atvirojo kodo audiovizualinis didelių kalbų modelis, galintis atlikti samprotavimus, kad padėtų geriau suprasti vaizdo įrašus“, šis projektas orientuotas į bendrąsias vaizdo įrašų supratimo užduotis, įskaitant gebėjimą aptikti sintetinius (netikrus) vaizdo įrašus ir atsakyti į sudėtingus klausimus, naudojant nuoseklų samprotavimą. Tyrėjams yra prieinamas susijusio „RivaBench“ etalono kodas ir duomenys.

 

GLM-4.6V: Šis atvirojo kodo multimodalinis modelis pasižymi stipresniu vizualiniu samprotavimu ir ilgo konteksto supratimu, atliekant visuotinį ilgų vaizdo įrašų apibendrinimą, išlaikant galimybę atlikti detalų samprotavimą pagal laiko užuominas.

 

„Univa“: ambicingas atvirojo kodo projektas, siekiantis tapti „išsamiu vaizdo įrašų generalistu“, gebančiu suprasti, redaguoti ir generuoti sudėtingus, ilgos formos vaizdo įrašus. Pirmieji lyginamieji tyrimai rodo, kad jo supratimo modulis yra labai efektyvus, atliekant sudėtingas vaizdo įrašų užduotis.

 

„EgoThinker“: ši sistema suteikia multimodaliniams dideliems kalbos modeliams (MLLM) stiprias egocentrines (pirmojo asmens perspektyvos) samprotavimo galimybes, naudodama erdvės ir laiko mąstymo grandinę, kad išsamiai suprastų žmogaus ketinimus ir veiksmus. Visas kodas ir duomenys skelbiami „GitHub“.

 

„SiLVR“ (paprasta kalba pagrįsta vaizdo įrašų samprotavimo sistema): ši sistema skirta ilgų vaizdo įrašų supratimui, naudojant paprastą, vieno etapo modulinį metodą, skirtą vaizdo įrašui suspausti į kalbos reprezentaciją, po to taikant LLM samprotavimui apie veiksmus ir istorijas ilguoju laikotarpiu.

 

Samprotavimo vaidmuo

 

„Samprotavimo“ aspektas apima daugiau, nei paprastą objektų aptikimą ar veiksmų atpažinimą; jis apima konteksto, priežastingumo, numatymo ir numanomų ketinimų supratimą, dažnai naudojant „minčių grandinės“ procesus (scenarijaus skaidymą į žingsnius). Tyrėjai aktyviai kuria etalonus ir mokymo metodus, kad pagerintų šias galimybes atvirojo kodo modeliuose.

 

Praktinis įgyvendinimas

 

Norint naudoti šiuos modelius, paprastai reikėtų patiems diegti mašininio mokymosi modelį, naudojant atvirojo kodo bibliotekas, tokias, kaip „OpenCV“ arba „TensorFlow“. Daugelis projektų savo kodą ir duomenis skelbia tokiose platformose, kaip „GitHub“, leisdami kūrėjams pasiekti ir plėtoti tyrimus.

Komentarų nėra: