Multimodální modely pro rozpoznávání a popis objektů v reálném čase
Cílem práce je prozkoumat možnosti moderních multimodálních modelů (např. CLIP, GPT-4V, Qwen-VL) pro rozpoznávání a popis objektů z obrazu nebo videa v reálném čase. Student navrhne a implementuje jednoduchý prototyp, experimentálně vyhodnotí přesnost, rychlost a zhodnotí možnosti nasazení v praxi.
Zaujalo tě téma?
Ozvi se nám!