Multimodální modely pro rozpoznávání a popis objektů v reálném čase

Cílem práce je prozkoumat možnosti moderních multimodálních modelů (např. CLIP, GPT-4V, Qwen-VL) pro rozpoznávání a popis objektů z obrazu nebo videa v reálném čase. Student navrhne a implementuje jednoduchý prototyp, experimentálně vyhodnotí přesnost, rychlost a zhodnotí možnosti nasazení v praxi.

Zaujalo tě téma?

Ozvi se nám!

Mám zájem o téma práce