NI-MLP / Strojové učení v praxi
Účelem tohoto předmětu je seznámit studenty s tím, jak vypadá dnes velmi populární obor Data Science v praxi, a to s ohledem na postupy strojového učení.
V rámci předmětu se studenti seznámí s metodikou Data Science projektu v praxi a s návazností samotného strojového učení na další nutné činnosti. Souběžně si prakticky vyzkoušejí zpracování malého projektu od vstupních dat a zadání úlohy po sestavení modelu a vypracování podrobného analytického reportu.
Předmět se vyučuje nově od zimního semestru 2023/24 jako volitelný na magisterském studiu oboru Znalostní inženýrství FIT ČVUT.
INFORMACE PRO POSLUCHAČE
Přednáška i cvičení se konají prezenčně v budově FIT ČVUT v Dejvicích. Výuka probíhá každé úterý v učebně T9:351 od 11:45 do 14:15 s 15minutovou přestávkou (podle rozvrhu 13:15–13:30), formálně se dělí na 2 hodiny přednášky a 1 hodinu cvičení. Zimní semestr má 13 týdnů, začíná 22. 9. 2025 a končí 19. 12. 2025. Neučíme 28. 10. 2025 (státní svátek).
Semestr:
zimní
Rozsah:
2/1 Z, Zk
Přednášející a cvičící:
Jan Hučín, Dominik Matula
Kód předmětu:
NI-MLP
Uzavření předmětu:
získaný zápočet a složená zkouška
Požadavky na zápočet:
Vypracování zprávy o analýze a modelování nad daty, které student dostane přidělené nebo si po dohodě sám vybere. Hlavními kritérii jsou strukturovanost a srozumitelnost reportu, schopnost soustředit se na podstatné věci a z dat vyvodit závěry. Předpokládá se aktivní použití metod a technologií probraných během semestru.
Požadavky na zkoušku:
Zkouška proběhne formou písemného testu a krátkého pohovoru nad jeho výsledky. Do hodnocení zkoušky je možné připočítat body, které student získal během semestru nad rámec zápočtového limitu.
Plán přednášek a cvičení
23. 9. 2025
Úvod. Organizace předmětu, prerekvizity, požadavky na úspěšné absolvování. Strojové učení v kontextu Data science projektů. Metodika CRISP-DM. Business understanding.
30. 9. 2025
Proč je důležité umět přemýšlet aneb Data understanding. Formulace výzkumných hypotéz a hledání odpovědí. Sanity check, (ne)důvěra k datům. Využití poznatků z explorace k pochopení souvislostí.
7. 10. 2025
Obrázek je víc než tisíc slov aneb Vizualizace. Metody explorace a vizualizace dat. Praktické analytické a vizualizační nástroje. Profiling a nástroje k jeho automatizaci.
14. 10. 2025
Vyprávíme pohádku aneb Tvorba srozumitelného reportu. Rozdíl mezi dokumentací a reportem. Zásady tvorby reportu pro různé účely a cílové skupiny. Technologie, praktické ukázky.
21. 10. 2025
Je dobré mít předsudky? … aneb bayesiánské uvažování. Bayesův klasifikátor, bayesovská iterace. Praktická aplikace. Empirický Bayes, Laplaceova korekce.
28. 10. 2025
Státní svátek, výuka se nekoná
4. 11. 2025
Přednáška: Co si napočítat z dat aneb Data preparation 1. Čištění dat, rozhodování featureXbug. Výběr množiny příznaků, práce na vzorku a jeho výběr. Ukázka z projektu: Hledání podezřelých kont v datech z hazardních her.
11. 11. 2025
Transformace dat aneb Data preparation 2. Pokročilé metody: redukce dimenze (PCA, UMAP), clustering.
18. 11. 2025
Přednáška: Soutěžíme v Kaggle aneb Modeling & Evaluation 1. Zpracování velkého souboru, volba modelovací metody a metrik. Referenční model a jeho význam pro další pokusy o vylepšení modelu. Automatizace výpočtu, datové pipeliny, MLops
25. 11. 2025
. Za ztížených podmínek aneb Modeling & Evaluation 2. Jak se vyrovnat s dodatečnými podmínkami na model: rychlost (real-time), velikost dat, výpočetní náročnost, implementační náročnost, interpretovatelnost apod. Obecné přístupy k interpretabilitě, shap values.
2. 12. 2025
Data Science a ChatGPT.
9. 12. 2025
Statistické pasti a paradoxy. Averze k riziku, Benfordův zákon, důsledky nevhodného zjednodušení. Limity statistických metod.
16. 12. 2025
Co se nevešlo aneb další ukázky z praktických projektů.