NI-MLP / Strojové učení v praxi

Účelem tohoto předmětu je seznámit studenty s tím, jak vypadá dnes velmi populární obor Data Science v praxi, a to s ohledem na postupy strojového učení.

V rámci předmětu se studenti seznámí s metodikou Data Science projektu v praxi a s návazností samotného strojového učení na další nutné činnosti. Souběžně si prakticky vyzkoušejí zpracování malého projektu od vstupních dat a zadání úlohy po sestavení modelu a vypracování podrobného analytického reportu.

Předmět se vyučuje nově od zimního semestru 2023/24 jako volitelný na magisterském studiu oboru Znalostní inženýrství FIT ČVUT.

INFORMACE PRO POSLUCHAČE

Přednáška i cvičení se konají prezenčně v budově FIT ČVUT v Dejvicích. Výuka probíhá každé úterý v učebně T9:351 od 11:45 do 14:15 s 15minutovou přestávkou (podle rozvrhu 13:15–13:30), formálně se dělí na 2 hodiny přednášky a 1 hodinu cvičení. Zimní semestr má 13 týdnů, začíná 22. 9. 2025 a končí 19. 12. 2025. Neučíme 28. 10. 2025 (státní svátek).

Semestr:

zimní

Rozsah:

2/1 Z, Zk

Přednášející a cvičící:

Jan Hučín, Dominik Matula

Kód předmětu:

NI-MLP

Uzavření předmětu:

získaný zápočet a složená zkouška

Požadavky na zápočet:

Vypracování zprávy o analýze a modelování nad daty, které student dostane přidělené nebo si po dohodě sám vybere. Hlavními kritérii jsou strukturovanost a srozumitelnost reportu, schopnost soustředit se na podstatné věci a z dat vyvodit závěry. Předpokládá se aktivní použití metod a technologií probraných během semestru.

Požadavky na zkoušku:

Zkouška proběhne formou písemného testu a krátkého pohovoru nad jeho výsledky. Do hodnocení zkoušky je možné připočítat body, které student získal během semestru nad rámec zápočtového limitu.

Plán přednášek a cvičení

23. 9. 2025

Úvod. Organizace předmětu, prerekvizity, požadavky na úspěšné absolvování. Strojové učení v kontextu Data science projektů. Metodika CRISP-DM. Business understanding.

30. 9. 2025

Proč je důležité umět přemýšlet aneb Data understanding. Formulace výzkumných hypotéz a hledání odpovědí. Sanity check, (ne)důvěra k datům. Využití poznatků z explorace k pochopení souvislostí.

7. 10. 2025

Obrázek je víc než tisíc slov aneb Vizualizace. Metody explorace a vizualizace dat. Praktické analytické a vizualizační nástroje. Profiling a nástroje k jeho automatizaci.

14. 10. 2025

Vyprávíme pohádku aneb Tvorba srozumitelného reportu. Rozdíl mezi dokumentací a reportem. Zásady tvorby reportu pro různé účely a cílové skupiny. Technologie, praktické ukázky.

21. 10. 2025

Je dobré mít předsudky? … aneb bayesiánské uvažování. Bayesův klasifikátor, bayesovská iterace. Praktická aplikace. Empirický Bayes, Laplaceova korekce.

28. 10. 2025

Státní svátek, výuka se nekoná

4. 11. 2025

Přednáška: Co si napočítat z dat aneb Data preparation 1. Čištění dat, rozhodování featureXbug. Výběr množiny příznaků, práce na vzorku a jeho výběr. Ukázka z projektu: Hledání podezřelých kont v datech z hazardních her.

11. 11. 2025

Transformace dat aneb Data preparation 2. Pokročilé metody: redukce dimenze (PCA, UMAP), clustering.

18. 11. 2025

Přednáška: Soutěžíme v Kaggle aneb Modeling & Evaluation 1. Zpracování velkého souboru, volba modelovací metody a metrik. Referenční model a jeho význam pro další pokusy o vylepšení modelu. Automatizace výpočtu, datové pipeliny, MLops

25. 11. 2025

. Za ztížených podmínek aneb Modeling & Evaluation 2. Jak se vyrovnat s dodatečnými podmínkami na model: rychlost (real-time), velikost dat, výpočetní náročnost, implementační náročnost, interpretovatelnost apod. Obecné přístupy k interpretabilitě, shap values.

2. 12. 2025

Data Science a ChatGPT.

9. 12. 2025

Statistické pasti a paradoxy. Averze k riziku, Benfordův zákon, důsledky nevhodného zjednodušení. Limity statistických metod.

16. 12. 2025

Co se nevešlo aneb další ukázky z praktických projektů.