Preskoči na glavno vsebino

Odkrivanje znanj iz podatkov

2018/2019
Program:
Interdisciplinarni magistrski študijski program 2. stopnje Računalništvo in matematika
Letnik:
1 in 2 letnik
Semester:
drugi
Vrsta:
izbirni
ECTS:
6
Jezik:
slovenski, angleški
Nosilec predmeta:

Blaž Zupan

Ure na teden – 2. semester:
Predavanja
3
Seminar
1.33
Vaje
0.67
Laboratorij
0
Pogoji za vključitev v delo oz. za opravljanje študijskih obveznosti

Vpis predmeta Uvod v odkrivanje znanj iz podatkov iz predhodnih semestrov.

Vsebina

Predmet bo v teoriji in na praktičnih primerih predstavil sledeče vsebine:
1. Predstavitev področja in klasifikacija tehnik za odkrivanje znanj iz
podatkov, pregled značilnih aplikacij
2. Tehnološke platforme in razvojne metodologije (skriptna okolja, okolja za analizo podatkov z vizualnim programiranjem)
3. Predobdelava podatkov: iskanje osamelcev, zmanjševanje dimenzij (metoda glavnih komponent), izbor in konstrukcija značilk, permutacijski pristopi, diskretizacija
4. Uvrščanje v skupine, s poudarkom na tehnikah, ki lahko obravnavajo velike množice podatkov in podatkov z velikim naborom značilk, metode podpornih vektorjev, iskanje in vizualizacija interakcij
5. Tehnike razvrščanja v skupine (metode hierarhičnega združevanja, metode voditeljev), s poudarkom na tehnikah, ki lahko obravnavajo
velike množice podatkov, določanje števila skupin (metoda silhuete)
6. Ocenjevanje uspešnosti napovednih modelov, kalibracijske in diskriminantne metode, ROC analiza, permutacijski pristopi
7. Vizualizacija podatkov in modelov, tehnike gradnje, analize in vizualizacije mrež
8. Tehnike odkrivanj znanj iz zbirk besedil in spletnih strani
9. Integrativni pristopi (uporaba predznanja, integracija povezav, pridobljenih iz različnih naborov podatkov)
10. Tipične napake pri snovanju pristopov ali uporabi tehnik odkrivanja znanj iz podatkov in kako se jim izognemo
Na predavanjih bodo študenti spoznavali ključne tehnologije in orodja, s katerimi bodo tekom semestra na vajah in v okviru projektov oz. seminarskih nalog reševali praktične probleme. Poudarek bo na uporabi odprtokodnih, prosto dostopnih orodij, ki za analizo podatkov uporabljajo moderne skriptne jezike (npr. Python). V skriptnih okoljih bodo študenti z uporabo že obstoječih komponent razvijali lastne metode, uporabo teh preverjali na različnih podatkih, ter poročali o ocenah njihove uporabnosti in napovedne točnosti. Vaje se bodo izvajale v računalniški učilnici opremljeni z ustrezno strojno in programsko opremo.

Temeljni literatura in viri
  1. Tan P-N, Steinbach M, Kumar V (2006) Introduction to data mining. Pearson Education, Boston.
  2. Leskovec J, Rajaraman A, Ullman J (2014) Mining of Massive Datasets, Cambridge University Press, 2 edition.
  3. Chollet F (2018) Deep learning with Python, Manning Publications.
Cilji in kompetence

Cilj predmeta je študente seznaniti z osnovnimi in naprednimi metodami odkrivanja znanj iz podatkov, s poudarkom na njihovi praktični uporabi. Pri predmetu se bodo naučili uporabljati moderna skriptna orodja za analizo podatkov. Spoznali bodo, kako je z njimi moč implementirati nove metode za odkrivanje znanj, oziroma kako je moč obstoječe tehnike prilagoditi za obravnavo konkretnih podatkov.

Predvideni študijski rezultati

Po uspešnem zaključku predmeta bo študent:
sposoben preproznati probleme, kjer bi si pri rešitvi pomagal s tehnikami strojnega učenja,
sposoben predstaviti problemsko znanje oziroma podatke v obliki primerne za strojno učenje,
razumel razliko med različnimi tehnikami odkrivanja znanj iz podatkov,
iz problema in podatkov prepoznal priložnosti in koristi uporabe posameznih tehnik podatkovne analitike,
sposoben izdelati program za analizo podatkov in uporabo knjižnic za podatkovno analitiko v jeziku Python,
razumel uporabo knjižnic za globoko učenje,
sposoben samostojno uporabiti knjižnice za globoko učenje,
razumel matematične osnove glavnih metod podatkovne analitike.

Metode poučevanja in učenja

Predavanja s podporo avdio-vizualne opreme, sprotni razvoj programskih rešitev, laboratorijske vaje v računalniški učilnici z ustrezno programsko opremo. Delo posamezno in v skupinah. Velik poudarek na praktičnem delu (npr. razvoj skript za pregledovanje in analizo podatkov) in reševanju praktičnih problemov.

Načini ocenjevanja

Sprotno preverjanje (domače naloge, kolokviji in projektno delo)
Končno preverjanje (pisni in ustni izpit)
(ocene: 5 (negativno), 6-10 (pozitivno), ob upoštevanju Statuta UL)

Reference nosilca

Pet najpomembnejših del:
Stajdohar M, Rosengarten RD, Kokosar J, Jeran L, Blenkus D, Shaulsky G, Zupan B (2017) dictyExpress: a web-based platform for sequence data management and analytics in Dictyostelium and beyond, BMC Bioinformatics. 2017 Jun 2,18(1):291.
Zitnik M, Zupan B (2016) Jumping across biomedical contexts using compressive data fusion, Bioinformatics 15,32(12):i90-i100.
Zitnik M, Nam EA, Dinh C, Kuspa A, Shaulsky G, Zupan B (2015) Gene prioritization by compressive data fusion and chaining, PLoS Computational Biology 11(10):e1004552.
Staric A, Demsar J, Zupan B (2015) Concurrent software architectures for exploratory data analysis. WIREs Data Mining and Knowledge Discovery 5(4):165-180.
Zitnik M, Zupan B (2015) Data fusion by matrix factorization. IEEE Transactions on Pattern Analysis and Machine Intelligence 37(1):41-53.
Celotna bibliografija je dostopna na SICRISu:
http://sicris.izum.si/search/rsr.aspx?lang=slv&,id=7764.