Pogojev za vključitev v delo ni.
Iskanje in ekstrakcija podatkov s spleta
Marko Bajec
Marko Bajec
Vsebina predavanj:
Predmet bo pokrival naslednje vsebine:
-
Poizvedovanje in iskanje po spletu:
Osnovni koncepti poizvedovanja
Modeli poizvedovanja
Odziv ustreznosti
Mere za ocenjevanje točnosti poizvedb
Predobdelava besedil in spletnih strani
Inverzni index in njegova kompresija
Latentno semantično indeksiranje
Iskanje po spletu
Meta iskanje po sletu: kombiniranje različnih načinov rangiranja; -
Spletno pregledovanje in indeksiranje:
Osnovni algoritem spletnega pajka
Univerzalni spletni pajek
Fokusirani spletni pajki
Domenski spletni pajki -
Ekstrakcija strukturiranih podatkov:
Indukcija ovojnice
Generiranje ovojnice na osnovi primera
Samodejna izdelava ovojnice
Ujemanje glede na obliko besede ali drevesne strukture
Večkratna poravnava
Gradnja DOM dreves
Ekstrakcija glede na stran s seznamom ali več strani -
Integracija podatkov:
Ujemanje glede na podatkovno shemo
Ujemanje glede na domeno in primere
Združevanje podobnosti
Ujemanje 1:m
Integracija iskalnikov po spletnih straneh
Izgradnja globalnega iskalnika po spletnih straneh -
Rudarjenje mnenja in analiza sentimenta:
Klasifikacija dokumentov po sentimentu
Ugotavljanje subjektivnosti v stavkih in klasifikacija sentimenta
Slovarji besed in fraz, nosilcev mnenja
Aspektno orientirano rudarjenje mnenja
Iskanje in extrakcija mnenja
- Bing Liu, Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications, Springer, August 2013
- Ricardo Baeza-Yates , Berthier Ribeiro-Neto: Modern Information Retrieval: The Concepts and Technology behind Search, 2nd Edition, ACM Press Books, 2010
Cilj predmeta je študente naučiti, kako sprogramirati iskanje po spletu (po indeksiranem in neindeksiranem delu spleta) ter kako razviti programe za ekstrakcijo strukturiranih podatkov s statičnih in dinamičnih spletnih strani. Študentje bodo spoznali osnovne koncepte spletnega iskanja in ekstrakcije podatkov s spleta ter se naučili potrebnih tehnik, ki so za to potrebne. Po uspešno opravljene predmetu bodo sposobni samostojnega razvoja aplikacij, ki avtomatizirajo spletno iskanje in ekstrahirajo podatke s spletnih strani, vključno z ekstrakcijo podatkov iz on-line socialnih medijev.
Po uspešno zaključenem modulu bodo študenti zmožni:
- Povzeti najpomembnejše pristope in tehnike s področja iskanja in ekstrakcije podatkov s spleta
- presoditi, kateri pristopi s področja iskanja in ekstrakcije podatkov s spleta so najbolj primerni za reševanje posameznih problemov,
- razviti aplikacije za zajem in analizo podatkov s spleta,
- konstruirati lastne algoritme za ekstrakcijo podatkov s spleta,
- pojasniti delovanje in časovno kompleksnost algoritmov iskanja po spletu,
- uporabiti in integrirati različne odprto-kodne rešitve s področja iskanja in ekstrakcije podatkov s spleta
Predavanja, računske vaje z ustnimi nastopi, projektni način dela pri domačih nalogah in seminarjih.
Sprotno preverjanje (domače naloge, kolokviji in projektno delo)
Končno preverjanje (pisni in ustni izpit)
(ocene: 5 (negativno), 6-10 (pozitivno), ob upoštevanju Statuta UL)
Pet najpomembnejših del:
ŠUBELJ, Lovro, BAJEC, Marko. Group detection in complex networks : an algorithm and comparison of the state of the art. Physica. A, 2014
ŽITNIK, Slavko, ŠUBELJ, Lovro, LAVBIČ, Dejan, VASILECAS, Olegas, BAJEC, Marko. General context-aware data matching and merging framework. Informatica, 2013
LAVBIČ, Dejan, BAJEC, Marko. Employing semantic web technologies in financial instruments trading : Dejan Lavbič and Marko Bajec. International journal of new computer architectures and their applications, 2012
ŠUBELJ, Lovro, FURLAN, Štefan, BAJEC, Marko. An expert system for detecting automobile insurance fraud using social network analysis. Expert systems with applications, 2011
ŠUBELJ, Lovro, JELENC, David, ZUPANČIČ, Eva, LAVBIČ, Dejan, TRČEK, Denis, KRISPER, Marjan, BAJEC, Marko. Merging data sources based on semantics, contexts and trust. The IPSI BgD transactions on internet research, 2011
Celotna bibliografija je dostopna na SICRISu:
http://sicris.izum.si/search/rsr.aspx?lang=slv&,id=9270.