Preskoči na glavno vsebino

Iskanje in ekstrakcija podatkov s spleta

2020/2021
Program:
Interdisciplinarni magistrski študijski program 2. stopnje Računalništvo in matematika
Letnik:
1 in 2 letnik
Semester:
prvi ali drugi
Vrsta:
obvezni
ECTS:
6
Jezik:
slovenski, angleški
Nosilec predmeta:

Marko Bajec

Izvajalec (kontaktna oseba):

Marko Bajec

Ure na teden – 1. ali 2. semester:
Predavanja
3
Seminar
0.67
Vaje
1.33
Laboratorij
0
Vsebina

Vsebina predavanj:
Predmet bo pokrival naslednje vsebine:

  • Poizvedovanje in iskanje po spletu:
    Osnovni koncepti poizvedovanja
    Modeli poizvedovanja
    Odziv ustreznosti
    Mere za ocenjevanje točnosti poizvedb
    Predobdelava besedil in spletnih strani
    Inverzni index in njegova kompresija
    Latentno semantično indeksiranje
    Iskanje po spletu
    Meta iskanje po sletu: kombiniranje različnih načinov rangiranja;

  • Spletno pregledovanje in indeksiranje:
    Osnovni algoritem spletnega pajka
    Univerzalni spletni pajek
    Fokusirani spletni pajki
    Domenski spletni pajki

  • Ekstrakcija strukturiranih podatkov:
    Indukcija ovojnice
    Generiranje ovojnice na osnovi primera
    Samodejna izdelava ovojnice
    Ujemanje glede na obliko besede ali drevesne strukture
    Večkratna poravnava
    Gradnja DOM dreves
    Ekstrakcija glede na stran s seznamom ali več strani

  • Integracija podatkov:
    Ujemanje glede na podatkovno shemo
    Ujemanje glede na domeno in primere
    Združevanje podobnosti
    Ujemanje 1:m
    Integracija iskalnikov po spletnih straneh
    Izgradnja globalnega iskalnika po spletnih straneh

  • Rudarjenje mnenja in analiza sentimenta:
    Klasifikacija dokumentov po sentimentu
    Ugotavljanje subjektivnosti v stavkih in klasifikacija sentimenta
    Slovarji besed in fraz, nosilcev mnenja
    Aspektno orientirano rudarjenje mnenja
    Iskanje in extrakcija mnenja

Temeljni literatura in viri
  • Bing Liu, Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications, Springer, August 2013
  • Ricardo Baeza-Yates , Berthier Ribeiro-Neto: Modern Information Retrieval: The Concepts and Technology behind Search, 2nd Edition, ACM Press Books, 2010
Cilji in kompetence

Cilj predmeta je študente naučiti, kako sprogramirati iskanje po spletu (po indeksiranem in neindeksiranem delu spleta) ter kako razviti programe za ekstrakcijo strukturiranih podatkov s statičnih in dinamičnih spletnih strani. Študentje bodo spoznali osnovne koncepte spletnega iskanja in ekstrakcije podatkov s spleta ter se naučili potrebnih tehnik, ki so za to potrebne. Po uspešno opravljene predmetu bodo sposobni samostojnega razvoja aplikacij, ki avtomatizirajo spletno iskanje in ekstrahirajo podatke s spletnih strani, vključno z ekstrakcijo podatkov iz on-line socialnih medijev.

Predvideni študijski rezultati

Po uspešno zaključenem modulu bodo študenti zmožni:

  • Povzeti najpomembnejše pristope in tehnike s področja iskanja in ekstrakcije podatkov s spleta
  • presoditi, kateri pristopi s področja iskanja in ekstrakcije podatkov s spleta so najbolj primerni za reševanje posameznih problemov,
  • razviti aplikacije za zajem in analizo podatkov s spleta,
  • konstruirati lastne algoritme za ekstrakcijo podatkov s spleta,
  • pojasniti delovanje in časovno kompleksnost algoritmov iskanja po spletu,
  • uporabiti in integrirati različne odprto-kodne rešitve s področja iskanja in ekstrakcije podatkov s spleta
Metode poučevanja in učenja

Predavanja, računske vaje z ustnimi nastopi, projektni način dela pri domačih nalogah in seminarjih.

Načini ocenjevanja

Sprotno preverjanje (domače naloge, kolokviji in projektno delo)
Končno preverjanje (pisni in ustni izpit)
(ocene: 5 (negativno), 6-10 (pozitivno), ob upoštevanju Statuta UL)

Reference nosilca

Pet najpomembnejših del:
ŠUBELJ, Lovro, BAJEC, Marko. Group detection in complex networks : an algorithm and comparison of the state of the art. Physica. A, 2014
ŽITNIK, Slavko, ŠUBELJ, Lovro, LAVBIČ, Dejan, VASILECAS, Olegas, BAJEC, Marko. General context-aware data matching and merging framework. Informatica, 2013
LAVBIČ, Dejan, BAJEC, Marko. Employing semantic web technologies in financial instruments trading : Dejan Lavbič and Marko Bajec. International journal of new computer architectures and their applications, 2012
ŠUBELJ, Lovro, FURLAN, Štefan, BAJEC, Marko. An expert system for detecting automobile insurance fraud using social network analysis. Expert systems with applications, 2011
ŠUBELJ, Lovro, JELENC, David, ZUPANČIČ, Eva, LAVBIČ, Dejan, TRČEK, Denis, KRISPER, Marjan, BAJEC, Marko. Merging data sources based on semantics, contexts and trust. The IPSI BgD transactions on internet research, 2011
Celotna bibliografija je dostopna na SICRISu:
http://sicris.izum.si/search/rsr.aspx?lang=slv&,id=9270.