Domov > Obvestila > Andrej Muhič: Izračun medjezične podobnosti z uporabo naključnega SVD algoritma

Andrej Muhič: Izračun medjezične podobnosti z uporabo naključnega SVD algoritma

Datum objave: 15. 10. 2012
Vir: Seminar za numerično analizo
Sreda 17. 10. 2012 od 10h do 11h, soba 3.06 na Jadranski 21

Predavanje od 10h do 11h

Andrej Muhič: Izračun medjezične podobnosti z uporabo naključnega SVD algoritma  

 Ogledali si bomo, kako lahko primerjamo dokumente v različnih jezikih z uporabo orodij numerične linearne algebre na podlagi šibko poravnanega večjezičnega korpusa (Wikipedije). Dokument v vsakem jeziku predstavimo kot vrečo besed, razpršeni vektor, ki ima za elemente utežene frekvence besed.

Najprej preslikamo dokument v skupen prostor, ki je neodvisen od jezika. Za hitro konstrukcijo preslikave uporabimo naključni SVD algoritem, ki nam omogoča, da hitro izračunamo nekaj 100 vodilnih singularnih vektorjev velikih razpršenih matrik, (5*10^5 x 5*10^5 in več). V skupnem prostoru nato za mero podobnosti uporabimo kosinus kota med projiciranimi dokumenti.

Predstavljen bo tudi delujoč demo implementacije.