God. 13, br. 2, decembar 2012.
Valentin Žikov
Ontotext AD
Ivelina Nikolova
Institut za informaciono – komunikacione
Laura Tološ
Bugarske akademije nauka i Ontotext AD
Bugarske akademije nauka i Ontotext AD
Javor Ivanov
Xenium Ltd.
Xenium Ltd.
Borislav Popov
Ontotext AD
Ontotext AD
Georgi Georgijev
Ontotext AD
Ontotext AD
UNAPREĐIVANjE DRUŠTVENIH INFORMATIVNIH MEDIJA NA BUGARSKOM PUTEM OBRADE PRIRODNIH JEZIKA
UDK: 811.163.2’322.2
Ključne reči: obrada prirodnih jezika, mašinsko učenje, pristupi koji ne zavise od jezika, ekstrakcija ključnih reči, klasifikacija teksta
Sažetak: U ovom radu, uvodimo sistem zasnovan na tehnikama obrade prirodnih jezika koje imaju za cilj unapređivanje društvenih informativnih medija na bugarskom. Tim sistemom se rešava zadatak klasifikacije dokumenata sa više klasa i više obeležja. Primenjujemo algoritme na zbirku članaka iz medija objavljenih na sajtu Svejo.net, popularnom bugarskom veb resursu koji obuhvata sadržaje koje kreiraju korisnici. U našim algoritmima se koriste metodi klasifikacije „jedan protiv svih“, široko rasprostranjeni u računarskoj lingvistici. Opisujemo algoritme, svojstva koja su upotrebljena i procenjujemo uticaj tih svojstava na delotvornost modela. Time pokazujemo da saznanja o korisniku i ponašanju korisnika mogu mnogo da doprinesu poboljšanju učinka. Osim toga, uprkos činjenici da su celu našu zbirku napravili korisnici društvenih medija, kvalitet rezultata klasifikacije je uporediv sa kvalitetom od ranije poznatih studija. Bavimo se i zadatkom automatske ekstrakcije ključnih reči i izraza iz nestrukturisanog teksta i prilagođavamo ga potrebama Svejo.net-a radi indukovanja „tema“. Teme se definišu kao odlomci teksta u kojima je sumirana suština nekog članka. Ocenjujemo delotvornost nekolikih generičkih metoda ekstrakcije ključnih reči i izraza primenjenih na korpus se oslanjaju na široko prihvaćene metode pronalaženja informacija i mašinskog učenja i funkcionišu nezavisno od jezika. Takođe razmatramo dejstvo komponente koju čini stemer na preciznost ekstrakcije ključnih izraza. Zadovoljavajući učinak naših modela, uprkos ograničenom lingvističkom znanju ugrađenom u njih, preporučuje ih da budu polazna osnova za ekstrakciju ključnih reči i izraza u bugarskom jeziku.
PRILOZI
Gorg Rem, Hans Uskorjat
ČLANCI
Valentin Žikov, Ivelina Nikolova, Laura Tološ, Javor Ivanov, Borislav Popov, Georgi Georgijev
Vesna Pajić, Staša Vujičić Stanković, Miloš Pajić
Zoran Ristović
PRILOZI
Gordana Nedeljkov
SKUPOVI
PRILOZI
Darja Kovrlija, Valentina Tasić, Suzana Topalović