God. 13, br. 2, decembar 2012.

Valentin Žikov
Ontotext AD

Ivelina Nikolova
Institut za informaciono – komunikacione

Laura Tološ
Bugarske akademije nauka i Ontotext AD
 
Javor Ivanov
Xenium Ltd.
 
Borislav Popov
Ontotext AD
 
Georgi Georgijev
Ontotext AD
 
 
UNAPREĐIVANjE DRUŠTVENIH INFORMATIVNIH MEDIJA NA BUGARSKOM PUTEM OBRADE PRIRODNIH JEZIKA
 
UDK: 811.163.2’322.2
Ključne reči: obrada prirodnih jezika, mašinsko učenje, pristupi koji ne zavise od jezika, ekstrakcija ključnih reči, klasifikacija teksta
Sažetak: U ovom radu, uvodimo sistem zasnovan na tehnikama obrade prirodnih jezika koje imaju za cilj unapređivanje društvenih informativnih medija na bugarskom. Tim sistemom se rešava zadatak klasifikacije dokumenata sa više klasa i više obeležja. Primenjujemo algoritme na zbirku članaka iz medija objavljenih na sajtu Svejo.net, popularnom bugarskom veb resursu koji obuhvata sadržaje koje kreiraju korisnici. U našim algoritmima se koriste metodi klasifikacije „jedan protiv svih“, široko rasprostranjeni u računarskoj lingvistici. Opisujemo algoritme, svojstva koja su upotrebljena i procenjujemo uticaj tih svojstava na delotvornost modela. Time pokazujemo da saznanja o korisniku i ponašanju korisnika mogu mnogo da doprinesu poboljšanju učinka. Osim toga, uprkos činjenici da su celu našu zbirku napravili korisnici društvenih medija, kvalitet rezultata klasifikacije je uporediv sa kvalitetom od ranije poznatih studija. Bavimo se i zadatkom automatske ekstrakcije ključnih reči i izraza iz nestrukturisanog teksta i prilagođavamo ga potrebama Svejo.net-a radi indukovanja „tema“. Teme se definišu kao odlomci teksta u kojima je sumirana suština nekog članka. Ocenjujemo delotvornost nekolikih generičkih metoda ekstrakcije ključnih reči i izraza primenjenih na korpus se oslanjaju na široko prihvaćene metode pronalaženja informacija i mašinskog učenja i funkcionišu nezavisno od jezika. Takođe razmatramo dejstvo komponente koju čini stemer na preciznost ekstrakcije ključnih izraza. Zadovoljavajući učinak naših modela, uprkos ograničenom lingvističkom znanju ugrađenom u njih, preporučuje ih da budu polazna osnova za ekstrakciju ključnih reči i izraza u bugarskom jeziku.
 

   

 


PRILOZI

 

ČLANCI

 

Valentin Žikov, Ivelina Nikolova, Laura Tološ, Javor Ivanov, Borislav Popov, Georgi Georgijev

 

PRILOZI

 

SKUPOVI

 

PRILOZI