God. 16, br. ½, avgust 2016.
Jovana Kovačević, Jelena Graovac
Matematički fakultet,
Katedra za računarstvo i informatiku
N-GRAMSKI ZASNOVANA KLASIFIKACIJA TEKSTA NA SRPSKOM JEZIKU PRIMENOM METODE STRUKTURALNIH PODRŽAVAJUĆIH VEKTORA
UDK:811.163.41'322.2
Ključne reči: hijerarhijska klasifikacija teksta, metoda podržavajućih vektora, Ebart korpus
Sažetak:U radu su predstavljeni rezultati klasifikacije hijerarhijski organizovanog korpusa dokumenata na srpskom jeziku korišćenjem metode podržavajućih vektora (MPV, engl. SupportVectorMachine, SVM). Primenjene su dve tehnike klasifikacije izvedene iz metode MPV sa strukturnim izlazom: višeklasna ravna (engl. flat) i hijerarhijska klasifikacija. Model zajedničke reprezentacije dokumenta i klase ili hijerarhije klasa kojima dokument pripada, specifičan za ovaj oblik MPV metode, baziran je na n-gramima bajtova različite dužine. Korišćene su četiri tf-idfstatistike koje određuju značajnost n-grama za određeni dokument. Opisane tehnike i statistike testirane su na hijerarhijski struktuiranom podskupu Ebart korpusa novinskih tekstova. Dobijeni rezultati za oba tipa klasifikatora na nivou celog korpusa su približni, dok na nivou pojedinačnih klasa hijerarhijski tip klasifikatora pokazuje bolje rezultate za većinu klasa sa malim brojem tekstova.
NAUČNI RADOVI
Jovana Kovačević, Jelena Graovac
Miljana Mladenović
ONTOLOŠKO PREPOZNAVANjE RETORIČKIH FIGURA
Tanja Ivanović
LEKSIČKA ANALIZA DVOČLANIH TERMINOLOŠKIH SINTAGMI ELEKTRODISTRIBUTIVNOG SISTEMA
Milena Obradović, Aleksandra Arsenijević, Mihailo Škorić
IZRADA MULTIMEDIJALNOG DOKUMENTA “YU ROK SCENA”
PRIKAZI
Vladan Devedžić, Milan Krstić
RAČUNARSTVO U DRUŠTVENIM NAUKAMA
Jelena Mitrović