God. 16, br. ½, avgust 2016.

 

Jovana Kovačević, Jelena Graovac
Matematički fakultet,
Katedra za računarstvo i informatiku

 

 N-GRAMSKI ZASNOVANA KLASIFIKACIJA TEKSTA NA SRPSKOM JEZIKU PRIMENOM METODE STRUKTURALNIH PODRŽAVAJUĆIH VEKTORA

UDK:811.163.41'322.2

Ključne reči: hijerarhijska klasifikacija teksta, metoda podržavajućih vektora, Ebart korpus

Sažetak:U radu su predstavljeni rezultati klasifikacije hijerarhijski organizovanog korpusa dokumenata na srpskom jeziku korišćenjem metode podržavajućih vektora (MPV, engl. SupportVectorMachine, SVM). Primenjene su dve tehnike klasifikacije izvedene iz metode MPV sa strukturnim izlazom: višeklasna ravna (engl. flat) i hijerarhijska klasifikacija. Model zajedničke reprezentacije dokumenta i klase ili hijerarhije klasa kojima dokument pripada, specifičan za ovaj oblik MPV metode, baziran je na n-gramima bajtova različite dužine. Korišćene su četiri  tf-idfstatistike koje određuju  značajnost n-grama za određeni dokument. Opisane tehnike i statistike testirane su na hijerarhijski struktuiranom podskupu Ebart korpusa novinskih tekstova. Dobijeni rezultati za oba tipa klasifikatora na nivou celog korpusa su približni, dok na nivou pojedinačnih klasa hijerarhijski tip klasifikatora pokazuje bolje rezultate za većinu klasa sa malim brojem tekstova.
 

                                                                                                   


NAUČNI RADOVI

Jovana Kovačević, Jelena Graovac

N-GRAMSKI ZASNOVANA KLASIFIKACIJA TEKSTA NA SRPSKOM JEZIKU PRIMENOM METODE STRUKTURALNIH PODRŽAVAJUĆIH VEKTORA

Miljana Mladenović

ONTOLOŠKO PREPOZNAVANjE RETORIČKIH FIGURA 

Tanja Ivanović

LEKSIČKA ANALIZA DVOČLANIH TERMINOLOŠKIH SINTAGMI ELEKTRODISTRIBUTIVNOG SISTEMA

Milena Milinković

Milena Obradović, Aleksandra Arsenijević, Mihailo Škorić

IZRADA MULTIMEDIJALNOG DOKUMENTA “YU ROK SCENA”

 

PRIKAZI

 

Vladan Devedžić, Milan Krstić

RAČUNARSTVO U DRUŠTVENIM NAUKAMA

Jelena Mitrović

PRIKAZ EUROLAN 2015 LETNjE ŠKOLE IZ RAČUNARSKE LINGVISTIKE