Хијерархијска класификација текста на српском језику применом методе подржавајућих вектора
Abstract
У раду су представљени резултати класификације хијерархијски организованог корпуса докумената на српском језику коришћењем методе подржавајућих вектора (МПВ, енгл. Support Vector Machine, SVM). Примењене су две технике класификације изведене из методе МПВ са структурним излазом: вишекласна (равна, енгл. flat) и хијерархијска класификација. Модел заједничке репрезентације документа и клaсе или хијерархије класа којима документ припада, специфичан за овај облик МПВ методе, базиран је на н-грамима бајтова различите дужине. Коришћене су четири tf-idf статистике које одређују значајност н-грама за одређени документ. Описане технике и статистике тестиране су на хијерархијски структуираном подскупу Ебарт корпуса новинских текстова.