Хијерархијска класификација текста на српском језику применом методе подржавајућих вектора
Abstract
У раду су представљени резултати класификације хијерархијски организованог корпуса докумената на српском језику коришћењем методе подржавајућих вектора (МПВ, енгл. Support Vector Machine, SVM). Примењене су две технике класификације изведене из методе МПВ са структурним излазом: вишекласна (равна, енгл. flat) и хијерархијска класификација. Модел заједничке репрезентације документа и клaсе или хијерархије класа којима документ припада, специфичан за овај облик МПВ методе, базиран је на н-грамима бајтова различите дужине. Коришћене су четири tf-idf статистике које одређују значајност н-грама за одређени документ. Описане технике и статистике тестиране су на хијерархијски структуираном подскупу Ебарт корпуса новинских текстова.
Published
2015-12-18
How to Cite
KOVAČEVIĆ, Jovana; GRAOVAC, Jelena.
Хијерархијска класификација текста на српском језику применом методе подржавајућих вектора.
Infotheca - Journal for Digital Humanities, [S.l.], v. 16, n. 1-2a, dec. 2015.
ISSN 2217-9461.
Available at: <https://infoteka.bg.ac.rs/ojs/index.php/Infoteka/article/view/2016.16.1_2.1_sr>. Date accessed: 19 nov. 2024.
Section
Articles
Keywords
хијерархијска класификација текста, метода подржавајућих вектора, Ебарт корпус