Хијерархијска класификација текста на српском језику применом методе подржавајућих вектора

  • Јована Ковачевић
  • Јелена Граовац University of Belgrade

Abstract

У раду су представљени резултати класификације хијерархијски организованог корпуса докумената на српском језику коришћењем методе подржавајућих вектора (МПВ, енгл. Support Vector Machine, SVM). Примењене су две технике класификације изведене из методе МПВ са структурним излазом: вишекласна (равна, енгл. flat) и хијерархијска класификација. Модел заједничке репрезентације документа и клaсе или хијерархије класа којима документ припада, специфичан за овај облик МПВ методе, базиран је на н-грамима бајтова различите дужине. Коришћене су четири tf-idf статистике које одређују значајност н-грама за одређени документ. Описане технике и статистике тестиране су на хијерархијски структуираном подскупу Ебарт корпуса новинских текстова.

Published
2015-12-18
How to Cite
КОВАЧЕВИЋ, Јована; ГРАОВАЦ, Јелена. Хијерархијска класификација текста на српском језику применом методе подржавајућих вектора. Infotheca - Journal for Digital Humanities, [S.l.], v. 16, n. 1-2a, dec. 2015. ISSN 2217-9461. Available at: <https://infoteka.bg.ac.rs/ojs/index.php/Infoteka/article/view/2016.16.1_2.1_sr>. Date accessed: 13 feb. 2026.

Keywords

хијерархијска класификација текста, метода подржавајућих вектора, Ебарт корпус