Хијерархијска класификација текста на српском језику применом методе подржавајућих вектора

  • Jovana Kovačević University of Belgrade
  • Jelena Graovac University of Belgrade

Abstract

У раду су представљени резултати класификације хијерархијски организованог корпуса докумената на српском језику коришћењем методе подржавајућих вектора (МПВ, енгл. Support Vector Machine, SVM). Примењене су две технике класификације изведене из методе МПВ са структурним излазом: вишекласна (равна, енгл. flat) и хијерархијска класификација. Модел заједничке репрезентације документа и клaсе или хијерархије класа којима документ припада, специфичан за овај облик МПВ методе, базиран је на н-грамима бајтова различите дужине. Коришћене су четири tf-idf статистике које одређују значајност н-грама за одређени документ. Описане технике и статистике тестиране су на хијерархијски структуираном подскупу Ебарт корпуса новинских текстова.

Published
2015-12-18
How to Cite
KOVAČEVIĆ, Jovana; GRAOVAC, Jelena. Хијерархијска класификација текста на српском језику применом методе подржавајућих вектора. Infotheca - Journal for Digital Humanities, [S.l.], v. 16, n. 1-2a, dec. 2015. ISSN 2217-9461. Available at: <https://infoteka.bg.ac.rs/ojs/index.php/Infoteka/article/view/2016.16.1_2.1_sr>. Date accessed: 23 apr. 2024.

Keywords

хијерархијска класификација текста, метода подржавајућих вектора, Ебарт корпус