Хијерархијска класификација текста на српском језику применом методе подржавајућих вектора

Јована Ковачевић
Јелена Граовац University of Belgrade

Abstract

У раду су представљени резултати класификације хијерархијски организованог корпуса докумената на српском језику коришћењем методе подржавајућих вектора (МПВ, енгл. Support Vector Machine, SVM). Примењене су две технике класификације изведене из методе МПВ са структурним излазом: вишекласна (равна, енгл. flat) и хијерархијска класификација. Модел заједничке репрезентације документа и клaсе или хијерархије класа којима документ припада, специфичан за овај облик МПВ методе, базиран је на н-грамима бајтова различите дужине. Коришћене су четири tf-idf статистике које одређују значајност н-грама за одређени документ. Описане технике и статистике тестиране су на хијерархијски структуираном подскупу Ебарт корпуса новинских текстова.

PDF (Cрпски)

Published

2015-12-18

How to Cite

КОВАЧЕВИЋ, Јована; ГРАОВАЦ, Јелена. Хијерархијска класификација текста на српском језику применом методе подржавајућих вектора. Infotheca - Journal for Digital Humanities, [S.l.], v. 16, n. 1-2a, dec. 2015. ISSN 2217-9461. Available at: <https://infoteka.bg.ac.rs/ojs/index.php/Infoteka/article/view/2016.16.1_2.1_sr>. Date accessed: 13 feb. 2026.

Citation Formats

Issue

Vol 16 No 1-2a (2016): Инфотека - часопис за дигиталну хуманистику

Section

Articles

Keywords

хијерархијска класификација текста, метода подржавајућих вектора, Ебарт корпус

		Faculty of Philology, University of Belgrade
		University Library „Svetozar Marković“
		Association of Libraries of the Universities of Serbia

Хијерархијска класификација текста на српском језику применом методе подржавајућих вектора

Abstract

Keywords

Publisher