Класификација текста заснована на српском wordnet-у

  • Јелена Граовац Универзитет у Београду, Математички факултет, Катедра за рачунарство и информатику

Abstract

У овом раду је приказана метода за класификацију текста на српском језику заснована на српском wordnet-у. Метода је вођена хипотезом да се укључивањем морфолошких, синтаксичких и семантичких информација садржаних у лексичким ресурсима може унапредити процес класификације текстова на српском језику, као једном од морфолошки богатијих језика. Коришћен је Ебарт-3 корпус који представља скуп новинских чланака на српском језику подељених у три класе: економија, политика и спорт. Метода користи паметан одабир концепата из српског wordnet-a као представника сваке од класа, а сам одабир се врши на основу вредности уведене мере за тежину која квантификује значај концепта за дату класу. Проблем флексије у српском језику је решен коришћењем морфолошког речника за српски језик. Ради евалуације приказане методе коришћени су микропросечни и макропросечни показатељи – прецизност, одзив и ф-мера. Добијени резултати су показали да се паметним избором концепата добијају бољи резултати него коришћењем свих концепата придружених доменима који одговарају класама, мада су домени дефинисани у wordnet-у, поред осталог, и због његове успешније примене на задатке класификације текста.

Published
2024-03-01
How to Cite
ГРАОВАЦ, Јелена. Класификација текста заснована на српском wordnet-у. Infotheca - Journal for Digital Humanities, [S.l.], v. 14, n. 2a, p. 2-17, mar. 2024. ISSN 2217-9461. Available at: <https://infoteka.bg.ac.rs/ojs/index.php/Infoteka/article/view/372>. Date accessed: 23 july 2024.