Класификација текста заснована на српском wordnet-у
Abstract
У овом раду је приказана метода за класификацију текста на српском језику заснована на српском wordnet-у. Метода је вођена хипотезом да се укључивањем морфолошких, синтаксичких и семантичких информација садржаних у лексичким ресурсима може унапредити процес класификације текстова на српском језику, као једном од морфолошки богатијих језика. Коришћен је Ебарт-3 корпус који представља скуп новинских чланака на српском језику подељених у три класе: економија, политика и спорт. Метода користи паметан одабир концепата из српског wordnet-a као представника сваке од класа, а сам одабир се врши на основу вредности уведене мере за тежину која квантификује значај концепта за дату класу. Проблем флексије у српском језику је решен коришћењем морфолошког речника за српски језик. Ради евалуације приказане методе коришћени су микропросечни и макропросечни показатељи – прецизност, одзив и ф-мера. Добијени резултати су показали да се паметним избором концепата добијају бољи резултати него коришћењем свих концепата придружених доменима који одговарају класама, мада су домени дефинисани у wordnet-у, поред осталог, и због његове успешније примене на задатке класификације текста.
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.