Израда синтетичког евалуативног скупа података за Српски SentiWordNet користећи велике језичке моделе
Abstract
Ово истраживање представља израду синтетичког скупа за евалуацију Српског SentiWordNet-а, користећи велике језичке моделе (ВЈМ), с посебним нагласком на Мистрал модел. У светлу недостатка ресурса за анализу сентимента на српском језику, циљ истраживања је премошћавање овог јаза генерисањем скупа за евалуацију и унапређење алата за анализу сентимента на српском. Вредности поларитета сентимента из енглеског SentiWordNet-а аутоматски су мапиране на Српски Ворднет путем међујезичког индекса (ILI). Како би се ове вредности прецизније прилагодиле српском језику, креиран је посебан скуп за евалуацију. Иницијално је одабрано 500 синсетова из Српског Ворднета, на основу њихове усклађености са senti-pol-sr лексиконом и мапираним вредностима из SentiWordNet-а. Ови синсетови су класификовани према поларитету сентимента коришћењем Мистрал модела. Избалансирани подскуп од 75 синсетова насумично је издвојен, додатно профињен финијом градацијом сентимента и ручно прегледан. Резултати показују високу поузданост модела, са приближно 93,3% одговора који задовољавају постављене критеријуме прихватљивости, чиме се истиче ефикасност ВЈМ-ова попут Мистрала у аутоматизацији анализе сентимента за језике са мање развијеним ресурсима.

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.


