Анотација Корпуса савременог српског језика
Abstract
Овај текст описује припрему и реализацију анотације Корпуса савременог српског језика величине 113 милиона речи. Анотација је спроведена на неколико нивоа. Сваком тексту корпуса је придружена одговарајућа библиографска информација. На основу електронског морфолошког речника српског језика припремљен је скуп етикета за врсте речи, као и речник за анотацију прилагођен програму за етикетирање TreeTagger. Коришћењем програма TreeTagger и ручно анотираног корпуса INTERA величине око милион речи, извршена је аутоматска морфосинтаксичка анотација Корпуса савременог српског језика, тј. корпусним речима је придружена информација о врсти речи и леми. Применом десетоструке унакрсне провере (енг. 10-fold cross-validation) обављена је евалуација примењеног поступка.
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.