Год. 12, бр. 2, децембар 2011.

 

Милош Утвић
Универзитет у Београду, Филолошки факултет
 
АНОТАЦИЈА КОРПУСА САВРЕМЕНОГ СРПСКОГ ЈЕЗИКА
 
УДК: 004.9:811.163.41’374
Напомена: Овај рад приказује резултате постигнуте током 2011. године у оквиру пројекта Српски језик и његови ресурси (178006) који финансира Министарство просвете Републике Србије и пројекта CESAR као дела шире мреже пројеката META-NET коју финансира Европска унија.
Кључне речи: анотација, корпус, tagger, TreeTagger
Сажетак: Овај текст описује припрему и реализацију анотације Корпуса савременог српског језика величине 113 милиона речи. Анотација је спроведена на неколико нивоа. Сваком тексту корпуса је придружена одговарајућа библиографска информација. На основу електронског морфолошког речника српског језика припремљен је скуп етикета за врсте речи, као и речник за анотацију прилагођен програму за етикетирање TreeTagger. Коришћењем програма TreeTagger и ручно анотираног корпуса INTERA величине око милион речи, извршена је аутоматска морфосинтаксичка анотација Корпуса савременог српског језика, тј. корпусним речима је придружена информација о врсти речи и леми. Применом десетоструке унакрсне провере (енг. 10-fold cross-validation) обављена је евалуација примењеног поступка.