Анотација Корпуса савременог српског језика

  • Милош Утвић Универзитет у Београду, Филолошки факултет, Катедра за библиотекарство и информатику

Abstract

Овај текст описује припрему и реализацију анотације Корпуса савременог српског језика величине 113 милиона речи. Анотација је спроведена на неколико нивоа. Сваком тексту корпуса је придружена одговарајућа библиографска информација. На основу електронског морфолошког речника српског језика припремљен је скуп етикета за врсте речи, као и речник за анотацију прилагођен програму за етикетирање TreeTagger. Коришћењем програма TreeTagger и ручно анотираног корпуса INTERA величине око милион речи, извршена је аутоматска морфосинтаксичка анотација Корпуса савременог српског језика, тј. корпусним речима је придружена информација о врсти речи и леми. Применом десетоструке унакрсне провере (енг. 10-fold cross-validation) обављена је евалуација примењеног поступка.

Published
2024-03-06
How to Cite
УТВИЋ, Милош. Анотација Корпуса савременог српског језика. Infotheca - Journal for Digital Humanities, [S.l.], v. 12, n. 2a, p. 39-51, mar. 2024. ISSN 2217-9461. Available at: <https://infoteka.bg.ac.rs/ojs/index.php/Infoteka/article/view/443>. Date accessed: 20 nov. 2024.