God. 12, br. 2, decembar 2011.

 

Miloš Utvić
Univerzitet u Beogradu, Filološki fakultet
 
ANOTACIJA KORPUSA SAVREMENOG SRPSKOG JEZIKA
 
UDK: 004.9:811.163.41’374
Napomena: Ovaj rad prikazuje rezultate postignute tokom 2011. godine u okviru projekta Srpski jezik i njegovi resursi (178006) koji finansira Ministarstvo prosvete Republike Srbije i projekta CESAR kao dela šire mreže projekata META-NET koju finansira Evropska unija.
Ključne reči: anotacija, korpus, tagger, TreeTagger
Sažetak: Ovaj tekst opisuje pripremu i realizaciju anotacije Korpusa savremenog srpskog jezika veličine 113 miliona reči. Anotacija je sprovedena na nekoliko nivoa. Svakom tekstu korpusa je pridružena odgovarajuća bibliografska informacija. Na osnovu elektronskog morfološkog rečnika srpskog jezika pripremljen je skup etiketa za vrste reči, kao i rečnik za anotaciju prilagođen programu za etiketiranje TreeTagger. Korišćenjem programa TreeTagger i ručno anotiranog korpusa INTERA veličine oko milion reči, izvršena je automatska morfosintaksička anotacija Korpusa savremenog srpskog jezika, tj. korpusnim rečima je pridružena informacija o vrsti reči i lemi. Primenom desetostruke unakrsne provere (eng. 10-fold cross-validation) obavljena je evaluacija primenjenog postupka.