God. 11, br. 2, decembar 2010.

 

Zoran Popović
Hemofarm, ŠTADA
 
PROGRAMI ZA ETIKETIRANjE TEKSTA NA SRPSKOM JEZIKU
 
UDK: 004.912:811.163.41’322
Napomena: Ovaj rad predstavlja rezultate prikazane u okviru diplomskog (master) rada koji je odbranjen na Matematičkom fakultetu 2009. godine
Ključne reči: etiketiranje, tagger, PoS, mašinsko učenje, NLP, računska lingvistika
Sažetak: Ovaj tekst daje uporedni pregled postojećih jezičkih alata, odnosno programa za etiketiranje, zasnovanih pre svega na metodama mašinskog učenja, uz konkretne testove i rezultate različitih programa nad tekstom na srpskom jeziku. U tu svrhu su korišćeni već pripremljeni etiketirani korpusi i desetostruka unakrsna provera (10-fold cross-validation), i posebno razvijen postupak automatizovanog testiranja realizovanog unix skriptovima (bash, perl, awk) – TnT je pokazao najbolje performanse, dok su se Tree Tagger i SVMTool pokazali uspešnijim u nekim specijalnim slučajevima. Mogućnost uparivanja različitih metoda i programa za etiketiranje, kao i integracija sa drugim okruženjima za OPJ otvaraju mogućnost daljih ispitivanja ovakvih rešenja.