Год. 11, бр. 1, април 2010.

 

Сандра Гуцул-Милојевић
 
Универзитет у Београду, Филолошки факултет
 

ВЛАСТИТА ИМЕНА У ЕКСТРАКЦИЈИ ИНФОРМАЦИЈА

 
УДК: 004.832.2:025.4
Кључне речи: властитo име, екстракција информација, електронскитекст, коначни аутомат, електронски речник, локална граматика, рачунарска лингвистика
Сажетак: Производња електронских текстова на вебу, у дигиталним библиотекама и архивима повећава се из дана у дан, а са њом расте и потреба за одговарајућим рачунарским алатима који би корисницима омогућили једноставнију манипулацију текстом и његову лакшу аутоматску обраду. Први део овога рада даје дефиницију области екстракције информација, кратак приказ историјског развоја метода које користи, врсте и могуће примене. Методе екстракције информација су различите, од једноставних које се заснивају на сравњивању ниски (енгл. pattern matching) до знатно сложенијих које користе коначне аутомате и контекстно-слободне граматике или статистичке моделе. У другом делу рада ће бити представљен и анализиран метод за прецизно аутоматско препознавање ниске у дигиталном тексту која представља форму имена и презимена у српском језику и енглеских имена транскрибованих на српски језик. Лична имена редстављају значајан део лексике писаних текстовима, посебно новинских, било да су у традиционалном или електронском облику, па се стога широко истражују у области екстракције информација. Метод који је представљен у овом раду је развијен у оквиру LADL (Laboratoire d'Automatique Documentaireet Linguistique).