Властита имена у екстракцији информација
Abstract
Производња електронских текстова на вебу, у дигиталним библиотекама и архивима повећава се из дана у дан, а са њом расте и потреба за одговарајућим рачунарским алатима који би корисницима омогућили једноставнију манипулацију текстом и његову лакшу аутоматску обраду. Први део овога рада даје дефиницију области екстракције информација, кратак приказ историјског развоја метода које користи, врсте и могуће примене. Методе екстракције информација су различите, од једноставних које се заснивају на сравњивању ниски (енгл. pattern matching) до знатно сложенијих које користе коначне аутомате и контекстно-слободне граматике или статистичке моделе. У другом делу рада ће бити представљен и анализиран метод за прецизно аутоматско препознавање ниске у дигиталном тексту која представља форму имена и презимена у српском језику и енглеских имена транскрибованих на српски језик. Лична имена представљају значајан део лексике писаних текстовима, посебно новинских, било да су у традиционалном или електронском облику, па се стога широко истражују у области екстракције информација. Метод који је представљен у овом раду је развијен у оквиру LADL (Laboratoire d'Automatique Documentaire et Linguistique).
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.