Властита имена у екстракцији информација

  • Сандра Гуцул-Милојевић Универзитет у Београду, Филолошки факултет

Abstract

Производња електронских текстова на вебу, у дигиталним библиотекама и архивима повећава се из дана у дан, а са њом расте и потреба за одговарајућим рачунарским алатима који би корисницима омогућили једноставнију манипулацију текстом и његову лакшу аутоматску обраду. Први део овога рада даје дефиницију области екстракције информација, кратак приказ историјског развоја метода које користи, врсте и могуће примене. Методе екстракције информација су различите, од једноставних које се заснивају на сравњивању ниски (енгл. pattern matching) до знатно сложенијих које користе коначне аутомате и контекстно-слободне граматике или статистичке моделе. У другом делу рада ће бити представљен и анализиран метод за прецизно аутоматско препознавање ниске у дигиталном тексту која представља форму имена и презимена у српском језику и енглеских имена транскрибованих на српски језик. Лична имена представљају значајан део лексике писаних текстовима, посебно новинских, било да су у традиционалном или електронском облику, па се стога широко истражују у области екстракције информација. Метод који је представљен у овом раду је развијен у оквиру LADL (Laboratoire d'Automatique Documentaire et Linguistique).

Published
2024-03-06
How to Cite
ГУЦУЛ-МИЛОЈЕВИЋ, Сандра. Властита имена у екстракцији информација. Infotheca - Journal for Digital Humanities, [S.l.], v. 11, n. 1a, p. 47-58, mar. 2024. ISSN 2217-9461. Available at: <https://infoteka.bg.ac.rs/ojs/index.php/Infoteka/article/view/458>. Date accessed: 03 july 2024.