Унапређивање друштвених информативних медија на бугарском путем обраде природних језика

  • Валентин Жиков Ontotext AD
  • Ивелина Николова Институт за информационо – комуникационе технологије (IICT), Бугарске академије наука и Ontotext AD
  • Лаура Толош Ontotext AD
  • Јавор Иванов Xenium Ltd.
  • Борислав Попов Ontotext AD
  • Георги Георгијев Ontotext AD

Abstract

У овом раду, уводимо систем заснован на техникама обраде природних језика које имају за циљ унапређивање друштвених информативних медија на бугарском. Тим системом се решава задатак класификације докумената са више класа и више обележја. Примењујемо алгоритме на збирку чланака из медија објављених на сајту Svejo.net, популарном бугарском веб ресурсу који обухвата садржаје које креирају корисници. У нашим алгоритмима се користе методи класификације „један против свих“, широко распрострањени у рачунарској лингвистици. Описујемо алгоритме, својства која су употребљена и процењујемо утицај тих својстава на делотворност модела. Тиме показујемо да сазнања о кориснику и понашању корисника могу много да допринесу побољшању учинка. Осим тога, упркос чињеници да су целу нашу збирку направили корисници друштвених медија, квалитет резултата класификације је упоредив са квалитетом од раније познатих студија. Бавимо се и задатком аутоматске екстракције кључних речи и израза из неструктурисаног текста и прилагођавамо га потребама Svejo.net-а ради индуковања „тема“. Теме се дефинишу као одломци текста у којима је сумирана суштина неког чланка. Оцењујемо делотворност неколиких генеричких метода екстракције кључних речи и израза примењених на корпус се ослањају на широко прихваћене методе проналажења информација и машинског учења и функционишу независно од језика. Такође разматрамо дејство компоненте коју чини стемер на прецизност екстракције кључних израза. Задовољавајући учинак наших модела, упркос ограниченом лингвистичком знању уграђеном у њих, препоручује их да буду полазна основа за екстракцију кључних речи и израза у бугарском језику. 

Published
2024-03-04
How to Cite
ЖИКОВ, Валентин et al. Унапређивање друштвених информативних медија на бугарском путем обраде природних језика. Infotheca - Journal for Digital Humanities, [S.l.], v. 13, n. 2a, p. 7-20, mar. 2024. ISSN 2217-9461. Available at: <https://infoteka.bg.ac.rs/ojs/index.php/Infoteka/article/view/401>. Date accessed: 20 nov. 2024.