Год. 13, бр. 2, децембар 2012.

Валентин Жиков
Ontotext AD

Ивелина Николова
Институт за информационо – комуникационе

Лаура Толош
Бугарске академије наука и Ontotext AD
 
Јавор Иванов
Xenium Ltd.
 
Борислав Попов
Ontotext AD
 
Георги Георгијев
Ontotext AD
 
 
УНАПРЕЂИВАЊЕ ДРУШТВЕНИХ ИНФОРМАТИВНИХ МЕДИЈА НА БУГАРСКОМ ПУТЕМ ОБРАДЕ ПРИРОДНИХ ЈЕЗИКА
 
УДК: 811.163.2’322.2
Кључне речи: обрада природних језика, машинско учење, приступи који не зависе од језика, екстракција кључних речи, класификација текста
Сажетак: У овом раду, уводимо систем заснован на техникама обраде природних језика које имају за циљ унапређивање друштвених информативних медија на бугарском. Тим системом се решава задатак класификације докумената са више класа и више обележја. Примењујемо алгоритме на збирку чланака из медија објављених на сајту Svejo.net, популарном бугарском веб ресурсу који обухвата садржаје које креирају корисници. У нашим алгоритмима се користе методи класификације „један против свих“, широко распрострањени у рачунарској лингвистици. Описујемо алгоритме, својства која су употребљена и процењујемо утицај тих својстава на делотворност модела. Тиме показујемо да сазнања о кориснику и понашању корисника могу много да допринесу побољшању учинка. Осим тога, упркос чињеници да су целу нашу збирку направили корисници друштвених медија, квалитет резултата класификације је упоредив са квалитетом од раније познатих студија. Бавимо се и задатком аутоматске екстракције кључних речи и израза из неструктурисаног текста и прилагођавамо га потребама Svejo.net-а ради индуковања „тема“. Теме се дефинишу као одломци текста у којима је сумирана суштина неког чланка. Оцењујемо делотворност неколиких генеричких метода екстракције кључних речи и израза примењених на корпус се ослањају на широко прихваћене методе проналажења информација и машинског учења и функционишу независно од језика. Такође разматрамо дејство компоненте коју чини стемер на прецизност екстракције кључних израза. Задовољавајући учинак наших модела, упркос ограниченом лингвистичком знању уграђеном у њих, препоручује их да буду полазна основа за екстракцију кључних речи и израза у бугарском језику.
 

  

 


ПРИЛОЗИ

ЧЛАНЦИ

Валентин Жиков, Ивелина Николова, Лаура Толош, Јавор Иванов, Борислав Попов, Георги Георгијев
 

ПРИЛОЗИ

СКУПОВИ

ПРИЛОЗИ