Год. 13, бр. 2, децембар 2012.
Валентин Жиков
Ontotext AD
Ивелина Николова
Институт за информационо – комуникационе
Лаура Толош
Бугарске академије наука и Ontotext AD
Бугарске академије наука и Ontotext AD
Јавор Иванов
Xenium Ltd.
Xenium Ltd.
Борислав Попов
Ontotext AD
Ontotext AD
Георги Георгијев
Ontotext AD
Ontotext AD
УНАПРЕЂИВАЊЕ ДРУШТВЕНИХ ИНФОРМАТИВНИХ МЕДИЈА НА БУГАРСКОМ ПУТЕМ ОБРАДЕ ПРИРОДНИХ ЈЕЗИКА
УДК: 811.163.2’322.2
Кључне речи: обрада природних језика, машинско учење, приступи који не зависе од језика, екстракција кључних речи, класификација текста
Сажетак: У овом раду, уводимо систем заснован на техникама обраде природних језика које имају за циљ унапређивање друштвених информативних медија на бугарском. Тим системом се решава задатак класификације докумената са више класа и више обележја. Примењујемо алгоритме на збирку чланака из медија објављених на сајту Svejo.net, популарном бугарском веб ресурсу који обухвата садржаје које креирају корисници. У нашим алгоритмима се користе методи класификације „један против свих“, широко распрострањени у рачунарској лингвистици. Описујемо алгоритме, својства која су употребљена и процењујемо утицај тих својстава на делотворност модела. Тиме показујемо да сазнања о кориснику и понашању корисника могу много да допринесу побољшању учинка. Осим тога, упркос чињеници да су целу нашу збирку направили корисници друштвених медија, квалитет резултата класификације је упоредив са квалитетом од раније познатих студија. Бавимо се и задатком аутоматске екстракције кључних речи и израза из неструктурисаног текста и прилагођавамо га потребама Svejo.net-а ради индуковања „тема“. Теме се дефинишу као одломци текста у којима је сумирана суштина неког чланка. Оцењујемо делотворност неколиких генеричких метода екстракције кључних речи и израза примењених на корпус се ослањају на широко прихваћене методе проналажења информација и машинског учења и функционишу независно од језика. Такође разматрамо дејство компоненте коју чини стемер на прецизност екстракције кључних израза. Задовољавајући учинак наших модела, упркос ограниченом лингвистичком знању уграђеном у њих, препоручује их да буду полазна основа за екстракцију кључних речи и израза у бугарском језику.
ПРИЛОЗИ
Горг Рем, Ханс Ускорјат
ЧЛАНЦИ
Валентин Жиков, Ивелина Николова, Лаура Толош, Јавор Иванов, Борислав Попов, Георги Георгијев
Весна Пајић, Сташа Вујичић Станковић, Милош Пајић
Зоран Ристовић
ПРИЛОЗИ
Гордана Недељков
СКУПОВИ
ПРИЛОЗИ
Дарја Коврлија, Валентина Тасић, Сузана Топаловић