ИНФОТЕКА - Часопис за информатику и библиотекарство

Год. 13, бр. 2, децембар 2012.

Валентин Жиков
Ontotext AD

Ивелина Николова
Институт за информационо – комуникационе

Лаура Толош
Бугарске академије наука и Ontotext AD

Јавор Иванов
Xenium Ltd.

Борислав Попов
Ontotext AD

Георги Георгијев
Ontotext AD

УНАПРЕЂИВАЊЕ ДРУШТВЕНИХ ИНФОРМАТИВНИХ МЕДИЈА НА БУГАРСКОМ ПУТЕМ ОБРАДЕ ПРИРОДНИХ ЈЕЗИКА

УДК: 811.163.2’322.2

Кључне речи: обрада природних језика, машинско учење, приступи који не зависе од језика, екстракција кључних речи, класификација текста

Сажетак: У овом раду, уводимо систем заснован на техникама обраде природних језика које имају за циљ унапређивање друштвених информативних медија на бугарском. Тим системом се решава задатак класификације докумената са више класа и више обележја. Примењујемо алгоритме на збирку чланака из медија објављених на сајту Svejo.net, популарном бугарском веб ресурсу који обухвата садржаје које креирају корисници. У нашим алгоритмима се користе методи класификације „један против свих“, широко распрострањени у рачунарској лингвистици. Описујемо алгоритме, својства која су употребљена и процењујемо утицај тих својстава на делотворност модела. Тиме показујемо да сазнања о кориснику и понашању корисника могу много да допринесу побољшању учинка. Осим тога, упркос чињеници да су целу нашу збирку направили корисници друштвених медија, квалитет резултата класификације је упоредив са квалитетом од раније познатих студија. Бавимо се и задатком аутоматске екстракције кључних речи и израза из неструктурисаног текста и прилагођавамо га потребама Svejo.net-а ради индуковања „тема“. Теме се дефинишу као одломци текста у којима је сумирана суштина неког чланка. Оцењујемо делотворност неколиких генеричких метода екстракције кључних речи и израза примењених на корпус се ослањају на широко прихваћене методе проналажења информација и машинског учења и функционишу независно од језика. Такође разматрамо дејство компоненте коју чини стемер на прецизност екстракције кључних израза. Задовољавајући учинак наших модела, упркос ограниченом лингвистичком знању уграђеном у њих, препоручује их да буду полазна основа за екстракцију кључних речи и израза у бугарском језику.