Год. 15, бр. 2, 2014.

Весна Пајић
Универзитет у Београду, Пољопривредни факултет

Сташа Вујичић Станковић
Универзитет у Београду, Математички факултет

Милош Пајић
Универзитет у Београду, Пољопривредни факултет

 

 

АЛГОРИТАМ ЗА РЕКОНСТРУКЦИЈУ РЕЧЕНИЦА ИЗ PDF ДОКУМЕНАТА
 

 

УДК: 81'322.2:004.912
Кључне речи: обрада природних језика, језички ресурси, Java програмирање, процесирање PDF докумената. 
Сажетак. Употреба PDF докумената у обради природних језика постала је уобичајена и свакодневна активност истраживача у области рачунарске лингвистике и њој сличних. Издвајање текста из PDF докумената помоћу постојећих софтверских алата доводи до озбиљног нарушавања структуре реченице и параграфа, што представља велики проблем за лингвистички оријентисана истраживања. У овом раду представљамо нов алгоритам за реконструисање реченица и параграфа из PDF докмената, назван алгоритам за реконструисање реченице (енг. SentenceRecovery Algorithm) или скраћено SR алгоритам. Овај алгоритам као улаз користи текст издвојен из PDF документа и покушава да реконструише реченице из њега. Алгоритам узима у обзир проблеме настале погрешним тумачењем краја линије текста, прекидања реченице или параграфа насталим због уметнутих табела или слика, затим проблема насталих због хифенације и сличних. Осим описивања и евалуације алгоритма, представићемо и један случај имплементације алгоритма у Јава програмском језику, за обраду научних чланака оригинално записаних у PDF фомату.

 

 

                                                                                                       


 


НАУЧНИ РАДОВИ

 

Aнри Брок

НАСТАВА „ПАРАНОРМАЛНОГ ПРЕМА ЗЕТЕТИЦИ“ НА УНИВЕРЗИТЕТУ: КОРИШЋЕЊЕ ПСЕУДОНАУКЕ У НАСТАВИ НАУЧНЕ МЕТОДЕ

Рамон Рајхерт

ДИГИТАЛНА ХУМАНИСТИКА. УВОД У ИСТОРИЈУ, ТЕОРИЈУ И РАЗВОЈ КУЛТУРЕ ЗНАЊА ЗАСНОВАНЕ НА ПОДАЦИМА

Суфијан Руиси, Ана Штулић
ЈЕВРЕЈСКО-ШПАНСКИ НА ВЕБУ: ОПИС ЕКСПЕРИМЕНТА ДРУШТВЕНОГ ОБЕЛЕЖАВАЊА

Весна Пајић, Сташа Вујичић Станковић, Милош Пајић
АЛГОРИТАМ ЗА РЕКОНСТРУКЦИЈУ РЕЧЕНИЦА ИЗ PDF ДОКУМЕНАТА

 

СТРУЧНИ РАДОВИ

 

Катарина Перић, Ана Николић, Кристина Гогић
ИЗРАДА МУЛТИМЕДИЈАЛНОГ ДОКУМЕНТА “ПУТ ОКО СВЕТА ЗА 80 ДАНА”

Александра Аџић
ДИГИТАЛИЗАЦИЈА БИБЛИОТЕЧКЕ ГРАЂЕ УЗ ПОМОЋ БИБЛИОТЕЧКО-ИНФОРМАЦИОНОГ СИСТЕМА НИБИС


 

ПРИКАЗИ

 

Марко Витас
ПРИКАЗ ЕВРОПСКЕ ЛЕТЊЕ ШКОЛЕ ДИГИТАЛНЕ ХУМАНИСТИКЕ У ЛАЈПЦИГУ 2014.

Наташа Дакић, Дејана Каваја Станишић
ПРИКАЗ ЗАВРШНОГ САСТАНКА КОНЗОРЦИЈУМА ПРОЈЕКТА „EUROPEANA NEWSPAPERS”