God. 15, br. 2, 2014.

Vesna Pajić
Univerzitet u Beogradu, Poljoprivredni fakultet

Staša Vujičić Stanković
Univerzitet u Beogradu, Matematički fakultet

Miloš Pajić
Univerzitet u Beogradu, Poljoprivredni fakultet
 

ALGORITAM ZA REKONSTRUKCIJU REČENICA IZ PDF DOKUMENATA
 

UDK: 81'322.2:004.912

Ključne reči: obrada prirodnih jezika, jezički resursi, Java programiranje, procesiranje PDF dokumenata. 
Sažetak. Upotreba PDF dokumenata u obradi prirodnih jezika postala je uobičajena i svakodnevna aktivnost istraživača u oblasti računarske lingvistike i njoj sličnih. Izdvajanje teksta iz PDF dokumenata pomoću postojećih softverskih alata dovodi do ozbiljnog narušavanja strukture rečenice i paragrafa, što predstavlja veliki problem za lingvistički orijentisana istraživanja. U ovom radu predstavljamo nov algoritam za rekonstruisanje rečenica i paragrafa iz PDF dokmenata, nazvan algoritam za rekonstruisanje rečenice (eng. SentenceRecovery Algorithm) ili skraćeno SR algoritam. Ovaj algoritam kao ulaz koristi tekst izdvojen iz PDF dokumenta i pokušava da rekonstruiše rečenice iz njega. Algoritam uzima u obzir probleme nastale pogrešnim tumačenjem kraja linije teksta, prekidanja rečenice ili paragrafa nastalim zbog umetnutih tabela ili slika, zatim problema nastalih zbog hifenacije i sličnih. Osim opisivanja i evaluacije algoritma, predstavićemo i jedan slučaj implementacije algoritma u Java programskom jeziku, za obradu naučnih članaka originalno zapisanih u PDF fomatu.

 

 

                                                                                                       

 


NAUČNI RADOVI

 

Anri Brok
NASTAVA „PARANORMALNOG PREMA ZETETICI“ NA UNIVERZITETU: KORIŠĆENJE PSEUDONAUKE U NASTAVI NAUČNE METODE

Ramon Rajhert  
DIGITALNA HUMANISTIKA. UVOD U ISTORIJU TEORIJU I RAZVOJ KULTURE ZNANjA ZASNOVANE NA PODACIMA

Sufijan Ruisi, Ana Štulić
JEVREJSKO-ŠPANSKI NA VEBU: OPIS EKSPERIMENTA DRUŠTVENOG OBELEŽAVANJA

Vesna Pajić, Staša Vujičić Stanković, Miloš Pajić
ALGORITAM ZA REKONSTRUKCIJА REČENICA IZ PDF DOKUMENATA

 

STRUČNI RADOVI

 

Katarina Perić, Ana Nikolić, Kristina Gogić
IZRADA MULTIMEDIJALNOG DOKUMENTA “PUT OKO SVETA ZA 80 DANA”

Aleksandra Adžić
DIGITALIZACIJA BIBLIOTEČKE GRAĐE UZ POMOĆ BIBLIOTEČKO-INFORMACIONOG SISTEMA NIBISA


 

PRIKAZI

Marko Vitas
PRIKAZ EVROPSKE LETNjE ŠKOLE DIGITALNE HUMANISTIKE U LAJPCIGU 2014.

Nataša Dakić, Dejana Kavaja Stanišić
PRIKAZ ZAVRŠNOG SASTANKA KONZORCIJUMA PROJEKTA „EUROPEANA NEWSPAPERS”