Алгоритам за реконструкцију реченице из PDF документа

Весна Пајић Универзитет у Београду, Пољопривредни факултет
Сташа Вујичић Станковић Универзитет у Београду, Математички факултет
Милош Пајић Универзитет у Београду, Пољопривредни факултет

Abstract

Употреба PDF докумената у обради природних језика постала је уобичајена и свакодневна активност истраживача у области рачунарске лингвистике и њој сличних. Издвајање текста из PDF докумената помоћу постојећих софтверских алата доводи до озбиљног нарушавања структуре реченице и параграфа, што представља велики проблем за лингвистички оријентисана истраживања. У овом раду представљамо нов алгоритам за реконструисање реченица и параграфа из PDF докмената, назван алгоритам за реконструисање реченице (енг. SentenceRecovery Algorithm) или скраћено SR алгоритам. Овај алгоритам као улаз користи текст издвојен из PDF документа и покушава да реконструише реченице из њега. Алгоритам узима у обзир проблеме настале погрешним тумачењем краја линије текста, прекидања реченице или параграфа насталим због уметнутих табела или слика, затим проблема насталих због хифенације и сличних. Осим описивања и евалуације алгоритма, представићемо и један случај имплементације алгоритма у Јава програмском језику, за обраду научних чланака оригинално записаних у PDF фомату.

2014_2_sr_04.pdf

Published

2024-02-29

How to Cite

ПАЈИЋ, Весна; ВУЈИЧИЋ СТАНКОВИЋ, Сташа; ПАЈИЋ, Милош. Алгоритам за реконструкцију реченице из PDF документа. Infotheca - Journal for Digital Humanities, [S.l.], v. 15, n. 2a, p. 42-55, feb. 2024. ISSN 2217-9461. Available at: <https://infoteka.bg.ac.rs/ojs/index.php/Infoteka/article/view/337>. Date accessed: 23 july 2026.

Citation Formats

Issue

Vol 15 No 2a (2014): Инфотека - часопис за дигиталну хуманистику

Section

Articles

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

		Faculty of Philology, University of Belgrade
		University Library „Svetozar Marković“
		Association of Libraries of the Universities of Serbia

Алгоритам за реконструкцију реченице из PDF документа

Abstract

Publisher