Алгоритам за реконструкцију реченице из PDF документа

  • Весна Пајић Универзитет у Београду, Пољопривредни факултет
  • Сташа Вујичић Станковић Универзитет у Београду, Математички факултет
  • Милош Пајић Универзитет у Београду, Пољопривредни факултет

Abstract

Употреба PDF докумената у обради природних језика постала је уобичајена и свакодневна активност истраживача у области рачунарске лингвистике и њој сличних. Издвајање текста из PDF докумената помоћу постојећих софтверских алата доводи до озбиљног нарушавања структуре реченице и параграфа, што представља велики проблем за лингвистички оријентисана истраживања. У овом раду представљамо нов алгоритам за реконструисање реченица и параграфа из PDF докмената, назван алгоритам за реконструисање реченице (енг. SentenceRecovery Algorithm) или скраћено SR алгоритам. Овај алгоритам као улаз користи текст издвојен из PDF документа и покушава да реконструише реченице из њега. Алгоритам узима у обзир проблеме настале погрешним тумачењем краја линије текста, прекидања реченице или параграфа насталим због уметнутих табела или слика, затим проблема насталих због хифенације и сличних. Осим описивања и евалуације алгоритма, представићемо и један случај имплементације алгоритма у Јава програмском језику, за обраду научних чланака оригинално записаних у PDF фомату.

Published
2024-02-29
How to Cite
ПАЈИЋ, Весна; ВУЈИЧИЋ СТАНКОВИЋ, Сташа; ПАЈИЋ, Милош. Алгоритам за реконструкцију реченице из PDF документа. Infotheca - Journal for Digital Humanities, [S.l.], v. 15, n. 2a, p. 42-55, feb. 2024. ISSN 2217-9461. Available at: <https://infoteka.bg.ac.rs/ojs/index.php/Infoteka/article/view/337>. Date accessed: 23 july 2024.