Алгоритам за реконструкцију реченице из PDF документа
Abstract
Употреба PDF докумената у обради природних језика постала је уобичајена и свакодневна активност истраживача у области рачунарске лингвистике и њој сличних. Издвајање текста из PDF докумената помоћу постојећих софтверских алата доводи до озбиљног нарушавања структуре реченице и параграфа, што представља велики проблем за лингвистички оријентисана истраживања. У овом раду представљамо нов алгоритам за реконструисање реченица и параграфа из PDF докмената, назван алгоритам за реконструисање реченице (енг. SentenceRecovery Algorithm) или скраћено SR алгоритам. Овај алгоритам као улаз користи текст издвојен из PDF документа и покушава да реконструише реченице из њега. Алгоритам узима у обзир проблеме настале погрешним тумачењем краја линије текста, прекидања реченице или параграфа насталим због уметнутих табела или слика, затим проблема насталих због хифенације и сличних. Осим описивања и евалуације алгоритма, представићемо и један случај имплементације алгоритма у Јава програмском језику, за обраду научних чланака оригинално записаних у PDF фомату.
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.