Нови текстуални корпуси за моделовање српског jезика
Abstract
Овај рад ће представити текстуалне корпусе за српски (и српскохрватски) који се могу користити за тренирање великих језичких модела, а који су јавно доступни на једном од неколико значајних веб репозиторијума. Сваки корпус ће бити класификован помоћу више метода и његове карактеристике ће бити детаљно описане. Поред тога, рад ће представити три нова корпуса: нови кровни веб-корпус за српскохрватски, нови висококвалитетни корпус заснован на докторским дисертацијама похрањеним у Националном Репозиторијуму Докторских Дисертација са свих универзитета у Србији, и паралелни корпус превода сажетака из истог извора. Јединственост старих и нових корпуса биће оцењена путем стилометријских метода заснованих на фреквенцији, и укратко ће се дискутовати о резултатима

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.