Нови текстуални корпуси за моделовање српског jезика

Abstract

Овај рад ће представити текстуалне корпусе за српски (и српскохрватски) који се могу користити за тренирање великих језичких модела, а који су јавно доступни на једном од неколико значајних веб репозиторијума. Сваки корпус ће бити класификован помоћу више метода и његове карактеристике ће бити детаљно описане. Поред тога, рад ће представити три нова корпуса: нови кровни веб-корпус за српскохрватски, нови висококвалитетни корпус заснован на докторским дисертацијама похрањеним у Националном Репозиторијуму Докторских Дисертација са свих универзитета у Србији, и паралелни корпус превода сажетака из истог извора. Јединственост старих и нових корпуса биће оцењена путем стилометријских метода заснованих на фреквенцији, и укратко ће се дискутовати о резултатима

Published
2025-03-17
How to Cite
ШКОРИЋ, Михаило; ЈАНКОВИЋ, Никола. Нови текстуални корпуси за моделовање српског jезика. Infotheca - Journal for Digital Humanities, [S.l.], v. 24, n. 1, p. 71-96, mar. 2025. ISSN 2217-9461. Available at: <https://infoteka.bg.ac.rs/ojs/index.php/Infoteka/article/view/2024.24.1.4_sr>. Date accessed: 10 apr. 2025.