Табиғи тілді өңдеу (NLP) саласындағы перефразация генерациясы ағылшын тілі сияқты жоғары ресурстық тілдер үшін жақсы дамыған, бірақ агглютинативті және еркін сөз тәртібіне ие өзбек тілі үшін әлі де жеткілікті зерттелмеген. Өзбек тілінің ерекше морфологиялық құрылымы mBART, mT5 және GPT сияқты трансформер негізіндегі үлгілер үшін қиындықтар тудырады. Бұл модельдер морфологиялық сегментация, синтаксистік өзгергіштік және мағынаны сақтау тұрғысынан қиындықтарға тап болады, өйткені жоғары сапалы аннотацияланған мәліметтер жиынтығы жеткіліксіз.
Бұл зерттеу ереже-бағытталған морфологиялық анализаторларды (UZLex, O‘zMorphAnalyzer) терең оқыту үлгілерімен үйлестіретін гибридті тәсілді ұсынады. Деректер тапшылығын шешу үшін қолмен жасалған мәліметтер жиынтығы және кері аударма әдістері қолданылады. Ұсынылған әдістеме морфологияға негізделген токенизацияны, контекстік эмбеддингтерді және семантикалық рөлдерді белгілеуді қамтиды, бұл грамматикалық дәлдік пен сұйықтықты қамтамасыз етеді.
Ұсынылған модель BLEU, ROUGE және BERTScore сияқты метрикалармен бағаланып, адам пікірлерімен бірге тексеріледі. Нәтижелер гибридті үлгілердің стандартты нейрондық әдістерге қарағанда тиімдірек екенін көрсетеді. Болашақ зерттеулер аннотацияланған корпусты кеңейтуге, морфологияға бейімделген эмбеддингтерді жетілдіруге және машиналық аударма мен автоматтандырылған мәтін өңдеу саласына арналған салалық үлгілерді әзірлеуге бағытталады.
ХАЯТОВА З.М.
Phd, 2-ші жыл постдокторантура, А. Навои атындағы Ташкент мемлекеттік өзбек тілі және әдебиеті университеті, Ташкент қ., Өзбекстан Республикасы
E-mail: khayatovazarnigor@gmail.com, https://orcid.org/0000-0001-6465-6517
ХАМРОЕВА Ш.М.
ғылым докторы, профессор, А. Навои атындағы Ташкент мемлекеттік өзбек тілі және әдебиеті университеті, Ташкент қ., Өзбекстан Республикасы
E-mail: hamroyeva81@mail.ru, https://orcid.org/0000-0002-5429-4708
- Jumaniyozov A., & Karimov B. (2022). Advances in Computational Morphology for Uzbek. Springer.
- Xue H., Zhang Y., & Liu J. (2021). Low-Resource Language Modeling: Challenges and Approaches. IEEE Transactions on NLP, 34(2), 45-58.
- Edunov S., Ott, M., Auli, M., & Grangier, D. (2018). Understanding Back-Translation at Scale. arXiv preprint arXiv:1808.09381.
- Koehn P., & Knowles, R. (2017). Six Challenges for Neural Machine Translation. Proceedings of the First Workshop on Neural Machine Translation, 28-39.
- Tashkent State University of Uzbek Language and Literature. (2023). Computational Linguistics and Uzbek Language Processing. Tashkent: UzNLP Press.