DEVELOPING NEW PARAPHRASE ALGORITHMS ADAPTED FOR THE UZBEK LANGUAGE

KHAYATOVA Z.M.; HAMROYEVA SH.M.

doi:10.70239/arsu.2025.t80.n2.27

Опубликован 30.06.2025

СОЦИАЛЬНО-ГУМАНИТАРНЫЕ НАУКИ Том 80 № 2 (2025)
Том 80 №2 (2025)

Авторы:

ХАЯТОВА З.М.
ХАМРОЕВА Ш.М.

PDF (Английский)

Аннотация

Генерация перефразирования в области обработки естественного языка (NLP) хорошо развита для языков с высокими ресурсами, таких как английский, но остается малоизученной для узбекского языка, который является агглютинативным языком с свободным порядком слов. Уникальная морфологическая структура узбекского языка создает сложности для моделей на основе трансформеров, таких как mBART, mT5 и GPT, которые испытывают трудности с морфологической сегментацией, синтаксической вариативностью и сохранением семантики из-за нехватки качественно аннотированных наборов данных.

В данном исследовании предлагается гибридный подход, сочетающий морфологические анализаторы, основанные на правилах (UZLex, O‘zMorphAnalyzer) с глубокими нейросетями, обученными на узбекских корпусах. Для решения проблемы нехватки данных используются методы ручного составления датасетов и обратного перевода. Методология включает токенизацию с учетом морфологии, контекстуальные эмбеддинги и маркировку семантических ролей, что обеспечивает грамматическую корректность и естественность перефразирования.

Предложенная модель оценивается с помощью BLEU, ROUGE и BERTScore, а также человеческой экспертизы, что демонстрирует преимущество гибридных моделей перед стандартными нейросетевыми подходами. Результаты подчеркивают важность интеграции лингвистических знаний в системы NLP для языков с низкими ресурсами. В будущем работа будет сосредоточена на расширении аннотированных корпусов, улучшении морфологически чувствительных эмбеддингов и разработке специализированных моделей для применения в машинном переводе и автоматизированной обработке текста.

Об авторе

ХАЯТОВА З.М.

Phd, 2-й год постдокторантуры, Ташкентский государственный университет узбекского языка и литературы имени А. Навои, г. Ташкент, Республика Узбекистан.

E-mail: khayatovazarnigor@gmail.com, https://orcid.org/0000-0001-6465-6517

ХАМРОЕВА Ш.М.

доктор наук, профессор, Ташкентский государственный университет узбекского языка и литературы имени А. Навои, г. Ташкент, Республика Узбекистан.

E-mail: hamroyeva81@mail.ru, https://orcid.org/0000-0002-5429-4708

Список литературы

Jumaniyozov A., & Karimov B. (2022). Advances in Computational Morphology for Uzbek. Springer.
Xue H., Zhang Y., & Liu J. (2021). Low-Resource Language Modeling: Challenges and Approaches. IEEE Transactions on NLP, 34(2), 45-58.
Edunov S., Ott, M., Auli, M., & Grangier, D. (2018). Understanding Back-Translation at Scale. arXiv preprint arXiv:1808.09381. DOI: https://doi.org/10.18653/v1/D18-1045
Koehn P., & Knowles, R. (2017). Six Challenges for Neural Machine Translation. Proceedings of the First Workshop on Neural Machine Translation, 28-39. DOI: https://doi.org/10.18653/v1/W17-3204
Tashkent State University of Uzbek Language and Literature. (2023). Computational Linguistics and Uzbek Language Processing. Tashkent: UzNLP Press.

Ключевые слова

перефразирование, узбекский NLP, языки с низкими ресурсами, морфологическая сегментация, трансформерные NLP-модели

Как цитировать

РАЗРАБОТКА НОВЫХ АЛГОРИТМОВ ПЕРЕФРАЗИРОВАНИЯ, АДАПТИРОВАННЫХ ДЛЯ УЗБЕКСКОГО ЯЗЫКА. (2025). Научный журнал "Вестник Актюбинского регионального университета имени К. Жубанова", 80(2), 231-237. https://doi.org/10.70239/arsu.2025.t80.n2.27

Скачать ссылку

РАЗРАБОТКА НОВЫХ АЛГОРИТМОВ ПЕРЕФРАЗИРОВАНИЯ, АДАПТИРОВАННЫХ ДЛЯ УЗБЕКСКОГО ЯЗЫКА

ХАЯТОВА З.М.

ХАМРОЕВА Ш.М.

Как цитировать

Категории

Информация

Авторам

Политика журнала

Загрузки