РАЗРАБОТКА НОВЫХ АЛГОРИТМОВ ПЕРЕФРАЗИРОВАНИЯ, АДАПТИРОВАННЫХ ДЛЯ УЗБЕКСКОГО ЯЗЫКА

Опубликован 30.06.2025
СОЦИАЛЬНО-ГУМАНИТАРНЫЕ НАУКИ Том 80 № 2 (2025)
Том 80 №2 (2025)
Авторы:
  • ХАЯТОВА З.М.
  • ХАМРОЕВА Ш.М.
PDF (Английский)

Генерация перефразирования в области обработки естественного языка (NLP) хорошо развита для языков с высокими ресурсами, таких как английский, но остается малоизученной для узбекского языка, который является агглютинативным языком с свободным порядком слов. Уникальная морфологическая структура узбекского языка создает сложности для моделей на основе трансформеров, таких как mBART, mT5 и GPT, которые испытывают трудности с морфологической сегментацией, синтаксической вариативностью и сохранением семантики из-за нехватки качественно аннотированных наборов данных.

В данном исследовании предлагается гибридный подход, сочетающий морфологические анализаторы, основанные на правилах (UZLex, O‘zMorphAnalyzer) с глубокими нейросетями, обученными на узбекских корпусах. Для решения проблемы нехватки данных используются методы ручного составления датасетов и обратного перевода. Методология включает токенизацию с учетом морфологии, контекстуальные эмбеддинги и маркировку семантических ролей, что обеспечивает грамматическую корректность и естественность перефразирования.

Предложенная модель оценивается с помощью BLEU, ROUGE и BERTScore, а также человеческой экспертизы, что демонстрирует преимущество гибридных моделей перед стандартными нейросетевыми подходами. Результаты подчеркивают важность интеграции лингвистических знаний в системы NLP для языков с низкими ресурсами. В будущем работа будет сосредоточена на расширении аннотированных корпусов, улучшении морфологически чувствительных эмбеддингов и разработке специализированных моделей для применения в машинном переводе и автоматизированной обработке текста.

ХАЯТОВА З.М.

Phd, 2-й год постдокторантуры, Ташкентский государственный университет узбекского языка и литературы имени А. Навои, г. Ташкент, Республика Узбекистан.

E-mail: khayatovazarnigor@gmail.com, https://orcid.org/0000-0001-6465-6517

ХАМРОЕВА Ш.М.

доктор наук, профессор, Ташкентский государственный университет узбекского языка и литературы имени А. Навои, г. Ташкент, Республика Узбекистан.

E-mail: hamroyeva81@mail.ru, https://orcid.org/0000-0002-5429-4708

  1. Jumaniyozov A., & Karimov B. (2022). Advances in Computational Morphology for Uzbek. Springer.
  2. Xue H., Zhang Y., & Liu J. (2021). Low-Resource Language Modeling: Challenges and Approaches. IEEE Transactions on NLP, 34(2), 45-58.
  3. Edunov S., Ott, M., Auli, M., & Grangier, D. (2018). Understanding Back-Translation at Scale. arXiv preprint arXiv:1808.09381.
  4. Koehn P., & Knowles, R. (2017). Six Challenges for Neural Machine Translation. Proceedings of the First Workshop on Neural Machine Translation, 28-39.
  5. Tashkent State University of Uzbek Language and Literature. (2023). Computational Linguistics and Uzbek Language Processing. Tashkent: UzNLP Press.
перефразирование, узбекский NLP, языки с низкими ресурсами, морфологическая сегментация, трансформерные NLP-модели

Как цитировать

РАЗРАБОТКА НОВЫХ АЛГОРИТМОВ ПЕРЕФРАЗИРОВАНИЯ, АДАПТИРОВАННЫХ ДЛЯ УЗБЕКСКОГО ЯЗЫКА. (2025). Научный журнал "Вестник Актюбинского регионального университета имени К. Жубанова", 80(2), 231-237. https://doi.org/10.70239/