ЗНАЧИМОСТЬ G2P-МОДЕЛЕЙ ДЛЯ МАЛОРЕСУРСНОГО УЗБЕКСКОГО ЯЗЫКА

Опубликован 30.06.2025
СОЦИАЛЬНО-ГУМАНИТАРНЫЕ НАУКИ Том 80 № 2 (2025)
Том 80 №2 (2025)
Авторы:
  • ХАМРОЕВА Ш.М.
  • МАХМУДЖОНОВА Г.У.
PDF (Английский)

В статье рассматривается проблема конверсии графем в фонемы (G2P) применительно к узбекскому языку, который относится к числу малоресурсных языков. Процесс G2P играет ключевую роль в системах синтеза речи (TTS), автоматического распознавания речи (ASR) и других лингвистических приложениях. Авторы подробно анализируют существующие подходы к G2P-моделированию: правила, статистические методы, а также современные нейросетевые архитектуры, в частности, трансформеры и LSTM. Особое внимание уделяется специфике фонетики узбекского языка: гармонии гласных, артикуляционным особенностям, наличию заимствованных слов и омографов, что создает определённые трудности при построении точных G2P моделей. Рассматриваются возможности использования открытых инструментов, таких как Phonetisaurus, Sequitur-G2P и CharsiuG2P, а также система Muxlisa AI, предназначенная для синтеза речи на узбекском языке. Указывается на необходимость гибридных моделей, сочетающих правила с методами машинного обучения, а также интеграции морфологического анализа и учёта просодических особенностей речи. Особое значение придается согласованию алфавита узбекского языка с международным фонетическим алфавитом (IPA) для повышения точности транскрипций. Статья подчеркивает актуальность дальнейших исследований в области G2P-моделирования для узбекского языка с целью создания высококачественных речевых технологий и расширения их применения в цифровой среде.

ХАМРОЕВА Ш.М.

доктор наук, доцент, Ташкентский государственный университет узбекского языка и литературы имени А. Навои, г. Ташкент, Республика Узбекистан.

E-mail: hamroyeva81@mail.ru, https://orcid.org/0000-0002-5429-4708

МАХМУДЖОНОВА Г.У.

доктор наук, доцент, Ташкентский государственный университет узбекского языка и литературы имени А. Навои, г. Ташкент, Республика Узбекистан.

E-mail: hamroyeva81@mail.ru, https://orcid.org/0000-0002-5429-4708 

  1. https://docs.nvidia.com/nemo-framework/user-guide/24.09/nemotoolkit/tts/g2p.html
  2. Taylor, P. Text-to-Speech Synthesis. Cambridge University Press, 2009.
  3. Yi L., Li J., Hao J., & Xiong Z. Improved Grapheme-to-Phoneme Conversion for Mandarin TTS. Tsinghua Science & Technology, (2009), 14, 606-611. doi: 10.1016/S1007-0214(09)70124-5.
  4. Bisani M., & Ney H. Joint-Sequence Models for Grapheme-to-Phoneme Conversion. Speech Communication, (2008).
  5. Jiampojamarn S. Grapheme-to-Phoneme Conversion and Its Application to Transliteration. University of Alberta, 2009. Retrieved from https://era.library.ualberta.ca
  6. Jolchieva S., Nemet G., & Giresh B. Preobrazovanie grafem v fonemy na osnove transformera. Trudy Interspeech, (2019).
  7. Cheng S., Zhu P., Liu J., & Wang Z. A Survey of Grapheme-to-Phoneme Conversion Methods. Applied Sciences, (2024), 14(24), 11790. doi:10.3390/app142411790.
  8. Novak J.R., Minematsu N., & Hirose K. WFST-Based Grapheme-to-Phoneme Conversion: Open Source Tools for Alignment, Model-Building and Decoding. Proceedings of the 10th International Workshop on Finite State Methods and Natural Language Processing, Donostia–San Sebastián, Spain, (2012).
  9. https://github.com/MontrealCorpusTools/mfa-models
  10. https://github.com/AdolfVonKleist/Phonetisaurus
  11. https://github.com/rhasspy/piper-phonemize/tree/master
  12. https://github.com/lingjzhu/CharsiuG2P
  13. https://github.com/sequitur-g2p/sequitur-g2p
  14. https://muxlisa.uz
  15. Deri A., & Knight K. Grapheme-to-Phoneme Models for (Almost) Any Language. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, (2016), 399–408.
  16. Mirtozhiev M.M. Fonetika uzbekskogo yazyka. Akademiya nauk Uzbekistana, izdatel'stvo «Fan», Tashkent, (2013).
  17. Sharma M. Novel NLP Methods for Improved Text-To-Speech Synthesis (Doctoral dissertation), (2021).
  18. https://www.ipachart.com
узбекский язык, графемно-фонемное преобразование (G2P), синтез речи, фонетика, обработка естественного языка (NLP), преобразование текста в речь (TTS), автоматическое распознавание речи (ASR)

Как цитировать

ЗНАЧИМОСТЬ G2P-МОДЕЛЕЙ ДЛЯ МАЛОРЕСУРСНОГО УЗБЕКСКОГО ЯЗЫКА. (2025). Научный журнал "Вестник Актюбинского регионального университета имени К. Жубанова", 80(2), 238-245. https://doi.org/10.70239/