ЗНАЧИМОСТЬ G2P-МОДЕЛЕЙ ДЛЯ МАЛОРЕСУРСНОГО УЗБЕКСКОГО ЯЗЫКА

Опубликован 30.06.2025
СОЦИАЛЬНО-ГУМАНИТАРНЫЕ НАУКИ Том 80 № 2 (2025)
Том 80 №2 (2025)
Авторы:
  • ХАМРОЕВА Ш.М.
  • МАХМУДЖОНОВА Г.У.
PDF (Английский)

В статье рассматривается проблема конверсии графем в фонемы (G2P) применительно к узбекскому языку, который относится к числу малоресурсных языков. Процесс G2P играет ключевую роль в системах синтеза речи (TTS), автоматического распознавания речи (ASR) и других лингвистических приложениях. Авторы подробно анализируют существующие подходы к G2P-моделированию: правила, статистические методы, а также современные нейросетевые архитектуры, в частности, трансформеры и LSTM. Особое внимание уделяется специфике фонетики узбекского языка: гармонии гласных, артикуляционным особенностям, наличию заимствованных слов и омографов, что создает определённые трудности при построении точных G2P моделей. Рассматриваются возможности использования открытых инструментов, таких как Phonetisaurus, Sequitur-G2P и CharsiuG2P, а также система Muxlisa AI, предназначенная для синтеза речи на узбекском языке. Указывается на необходимость гибридных моделей, сочетающих правила с методами машинного обучения, а также интеграции морфологического анализа и учёта просодических особенностей речи. Особое значение придается согласованию алфавита узбекского языка с международным фонетическим алфавитом (IPA) для повышения точности транскрипций. Статья подчеркивает актуальность дальнейших исследований в области G2P-моделирования для узбекского языка с целью создания высококачественных речевых технологий и расширения их применения в цифровой среде.

ХАМРОЕВА Ш.М.

доктор наук, доцент, Ташкентский государственный университет узбекского языка и литературы имени А. Навои, г. Ташкент, Республика Узбекистан.

E-mail: hamroyeva81@mail.ru, https://orcid.org/0000-0002-5429-4708

МАХМУДЖОНОВА Г.У.

доктор наук, доцент, Ташкентский государственный университет узбекского языка и литературы имени А. Навои, г. Ташкент, Республика Узбекистан.

E-mail: hamroyeva81@mail.ru, https://orcid.org/0000-0002-5429-4708 

  1. https://docs.nvidia.com/nemo-framework/user-guide/24.09/nemotoolkit/tts/g2p.html
  2. Taylor, P. Text-to-Speech Synthesis. Cambridge University Press, 2009. DOI: https://doi.org/10.1017/CBO9780511816338
  3. Yi L., Li J., Hao J., & Xiong Z. Improved Grapheme-to-Phoneme Conversion for Mandarin TTS. Tsinghua Science & Technology, (2009), 14, 606-611. doi: 10.1016/S1007-0214(09)70124-5. DOI: https://doi.org/10.1016/S1007-0214(09)70124-5
  4. Bisani M., & Ney H. Joint-Sequence Models for Grapheme-to-Phoneme Conversion. Speech Communication, (2008). DOI: https://doi.org/10.1016/j.specom.2008.01.002
  5. Jiampojamarn S. Grapheme-to-Phoneme Conversion and Its Application to Transliteration. University of Alberta, 2009. Retrieved from https://era.library.ualberta.ca
  6. Jolchieva S., Nemet G., & Giresh B. Preobrazovanie grafem v fonemy na osnove transformera. Trudy Interspeech, (2019).
  7. Cheng S., Zhu P., Liu J., & Wang Z. A Survey of Grapheme-to-Phoneme Conversion Methods. Applied Sciences, (2024), 14(24), 11790. doi:10.3390/app142411790. DOI: https://doi.org/10.3390/app142411790
  8. Novak J.R., Minematsu N., & Hirose K. WFST-Based Grapheme-to-Phoneme Conversion: Open Source Tools for Alignment, Model-Building and Decoding. Proceedings of the 10th International Workshop on Finite State Methods and Natural Language Processing, Donostia–San Sebastián, Spain, (2012).
  9. https://github.com/MontrealCorpusTools/mfa-models
  10. https://github.com/AdolfVonKleist/Phonetisaurus
  11. https://github.com/rhasspy/piper-phonemize/tree/master
  12. https://github.com/lingjzhu/CharsiuG2P
  13. https://github.com/sequitur-g2p/sequitur-g2p
  14. https://muxlisa.uz
  15. Deri A., & Knight K. Grapheme-to-Phoneme Models for (Almost) Any Language. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, (2016), 399–408. DOI: https://doi.org/10.18653/v1/P16-1038
  16. Mirtozhiev M.M. Fonetika uzbekskogo yazyka. Akademiya nauk Uzbekistana, izdatel'stvo «Fan», Tashkent, (2013).
  17. Sharma M. Novel NLP Methods for Improved Text-To-Speech Synthesis (Doctoral dissertation), (2021).
  18. https://www.ipachart.com
узбекский язык, графемно-фонемное преобразование (G2P), синтез речи, фонетика, обработка естественного языка (NLP), преобразование текста в речь (TTS), автоматическое распознавание речи (ASR)

Как цитировать

ЗНАЧИМОСТЬ G2P-МОДЕЛЕЙ ДЛЯ МАЛОРЕСУРСНОГО УЗБЕКСКОГО ЯЗЫКА. (2025). Научный журнал "Вестник Актюбинского регионального университета имени К. Жубанова", 80(2), 238-245. https://doi.org/10.70239/arsu.2025.t80.n2.28