В статье рассматривается проблема конверсии графем в фонемы (G2P) применительно к узбекскому языку, который относится к числу малоресурсных языков. Процесс G2P играет ключевую роль в системах синтеза речи (TTS), автоматического распознавания речи (ASR) и других лингвистических приложениях. Авторы подробно анализируют существующие подходы к G2P-моделированию: правила, статистические методы, а также современные нейросетевые архитектуры, в частности, трансформеры и LSTM. Особое внимание уделяется специфике фонетики узбекского языка: гармонии гласных, артикуляционным особенностям, наличию заимствованных слов и омографов, что создает определённые трудности при построении точных G2P моделей. Рассматриваются возможности использования открытых инструментов, таких как Phonetisaurus, Sequitur-G2P и CharsiuG2P, а также система Muxlisa AI, предназначенная для синтеза речи на узбекском языке. Указывается на необходимость гибридных моделей, сочетающих правила с методами машинного обучения, а также интеграции морфологического анализа и учёта просодических особенностей речи. Особое значение придается согласованию алфавита узбекского языка с международным фонетическим алфавитом (IPA) для повышения точности транскрипций. Статья подчеркивает актуальность дальнейших исследований в области G2P-моделирования для узбекского языка с целью создания высококачественных речевых технологий и расширения их применения в цифровой среде.
ХАМРОЕВА Ш.М.
доктор наук, доцент, Ташкентский государственный университет узбекского языка и литературы имени А. Навои, г. Ташкент, Республика Узбекистан.
E-mail: hamroyeva81@mail.ru, https://orcid.org/0000-0002-5429-4708
МАХМУДЖОНОВА Г.У.
доктор наук, доцент, Ташкентский государственный университет узбекского языка и литературы имени А. Навои, г. Ташкент, Республика Узбекистан.
E-mail: hamroyeva81@mail.ru, https://orcid.org/0000-0002-5429-4708
- https://docs.nvidia.com/nemo-framework/user-guide/24.09/nemotoolkit/tts/g2p.html
- Taylor, P. Text-to-Speech Synthesis. Cambridge University Press, 2009.
- Yi L., Li J., Hao J., & Xiong Z. Improved Grapheme-to-Phoneme Conversion for Mandarin TTS. Tsinghua Science & Technology, (2009), 14, 606-611. doi: 10.1016/S1007-0214(09)70124-5.
- Bisani M., & Ney H. Joint-Sequence Models for Grapheme-to-Phoneme Conversion. Speech Communication, (2008).
- Jiampojamarn S. Grapheme-to-Phoneme Conversion and Its Application to Transliteration. University of Alberta, 2009. Retrieved from https://era.library.ualberta.ca
- Jolchieva S., Nemet G., & Giresh B. Preobrazovanie grafem v fonemy na osnove transformera. Trudy Interspeech, (2019).
- Cheng S., Zhu P., Liu J., & Wang Z. A Survey of Grapheme-to-Phoneme Conversion Methods. Applied Sciences, (2024), 14(24), 11790. doi:10.3390/app142411790.
- Novak J.R., Minematsu N., & Hirose K. WFST-Based Grapheme-to-Phoneme Conversion: Open Source Tools for Alignment, Model-Building and Decoding. Proceedings of the 10th International Workshop on Finite State Methods and Natural Language Processing, Donostia–San Sebastián, Spain, (2012).
- https://github.com/MontrealCorpusTools/mfa-models
- https://github.com/AdolfVonKleist/Phonetisaurus
- https://github.com/rhasspy/piper-phonemize/tree/master
- https://github.com/lingjzhu/CharsiuG2P
- https://github.com/sequitur-g2p/sequitur-g2p
- https://muxlisa.uz
- Deri A., & Knight K. Grapheme-to-Phoneme Models for (Almost) Any Language. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, (2016), 399–408.
- Mirtozhiev M.M. Fonetika uzbekskogo yazyka. Akademiya nauk Uzbekistana, izdatel'stvo «Fan», Tashkent, (2013).
- Sharma M. Novel NLP Methods for Improved Text-To-Speech Synthesis (Doctoral dissertation), (2021).
- https://www.ipachart.com