THE SIGNIFICANCE OF G2P MODELS FOR THE LOW-RESOURCE UZBEK LANGUAGE

HAMROYEVA SH.M.; MAKHMUDJONOVA G.U.

doi:10.70239/

Опубликован 30.06.2025

СОЦИАЛЬНО-ГУМАНИТАРНЫЕ НАУКИ Том 80 № 2 (2025)
Том 80 №2 (2025)

Авторы:

ХАМРОЕВА Ш.М.
МАХМУДЖОНОВА Г.У.

PDF (Английский)

Аннотация

В статье рассматривается проблема конверсии графем в фонемы (G2P) применительно к узбекскому языку, который относится к числу малоресурсных языков. Процесс G2P играет ключевую роль в системах синтеза речи (TTS), автоматического распознавания речи (ASR) и других лингвистических приложениях. Авторы подробно анализируют существующие подходы к G2P-моделированию: правила, статистические методы, а также современные нейросетевые архитектуры, в частности, трансформеры и LSTM. Особое внимание уделяется специфике фонетики узбекского языка: гармонии гласных, артикуляционным особенностям, наличию заимствованных слов и омографов, что создает определённые трудности при построении точных G2P моделей. Рассматриваются возможности использования открытых инструментов, таких как Phonetisaurus, Sequitur-G2P и CharsiuG2P, а также система Muxlisa AI, предназначенная для синтеза речи на узбекском языке. Указывается на необходимость гибридных моделей, сочетающих правила с методами машинного обучения, а также интеграции морфологического анализа и учёта просодических особенностей речи. Особое значение придается согласованию алфавита узбекского языка с международным фонетическим алфавитом (IPA) для повышения точности транскрипций. Статья подчеркивает актуальность дальнейших исследований в области G2P-моделирования для узбекского языка с целью создания высококачественных речевых технологий и расширения их применения в цифровой среде.

Об авторе

ХАМРОЕВА Ш.М.

доктор наук, доцент, Ташкентский государственный университет узбекского языка и литературы имени А. Навои, г. Ташкент, Республика Узбекистан.

E-mail: hamroyeva81@mail.ru, https://orcid.org/0000-0002-5429-4708

МАХМУДЖОНОВА Г.У.

доктор наук, доцент, Ташкентский государственный университет узбекского языка и литературы имени А. Навои, г. Ташкент, Республика Узбекистан.

E-mail: hamroyeva81@mail.ru, https://orcid.org/0000-0002-5429-4708

Список литературы

https://docs.nvidia.com/nemo-framework/user-guide/24.09/nemotoolkit/tts/g2p.html
Taylor, P. Text-to-Speech Synthesis. Cambridge University Press, 2009.
Yi L., Li J., Hao J., & Xiong Z. Improved Grapheme-to-Phoneme Conversion for Mandarin TTS. Tsinghua Science & Technology, (2009), 14, 606-611. doi: 10.1016/S1007-0214(09)70124-5.
Bisani M., & Ney H. Joint-Sequence Models for Grapheme-to-Phoneme Conversion. Speech Communication, (2008).
Jiampojamarn S. Grapheme-to-Phoneme Conversion and Its Application to Transliteration. University of Alberta, 2009. Retrieved from https://era.library.ualberta.ca
Jolchieva S., Nemet G., & Giresh B. Preobrazovanie grafem v fonemy na osnove transformera. Trudy Interspeech, (2019).
Cheng S., Zhu P., Liu J., & Wang Z. A Survey of Grapheme-to-Phoneme Conversion Methods. Applied Sciences, (2024), 14(24), 11790. doi:10.3390/app142411790.
Novak J.R., Minematsu N., & Hirose K. WFST-Based Grapheme-to-Phoneme Conversion: Open Source Tools for Alignment, Model-Building and Decoding. Proceedings of the 10th International Workshop on Finite State Methods and Natural Language Processing, Donostia–San Sebastián, Spain, (2012).
https://github.com/MontrealCorpusTools/mfa-models
https://github.com/AdolfVonKleist/Phonetisaurus
https://github.com/rhasspy/piper-phonemize/tree/master
https://github.com/lingjzhu/CharsiuG2P
https://github.com/sequitur-g2p/sequitur-g2p
https://muxlisa.uz
Deri A., & Knight K. Grapheme-to-Phoneme Models for (Almost) Any Language. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, (2016), 399–408.
Mirtozhiev M.M. Fonetika uzbekskogo yazyka. Akademiya nauk Uzbekistana, izdatel'stvo «Fan», Tashkent, (2013).
Sharma M. Novel NLP Methods for Improved Text-To-Speech Synthesis (Doctoral dissertation), (2021).
https://www.ipachart.com

Ключевые слова

узбекский язык, графемно-фонемное преобразование (G2P), синтез речи, фонетика, обработка естественного языка (NLP), преобразование текста в речь (TTS), автоматическое распознавание речи (ASR)

Как цитировать

ЗНАЧИМОСТЬ G2P-МОДЕЛЕЙ ДЛЯ МАЛОРЕСУРСНОГО УЗБЕКСКОГО ЯЗЫКА. (2025). Научный журнал "Вестник Актюбинского регионального университета имени К. Жубанова", 80(2), 238-245. https://doi.org/10.70239/

Скачать ссылку

ЗНАЧИМОСТЬ G2P-МОДЕЛЕЙ ДЛЯ МАЛОРЕСУРСНОГО УЗБЕКСКОГО ЯЗЫКА

ХАМРОЕВА Ш.М.

МАХМУДЖОНОВА Г.У.

Как цитировать

Информация

Авторам

Политика журнала

Загрузки

ЗНАЧИМОСТЬ G2P-МОДЕЛЕЙ ДЛЯ МАЛОРЕСУРСНОГО УЗБЕКСКОГО ЯЗЫКА

ХАМРОЕВА Ш.М.

МАХМУДЖОНОВА Г.У.

Как цитировать

Категории

Информация

Авторам

Политика журнала

Загрузки