Бұл мақалада жазбаша мәтінді дыбыстық формаға түрлендіруде маңызды рөл атқаратын графема-фонема (G2P) конверсиясының өзбек тіліне қатысты ерекшеліктері қарастырылады. G2P моделінің дәлдігі сөйлеу синтезінің табиғилығы мен түсініктілігіне тікелей әсер етеді. Өзбек тілі – ресурстары шектеулі тілдердің бірі ретінде G2P модельдерін дамытуда бірқатар қиындықтарға тап болады. Мақалада қазіргі қолданыстағы әдістер: ережеге негізделген, статистикалық және терең нейрондық желілерге сүйенетін G2P тәсілдері сипатталып, олардың артықшылықтары мен шектеулері сарапталады. Авторлар G2P конверсиясының мәтінді дыбыстау жүйелеріндегі (TTS), автоматты сөйлеуді тану (ASR), машиналық аударма және лингвистикалық талдау сияқты қосымшалардағы маңызын көрсетеді. Мақалада өзбек тілінің фонетикалық күрделілігі, әсіресе дауысты дыбыстардың артикуляциялық ерекшеліктері мен фонологиялық үйлесімділігі, сондай-ақ өзге тілдерден енген сөздер мен омографтар сияқты факторлар G2P моделін қиындататыны көрсетілген. Сонымен қатар, авторлар Muxlisa AI секілді өзбек тіліне арналған TTS жүйелерінің жетістіктері мен шектеулерін талдап, заманауи G2P модельдерін енгізудің маңыздылығына тоқталады. Болашақта өзбек тіліндегі нақты әрі табиғи дыбыстауды қамтамасыз ету үшін морфологиялық талдау мен IPA жүйесіне сәйкестендіру ұсынылады. Бұл зерттеу ресурсы шектеулі тілдер үшін тиімді G2P модельдерін әзірлеуге жол ашады.
ХАМРОЕВА Ш.М.
филология ғылымдарының докторы, доцент, А. Навои атындағы Ташкент мемлекеттік өзбек тілі және әдебиеті университеті, Ташкент қ., Өзбекстан Республикасы
E-mail: hamroyeva81@mail.ru, https://orcid.org/0000-0002-5429-4708
МАХМУДЖОНОВА Г.У.
PhD докторанты, Компьютерлік лингвистика және цифрлық технологиялар кафедрасы, А.Навои атындағы Ташкент мемлекеттік өзбек тілі және әдебиеті университеті, Ташкент, Өзбекстан Республикасы.
E-mail: gulshaxnozmahmudjonova@gmail.com, https://orcid.org/0009-0002-8536-0680
- https://docs.nvidia.com/nemo-framework/user-guide/24.09/nemotoolkit/tts/g2p.html
- Taylor, P. Text-to-Speech Synthesis. Cambridge University Press, 2009.
- Yi L., Li J., Hao J., & Xiong Z. Improved Grapheme-to-Phoneme Conversion for Mandarin TTS. Tsinghua Science & Technology, (2009), 14, 606-611. doi: 10.1016/S1007-0214(09)70124-5.
- Bisani M., & Ney H. Joint-Sequence Models for Grapheme-to-Phoneme Conversion. Speech Communication, (2008).
- Jiampojamarn S. Grapheme-to-Phoneme Conversion and Its Application to Transliteration. University of Alberta, 2009. Retrieved from https://era.library.ualberta.ca
- Jolchieva S., Nemet G., & Giresh B. Preobrazovanie grafem v fonemy na osnove transformera. Trudy Interspeech, (2019).
- Cheng S., Zhu P., Liu J., & Wang Z. A Survey of Grapheme-to-Phoneme Conversion Methods. Applied Sciences, (2024), 14(24), 11790. doi:10.3390/app142411790.
- Novak J.R., Minematsu N., & Hirose K. WFST-Based Grapheme-to-Phoneme Conversion: Open Source Tools for Alignment, Model-Building and Decoding. Proceedings of the 10th International Workshop on Finite State Methods and Natural Language Processing, Donostia–San Sebastián, Spain, (2012).
- https://github.com/MontrealCorpusTools/mfa-models
- https://github.com/AdolfVonKleist/Phonetisaurus
- https://github.com/rhasspy/piper-phonemize/tree/master
- https://github.com/lingjzhu/CharsiuG2P
- https://github.com/sequitur-g2p/sequitur-g2p
- https://muxlisa.uz
- Deri A., & Knight K. Grapheme-to-Phoneme Models for (Almost) Any Language. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, (2016), 399–408.
- Mirtozhiev M.M. Fonetika uzbekskogo yazyka. Akademiya nauk Uzbekistana, izdatel'stvo «Fan», Tashkent, (2013).
- Sharma M. Novel NLP Methods for Improved Text-To-Speech Synthesis (Doctoral dissertation), (2021).
- https://www.ipachart.com