Статья опубликована в рамках: XCVI Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 23 февраля 2026 г.)
Наука: Информационные технологии
Секция: Методы и системы защиты информации, информационная безопасность
Скачать книгу(-и): Сборник статей конференции
дипломов
АЛГОРИТМ ФОРМИРОВАНИЯ ТЕСТОВЫХ ФРАЗ С ПОЛНЫМ АЛЛОФОННЫМ ПОКРЫТИЕМ ДЛЯ СИНТЕЗА РЕЧЕПОДОБНОГО СИГНАЛА
AUTOMATIC CONTROL OF INTELLIGENT BUILDINGS BASED ON SENSORS
Samake Bathie Alexandre
Postgraduate student, Department of Information Security Belarusian State University of Informatics and Radioelectronics,
Republic of Belarus, Minsk
АННОТАЦИЯ
В статье рассматривается задача формирования набора тестовых фраз для записи диктора с целью последующего использования в системах синтеза речеподобного сигнала. Предлагается алгоритм, обеспечивающий полное покрытие аллофонных реализаций фонем русского языка при минимальном количестве фраз. Описаны принципы отбора лексических единиц с учетом фонетического контекста и условий реализации аллофонов. Проведен анализ сформированного набора тестовых фраз.
ABSTRACT
The paper addresses the problem of constructing a set of test phrases for speech recording to be used in speech-like signal synthesis systems. An algorithm is proposed to ensure full coverage of allophonic realizations of Russian phonemes while minimizing the number of phrases. The principles of lexical selection considering phonetic context and realization conditions are described. The resulting set of test phrases is analyzed.
Ключевые слова: аллофон; фонема; синтез речи; фонетическое покрытие; тестовые фразы; речеподобный сигнал.
Keywords: allophone; phoneme; speech synthesis; phonetic coverage; test phrases; speech-like signal.
Введение
Современные системы, позволяющий провести синтез и анализ речи требуют наличия качественных речевых модулей, обеспечивающих репрезентативное покрытие фонетических единиц языка. Одним из ключевых аспектов при этом является учёт аллофонной вариативности, отражающей зависимость реализации фонем от позиционных и комбинаторных условий [1]. Аллофоны представляют собой конкретные реализации фонем в речевом потоке, возникающие в зависимости от окружения, ударения и артикуляционных особенностей человека [2]. Можно наблюдать что, игнорирование аллофонной вариативности приводит к снижению качества речеподобных сигналов, особенно в задачах синтеза речи и автоматического распознавания [3].
Среди множества методов для формирования речеподобных сигналов чаще всего используются произвольные или частотные тексты, которые не гарантируют полного покрытия всех возможных аллофонных реализаций [4], из-за чего их применяемость ограничена в задачах высокоточного моделирования речи.
В связи с этим возникает задача разработки метода формирования тестовых фраз, обеспечивающих полное аллофонное покрытие при минимальном объёме речевого материала.
1. ФОРМИРОВАНИЕ АЛЛОФОННОЙ БАЗЫ РУССКОГО ЯЗЫКА
Ключевым этапом при построении тестового речевого материала, является формирование аллофонной базы, обеспечивающей полноту фонетического покрытия. В отличие от традиционных подходов, ориентированных на фонемный уровень, в рамках этой работы учитывается аллофонная вариативность, что позволяет более точно моделировать реальные речевые процессы [5].
Аллофонная база будет формироваться на основе систематизации реализаций фонем русского языка с учётом позиционных и комбинаторных условий. Под позиционными аллофонами понимаются варианты произношения, зависящие от положения звука в слове (например, ударная и безударная позиция), тогда как комбинаторные аллофоны определяются влиянием соседних звуков и артикуляцией [6].
Для составления таблицы аллофоны гласных фонем и аллофоны согласных фонем рассматриваются по следующему принципу: каждый аллофон описывается в виде набора параметров, таких как фонема, аллофон, тип (позиционный или комбинаторный) и условие их реализаций. Такой подход позволяет рассматривать аллофонную базу как структурированное множество:
A = {a₁, a₂, ..., aₙ}, (1)
где А множество аллофонов и каждый элемент aᵢ содержит полный набор характеристик, необходимых для его идентификации и воспроизведения в речевом материале [7].
Гласные фонемы русского языка (таблица 1) характеризуются значительной степенью редукции и вариативности в зависимости от ударения и фонетического окружения.
Таблица 1.
Аллофонные реализации гласных фонемы
|
Фонема |
Тип аллофона и условия их реализации |
||
|---|---|---|---|
|
позиционный |
комбинаторный |
||
|
/а/ |
[а] под ударением, [ɐ] первая предударная позиция, [ə] вторая и последующие безударные позиции |
[а̟] после мягких согласных |
|
|
/о/ |
[о] под ударением, [ɐ] первая предударная позиция, [ə] вторая и последующие безударные позиции |
[о̟] после мягких согласных |
|
|
/у/ |
[у] под ударением, [ʊ] безударная позиция |
[у̟] после мягких согласных, [у̥] после глухих согласных |
|
|
/э/ |
[э] под ударением, [и̞] безударная позиция |
[э̟] после мягких согласных, [э̥] после глухих согласны |
|
|
/э/ |
[э] под ударением, [и̞] безударная позиция |
[э̟] после мягких согласных, [э̥] после глухих согласных |
|
|
/и/ |
[и] под ударением, [и̞] безударная позиция |
[ы] после твёрдых согласных, [и̥] после глухих согласных, [иʲ] в окружении мягких согласных |
|
|
/ы/ |
[ы] под ударением, [ы̞] безударная позиция |
[ɨ̟] после мягких согласных, [ы̥] после глухих согласных |
|
А что касается согласных фонем, они обладают более сложной системой аллофонной вариативности (таблица 2) из-за твердости и мягкости согласных, оглушения и озвончения, позиции в слове (начало, середина, конец) и влияния соседних звуков.
Таблица 2.
Аллофонные реализации согласных фонем
|
Фонема |
Аллофон |
Тип аллофона |
|---|---|---|
|
позиционный |
комбинаторный |
|
|
/м/ |
[м] перед гласными заднего и среднего ряда, [мʲ] перед гласными переднего ряда, [м̩] в слабой позиции между шумными согласными |
[м̥] перед глухими согласными, [мː] на стыке морфем или слов |
|
/н/ |
[н] перед гласными заднего и среднего ряда [нʲ] перед гласными переднего ряда |
[н̥] перед глухими согласными [ŋ] еред заднеязычными /к/, /г/ [нː] на стыке морфем или слов |
|
/л/ |
[л] перед гласными заднего и среднего ряда [лʲ] перед гласными переднего ряда [л̩] между шумными согласными |
[ɫ] в позиции после гласных заднего ряда [л̥] перед глухими согласными [лː] на стыке морфем или слов |
|
/р/ |
[р] перед гласными заднего и среднего ряда [рʲ] перед гласными заднего и среднего ряда [ɾ] в интервокальной позиции в беглой речи [р̩] между шумными согласными |
[р̥] в позиции после глухих согласных [рː] на стыке морфем или слов |
|
/п/ |
[п] перед гласными заднего и среднего ряда [пʲ] перед гласными переднего ряда [п̚] в конце слова |
[пʰ] в начале слова перед ударным гласным [пː] на стыке морфем |
|
/б/ |
[б] перед гласными заднего и среднего ряда [бʲ] перед гласными переднего ряда [п] в конце слова (оглушение) |
[б̥] перед глухими согласными [бː] на стыке морфем |
|
/т/
|
[т] перед гласными заднего и среднего ряда [тʲ] перед гласными переднего ряда [т̚] в конце слова |
[тʰ] в начале слова перед ударным гласным [тː] на стыке морфем |
|
/д/
|
[д] перед гласными заднего и среднего ряда [дʲ] перед гласными переднего ряда [т] в конце слова (оглушение) |
[д̥] перед глухими согласными |
|
/к/
|
[к] перед гласными заднего и среднего ряда [кʲ] перед гласными переднего ряда [к̚] в конце слова |
[кʰ] в начале слова перед ударным гласным [кː] на стыке морфем |
|
/г/ |
[г] перед гласными заднего и среднего ряда [гʲ] перед гласными переднего ряда [к] в конце слова (оглушение) |
[г̥] перед глухими согласными [гː] на стыке морфем |
|
/ф/
|
[ф] перед гласными заднего и среднего ряда [фʲ] перед гласными переднего ряда [ф̚] в конце слова |
[фː] на стыке морфем или слов [ф̥] рядом с глухими согласными |
|
/в/
|
[в] перед гласными заднего и среднего ряда [вʲ] перед гласными переднего ряда [ф] в конце слова(оглушение) |
[в̥] перед глухими согласными [вː] на стыке морфем |
|
/с/ |
[с] перед гласными заднего и среднего ряда [сʲ] перед гласными переднего ряда [с̚] в конце слова |
[з] перед звонкими согласными [сː] на стыке морфем |
|
/з/
|
[з] перед гласными заднего и среднего ряда [зʲ] перед гласными переднего ряда [с] в конце слова (оглушение) |
[з̥] перед глухими согласными [зː] на стыке морфем |
|
/ш/
|
[ш] во всех позициях [ш̚] в конце слова |
[шː] на стыке морфем [ш̥] рядом с глухими согласными [шʷ] перед /у/ |
|
/ж/ |
[ж] перед гласными [ш] в конце слова (оглушение) |
[ж̥] перед глухими согласными [жː] на стыке морфем [жʷ] перед /у/ |
|
/х/
|
[х] перед гласными заднего ряда [хʲ] перед гласными переднего ряда [х̚] в конце слова |
[хː] п на стыке морфем [ç] после /и/ |
|
/ц/ |
[ц] перед гласными [ц̚] в конце слова |
[цː] на стыке морфем [ц̥] перед глухими согласными |
|
/ч/ |
[ч] во всех позициях [ч̚] в конце слова |
[чː] на стыке морфем [ш’] в беглой речи [ч̥] рядом с глухими согласными |
|
/щ/ |
[щ] во всех позициях [щ̚] в конце слова |
[щː] в позиции удлинения [щ̥] Рядом с глухими согласными |
|
/й/ |
[й] перед гласными [j̯] В дифтонгоидных сочетаниях [й̩] на стыке морфем |
[й̥] после глухих согласных [йː] на стыке морфем |
Таким образом выполняется одно из ключевых требований к аллофонной базе, которым является её полнота, то есть включение всех значимых реализаций фонем русского языка. Оно достигается благодаря учёту всех позиционных вариантов (ударные и безударные позиции), включения основных комбинаторных эффектов и анализа типичных фонетических процессов русского языка.
При этом исключаются редкие или маргинальные варианты, не оказывающие существенного влияния на качество речевого моделирования, что позволяет сохранить баланс между полнотой и практической применимостью [8].
2. Алгоритм формирования тестовых фраз с полным аллофонным покрытием
Предложенный алгоритм для формирование тестовых фраз, который должен обеспечить покрытие множества аллофонных реализаций фонем русского языка представлен на рисунке 1. Реализованный в алгоритме подход основан на принципе управляемого синтеза речевого материала с учётом позиционных и комбинаторных условий реализации звуков [9], [10].
Суть алгоритма – он не генерирует фразы случайно, а работает с учетом таблицы аллофонов и определяет область, которую необходимо покрыть, затем подбирает слова, в которых они реализуются и объединяет слова в фразы.

Рисунок 1. Схема алгоритма формирование тестовых фраз
Первый шаг алгоритма заключается в формирование целевого множества аллофонов: с помощью таблицы 1 и 2 формируется полный список гласных и согласных аллофонов. После чего на втором шаге для каждого аллофона фиксируется позиция (ударная, безударная, конец слова и т.д.) и фонетическое окружение. Например, [ɐ] первая предударная позиция, [мʲ] перед гласными переднего ряд.
Третий шаг предполагает подбор слов - для каждого аллофона выбираются слова, где он реализуется. Например, [ɐ] в слове молоко и [мʲ] в слове мир.
Четвертый шаг заключается в том, чтобы минимизировать набор слов таким образом, чтобы одним словом покрыть несколько аллофонов. Например, слово мама покрывает сразу два аллофона [м] и [а].
В пятом шаге уже происходит синтез фраз, слова объединяются в грамматически корректное предложение и фонетически разнообразную структуру.
И в конце происходит проверка покрытий, где для каждой фразы проверяется выполнение следующего условия:
(2)
где
- множество аллофонов;
- множество слов;
- формируемая фраза.
И если покрыты не все аллофоны, цикл повторяется и добавляется новая фраза, до тех пор, пока не будут покрыты все аллофоны.
Таким образом был сформирован набор из десяти тестовых фраз, каждая из которых покрывает уникальные комбинации аллофонов без избыточного повторения (таблица 3).
Таблица 3.
Тестовые фразы для записи диктора с полным аллофонным покрытием
|
Фраза |
Покрываемые аллофоны |
|---|---|
|
Мама дала мёд сыну, а бабушка шептала тихо. |
[а], [ɐ], [ə], [а̟], [м], [мʲ], [н], [нʲ], [д], [дʲ], [т], [тʲ], [б], [бʲ], [с], [сʲ], [ш], [ш̥], [й] |
|
Старый дуб шумно колебал свои ветви под ветром. |
[о], [ɐ], [у], [р], [рʲ], [л], [лʲ], [в], [вʲ], [д̥], [т̚], [г], [гʲ], [х] |
|
Пёстрая птица нежно пела на ветвях кустов. |
[э], [э̟], [э̥], [п], [пʲ], [ч], [ч̥], [ц], [ц̥], [ф], [фʲ], [ж], [ж̥], [м̥], [н̥] |
|
Маленький ёж быстро спрятался в густой траве. |
[й], [й̥], [и], [и̞], [ы], [ы̥], [к], [кʲ], [г], [т̚], [д̥], [с̚], [з̥], [щ], [щ̥] |
|
Хрупкая лампа медленно дрожала на тёмном столе. |
[л], [лʲ], [л̥], [м], [н], [р], [рː], [ф̚], [ф̥], [х], [хʲ], [иʲ], [э̞] |
|
Ветер гулял по полям и мягко колыхал высокие травы. |
[у̟], [у̥], [г], [гʲ], [в], [в̥], [к], [к̚], [р], [рʲ], [й], [йː] |
|
Цыплёнок нежно пищал, ощущая жаркую шутку. |
[ц], [цː], [ц̚], [ч], [чː], [ч̚], [щ], [ж], [жʷ], [ш], [шʷ] |
|
Яркое солнце быстро осветило тихий сад у дороги. |
[а], [о̟], [и̥], [й], [й̯], [сʲ], [зʲ], [д], [г], [ф̥] |
|
Фонарь мягко освещал пустую улицу возле станции. |
[ф], [фː], [фʲ], [н̥], [л̥], [л], [м], [мʲ], [ц], [ц̚] |
|
Пион нежно качался под лёгким ветром около кассы. |
[пʲ], [п̚], [тː], [к], [кː], [ч], [ч̥], [р], [рʲ], [й], [йː], [сː] |
В качестве примера разберем первую фразу «Мама дала мёд сыну, а бабушка шептала тихо». Определяем цель, то есть какие параметры аллофонов мы будет рассматривать: базовые гласные, мягкость/твёрдость, звонкие/глухие и шипящие. После чего проводим подбор слов и минимизацию набора, чтобы каждое слово закрывала как можно больше аллофонов из тех параметров, которые мы определили в первом шаге.
Мама покрывает базовую артикуляцию [м] твёрдый согласный и [а] ударный гласный; дала добавляет безударные варианты [д] и [ɐ] — редукция; мёд - важный комбинаторный случай придает мягкость и оглушение на конце, сыну добавляет задний ряд гласных [ы] и [н]; бабушка - сочетание шумных [б] и [ш], шептала [ш] и [т], и в конце - тихо [тʲ] мягкость и [х] щелевой.
После чего проводим проверку фразы «Мама дала мёд сыну, а бабушка шептала тихо» и составляем список покрываемых аллофонов.
Заключение
В рамках проведённой работы была решена задача формирования тестовых фраз для синтеза речеподобного сигнала, обеспечивающего полное покрытие аллофонных реализаций фонем русского языка. В отличие от традиционных подходов, ориентированных преимущественно на фонемный уровень, предложенный метод учитывает позиционные и комбинаторные условия реализации звуков, что позволяет более точно моделировать реальные речевые процессы.
В работе была сформирована структурированная аллофонная база, включающая гласные и согласные фонемы с описанием условий их реализации. На основе данной базы предложен алгоритм генерации тестовых фраз, направленный на минимизацию количества речевого материала при сохранении полноты аллофонного покрытия. Практическая реализация алгоритма позволила сформировать набор из десяти тестовых фраз, каждая из которых покрывает уникальные комбинации аллофонов без избыточного повторения.
Таким образом разработанный метод может применятся при создании речеподобных сигналов, где требуется высокая степень фонетической точности и репрезентативности.
Предложенный подход может рассматриваться как эффективный инструмент для формирования тестового речевого материала с заданными фонетическими характеристиками и имеет потенциал для дальнейшего развития в задачах цифровой обработки речи.
Список литературы:
- Бондарко Л. В. Фонетика современного русского языка : учебное пособие. — Санкт-Петербург : Изд-во Санкт-Петербургского университета, 2019. — 276 с.
- Князев С. В., Пожарицкая С. К. Современный русский литературный язык. Фонетика : учебник. — Москва : Юрайт, 2020. — 343 с.
- Вербицкая Л. А. Русская речь: фонетика и орфоэпия : учебное пособие. — Москва : Аспект Пресс, 2019. — 287 с.
- Шаров С. А., Копотев М. В. Корпусные методы в лингвистике : учебное пособие. — Москва : Изд-во ВШЭ, 2021. — 352 с.
- Касаткин Л. Л. Современный русский язык. Фонетика : учебник для вузов. — Москва : Академия, 2018. — 256 с.
- Зиндер Л. Р. Общая фонетика. — Москва : URSS, 2020. — 312 с.
- Hayes B. Introductory Phonology. — Hoboken : Wiley-Blackwell, 2022. — 432 p.
- Jurafsky D., Martin J. H. Speech and Language Processing. — 3rd ed. — Draft, 2023. — URL: https://web.stanford.edu/~jurafsky/slp3/
- Taylor P. Text-to-Speech Synthesis. — Cambridge : Cambridge University Press, 2020. — 626 p.
- Zen H., Tokuda K., Black A. W. Statistical parametric speech synthesis // Speech Communication. — 2021. — Vol. 51. — P. 1039–1064. — URL: https://doi.org/10.1016/j.specom.2009.04.004
дипломов


Оставить комментарий