Статья опубликована в рамках: CLXI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 07 мая 2026 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Денисов В.М. ГЕНЕРАТИВНОЕ ВОССТАНОВЛЕНИЕ РЕЧЕВОГО СИГНАЛА // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CLXI междунар. студ. науч.-практ. конф. № 5(159). URL: https://sibac.info/archive/technic/5(159).pdf (дата обращения: 15.07.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

ГЕНЕРАТИВНОЕ ВОССТАНОВЛЕНИЕ РЕЧЕВОГО СИГНАЛА

Денисов Владислав Михайлович

студент, кафедра автоматизации научных исследований, факультет вычислительной математики и кибернетики, Московский государственный университет имени М.В. Ломоносова,

РФ, г. Москва

Шишкин Алексей Геннадьевич

научный руководитель,

д-р физ.-мат. наук, проф., кафедра автоматизации научных исследований, факультет вычислительной математики и кибернетики, Московский государственный университет имени М.В. Ломоносова,

РФ, г. Москва

GENERATIVE RESTORATION OF SPEECH SIGNAL

Denisov Vladislav Mikhailovich

Student, Department of Automation of Scientific Research, Faculty of Computational Mathematics and Cybernetics, Lomonosov Moscow State University,

Russia, Moscow

Shishkin Alexey Gennadievich

Scientific supervisor, Doctor of Physical and Mathematical Sciences, Professor, Department of Automation of Scientific Research, Faculty of Computational Mathematics and Cybernetics, Lomonosov Moscow State University,

Russia, Moscow

АННОТАЦИЯ

В работе представлена система улучшения качества речевых сигналов, построенная на базе генеративно-состязательной сети с генератором архитектуры U-Net, осуществляющим совместную обработку действительной и мнимой частей комплексной спектрограммы. Предложен метод раздельного предсказания мультипликативной маски магнитуды и аддитивной коррекции фазы. Проведено экспериментальное сравнение двух конфигураций, отличающихся уровнем входного зашумления, с оценкой по метрикам PESQ, STOI, SI-SNR и DNS-MOS. Показано, что модель эффективно подавляет широкий класс шумов в диапазоне SNR от 0 до 20 дБ, а различие итоговых показателей между конфигурациями обусловлено исключительно степенью деградации тестовых выборок, тогда как восстановительная способность сети остаётся одинаково высокой.

ABSTRACT

The paper presents a speech enhancement system based on a generative adversarial network with a U-Net architecture generator performing joint processing of the real and imaginary parts of the complex spectrogram. A method for separate prediction of a multiplicative magnitude mask and an additive phase correction is proposed. An experimental comparison of two configurations differing in the input noise level is carried out, evaluated by PESQ, STOI, SI-SNR and DNS-MOS metrics. It is shown that the model effectively suppresses a wide class of noise in the SNR range from 0 to 20 dB, and the difference in the final scores between configurations is solely due to the degree of degradation of the test sets, while the restoration capacity of the network remains equally high.

Ключевые слова: улучшение речи, глубокое обучение, генеративно-состязательная сеть, комплексная спектрограмма, маскирование магнитуды, коррекция фазы, U-Net.

Keywords: speech enhancement, deep learning, generative adversarial network, complex spectrogram, magnitude masking, phase correction, U-Net.

Задача повышения разборчивости и естественности звучания речи, зашумлённой акустическими помехами, остаётся одной из центральных в обработке аудиосигналов. Классические методы, такие как винеровская фильтрация [11] или спектральное вычитание [1], основываются на упрощённых статистических моделях шума и демонстрируют ограниченную эффективность в нестационарных условиях. Современные нейросетевые подходы, напротив, обучаются на больших массивах пар «чистый–зашумлённый сигнал» и способны адаптироваться к разнообразным акустическим сценариям [6].

Особый интерес представляет восстановление не только амплитудных, но и фазовых характеристик сигнала. Традиционные спектральные методы часто оставляют фазу неизменной, что при сильных искажениях приводит к потере естественности. На слух это проявляется как характерный металлический звук.

В настоящей работе предлагается архитектура, которая в частотной области одновременно предсказывает маску для магнитуды и поправку для фазы, используя общее скрытое представление, извлечённое из комплексной спектрограммы. Цель исследования – разработать и экспериментально оценить такую систему, а также сравнить её поведение в условиях различной степени входного зашумления.

Архитектура предложенной системы

Обработка сигнала выполняется в частотной области с применением кратковременного преобразования Фурье (STFT). Параметры преобразования: окно Ханна длиной 512 отсчётов, шаг 128 отсчётов (перекрытие 75 %), частота дискретизации 16 кГц. Действительная и мнимая компоненты спектрограммы объединяются в двухканальный тензор и поступают на вход генератора.

Генератор построен по принципу U-Net [8] с четырьмя уровнями энкодера и декодера. Его отличительными чертами являются:

- остаточные блоки с канальным вниманием (Squeeze-and-Excitation) [2], позволяющие модели динамически перераспределять значимость частотных каналов;

- понижение размерности только по частотной оси, что сохраняет временное разрешение на всех уровнях иерархии;

- спектральное внимание в «горлышке» сети, аналогичное механизму CBAM [12], для выделения информативных частотно-временных областей;

- две выходные головы: одна с сигмоидной активацией формирует маску магнитуды в диапазоне [0, 1], другая с активацией Tanh, масштабированной на π, даёт фазовую коррекцию в интервале [–π, π].

Восстановленная комплексная спектрограмма получается умножением амплитудного спектра зашумлённого сигнала на предсказанную маску и добавлением фазовой поправки к исходной фазе. Обратное STFT возвращает сигнал во временную область.

Дискриминатор объединяет два популярных типа подсетей: Multi-Period Discriminator (анализирует сигнал, перегруппированный с периодами 2, 3, 5, 7, 11) и Multi-Scale Discriminator [4] (работает на исходном и прореженных в 2 и 4 раза сигналах).

Функция потерь генератора представляет собой взвешенную сумму пяти компонент:

- спектральная потеря (норма Фробениуса разности комплексных спектрограмм);

- L1-норма разности магнитуд;

- комплексная L1-потеря и показатель фазовой когерентности;

- масштабно-инвариантное отношение сигнал/шум (SI-SNR);

- состязательная потеря LSGAN [5].

Весовые коэффициенты подобраны эмпирически: 1,0 для спектральной и магнитудной потерь, 0,5 для фазовой и SI-SNR, 0,1 для состязательной составляющей.

Экспериментальная методика

Обучение и тестирование проводились на VCTK-Corpus [10], содержащем записи 110 дикторов английской речи. Разбиение выполнялось по дикторам: 53 человека в обучающей выборке (около 15 000 файлов), 6 – в валидационной, 8 – в тестовой. Такой подход исключает утечку информации о голосовых характеристиках и гарантирует оценку способности модели к обобщению на незнакомых дикторов. Дополнительно вручную проверялось несовпадение id дикторов между выборками.

Для создания зашумлённых версий использовались шесть типов синтетического шума: белый гауссовский, розовый, тональный гул сети, модулированный «шум толпы», полосовой шум вентилятора и музыкальный фон. В процессе обучения значение SNR случайно выбиралось из диапазона [0, 20] дБ, дополнительно с вероятностью 35 % применялись аугментации (клиппинг, выпадение фрагментов, частотная коррекция).

Были исследованы две экспериментальные конфигурации, различающиеся уровнем зашумления валидационных и тестовых данных. Конфигурация I (интенсивное зашумление) соответствует среднему SNR на тесте около 2,5 дБ, конфигурация II (умеренное зашумление) – около 10,1 дБ. Архитектура сети, гиперпараметры и разбиение данных в обоих случаях идентичны.

Качество восстановления оценивалось с помощью четырёх метрик: PESQ [3] (метрика, которая имитирует субъективное восприятие качества речи человеком), STOI [9] (разборчивость), SI-SNR (отношение сигнал/шум) и DNS-MOS [7] (нейросетевая оценка без опоры на эталонный чистый сигнал).

Результаты

В Таблице 1 приведены метрики зашумлённого (необработанного) сигнала на тестовой выборке для двух конфигураций, а также итоговые показатели после обработки обученной моделью.

Таблица 1.

Сравнение метрик зашумлённого входа и улучшенного сигнала на тестовой выборке

Конфигурация	Тип сигнала	PESQ	SI-SNR, дБ	STOI	DNS-MOS
I (интенсивное зашумление)	зашумлённый вход	1,19	2,59	0,725	–
I (интенсивное зашумление)	улучшенный	2,74	15,92	0,838	2,98
II (умеренное зашумление)	зашумлённый вход	1,40	10,16	0,776	–
II (умеренное зашумление)	улучшенный	3,20	20,38	0,864	3,02

Абсолютные значения метрик улучшенного сигнала выше у конфигурации II, что объясняется более высоким качеством входного сигнала. Однако прирост относительно зашумлённого входа по SI-SNR в конфигурации I составил +13,33 дБ, тогда как в конфигурации II – +10,22 дБ, что указывает на более значительное подавление шума в тяжёлых акустических условиях.

Для выяснения истинной восстановительной способности моделей было проведено многоусловное тестирование при одинаковых уровнях входного зашумления. В Таблице 2 представлены результаты сравнения двух конфигураций в четырёх диапазонах SNR (фактические замеры выполнены при фиксированных значениях 5, 10, 15 и 20 дБ, соответствующих серединам указанных интервалов).

Таблица 2.

Результаты многоусловного тестирования при различных диапазонах входного SNR

Диапазон SNR, дБ	PESQ (Интенсивное зашумление)	PESQ (Умеренное зашумление)	ΔPESQ	SI-SNR (Интенсивное зашумление), дБ	SI-SNR (Умеренное зашумление), дБ
0-5 дБ	2,77	2,73	0,04	16,80	16,60
5-10 дБ	3,08	3,07	0,01	19,67	19,60
10-15 дБ	3,37	3,37	0,00	22,54	22,55
15-20 дБ	3,63	3,62	0,01	25,41	25,48

Из полученных результатов видно, что обе конфигурации демонстрируют практически идентичное качество восстановления при равных входных условиях. Различие по PESQ не превышает 0,04 и уменьшается с ростом SNR. Это подтверждает, что наблюдаемая разница в итоговых метриках (Таблица 1) обусловлена исключительно различием в уровне шума тестовых выборок, а не разной способностью моделей к очистке сигнала.

Для более детального анализа была проведена оценка эффективности подавления каждого из шести типов шума, использованных при формировании тестовых данных. В Таблице 3 представлены значения PESQ и SI-SNR для обеих конфигураций в разбивке по типам шума.

Таблица 3.

Результаты на тестовой выборке по типам шума

Тип шума (кол-во файлов)	PESQ (Интенсивное зашумление)	PESQ (Умеренное зашумление)	SI-SNR (Интенсивное зашумление), дБ	SI-SNR (Умеренное зашумление), дБ
Babble (n=286)	2,19	2,80	15,29	20,13
Fan (n=610)	2,41	2,89	13,30	17,74
Gaussian (n=806)	2,13	2,82	15,23	20,44
Hum (n=858)	3,36	3,60	18,30	22,08
Music (n=551)	3,48	3,74	16,91	20,73
Pink (n=265)	2,36	3,10	14,97	20,28
Среднее	2,74	3,20	15,92	20,38

Данные Таблицы 3 показывают, что наилучшие результаты достигаются для структурированных шумов – тонального гула (Hum) и музыкального фона (Music), где PESQ превышает 3,36 даже в конфигурации с интенсивным зашумлением. Широкополосные шумы (Gaussian, Pink, Babble) подавляются хуже, однако прирост PESQ относительно зашумлённого входа остаётся значительным – более чем на единицу. Разрыв между конфигурациями по PESQ максимален для розового и гауссовского шумов (Δ ≈ 0,68–0,69), тогда как для тонального гула он минимален (Δ = 0,24). Это согласуется с тем, что при умеренном входном зашумлении модель способна извлечь больше значимых деталей из слабоструктурированных помех.

Заключение

Разработанная система улучшения речи на базе генеративно-состязательной сети с генератором ComplexResidualUNet продемонстрировала высокую эффективность в подавлении разнообразных шумов. Ключевые особенности архитектуры – совместная обработка комплексной спектрограммы, раздельное предсказание магнитудной маски и фазовой коррекции, а также применение канального и спектрального внимания – обеспечивают значительный прирост объективных метрик качества по сравнению с зашумлённым сигналом.

Экспериментально подтверждено, что модель, обученная в условиях интенсивного зашумления, не уступает по восстановительной способности модели, настроенной на умеренные помехи, при тестировании в равных акустических условиях. Это свидетельствует об устойчивости предложенного подхода и его пригодности для работы в широком диапазоне отношений сигнал/шум.

Перспективы дальнейших исследований связаны с увеличением объема набора данных для обучения, расширением набора акустических сценариев и адаптацией архитектуры для работы в реальном времени.

Список литературы:

Boll S.F. Suppression of acoustic noise in speech using spectral subtraction // IEEE Transactions on Acoustics, Speech, and Signal Processing. – 1979. – Vol. 27, № 2. – P. 113–120.
Hu J., Shen L., Sun G. Squeeze-and-Excitation Networks // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – 2018. – P. 7132–7141.
ITU-T Recommendation P.862. Perceptual Evaluation of Speech Quality (PESQ). – International Telecommunication Union, Geneva, 2001.
Kong J., Kim J., Bae J. HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis // Advances in Neural Information Processing Systems. – 2020. – Vol. 33. – P. 17022–17033.
Least Squares Generative Adversarial Networks / X. Mao [et al.] // ICCV. – 2017. – P. 2794–2802.
Pascual S., Bonafonte A., Serra J. SEGAN: Speech Enhancement Generative Adversarial Network // Proceedings of Interspeech. – 2017. – P. 3642–3646.
Reddy C.K.A., Gopal V., Cutler R. A DNSMOS version 2.0 for the INTERSPEECH 2022 DNS Challenge // Proceedings of Interspeech. – 2022. – P. 2953–2957.
Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation // Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015. – Springer, 2015. – P. 234–241.
An algorithm for intelligibility prediction of time-frequency weighted noisy speech / C.H. Taal, R.C. Hendriks, R. Heusdens, J. Jensen // IEEE Transactions on Audio, Speech, and Language Processing. – 2011. – Vol. 19, № 7. – P. 2125–2136.
Veaux C., Yamagishi J., MacDonald K. CSTR VCTK Corpus [Электронный ресурс]. – University of Edinburgh, 2017. – DOI: 10.7488/ds/1994.
Wiener N. Extrapolation, Interpolation, and Smoothing of Stationary Time Series. – MIT Press, 1949. – 163 p.
Woo S., Park J., Lee J.-Y., Kweon I.S. CBAM: Convolutional Block Attention Module // Proceedings of the European Conference on Computer Vision (ECCV). – Springer, 2018. – P. 3–19.