Статья опубликована в рамках: Научного журнала «Студенческий» № 16(312)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7, скачать журнал часть 8, скачать журнал часть 9, скачать журнал часть 10
ПРОБЛЕМЫ КЛАССИЧЕСКИХ МЕТОДОВ ШУМОПОДАВЛЕНИЯ В АУДИОЗАПИСЯХ
PROBLEMS OF CLASSICAL NOISE REDUCTION METHODS IN AUDIO RECORDINGS
Roman Matyushin
student, Institute of Advanced Information Technologies, Tula State Pedagogical University,
Russia, Tula
Alexey Yekaterinichev
Scientific supervisor, candidate of Technical Sciences, Associate Professor, deputy Director for Scientific and Technical Development Tula State Pedagogical University
Russia, Tula
АННОТАЦИЯ
В данной статье был проведен анализ классических методов шумоподавления, в частности их общие и частные недостатки, а также сделаны выводы о перспективе их дальнейшего применения.
ABSTRACT
This article analyzes classical noise reduction methods, in particular their general and particular disadvantages, and draws conclusions about the prospects for their further application.
Ключевые слова: шум, шумоподавление, метод, сигнал, аудио.
Keywords: noise, noise reduction, method, signal, audio.
С появлением голосовой связи, одной из основных проблем является наличие шумов при передаче речи, в связи с этим активно разрабатывались различные методы шумоподавления.
Шум – звук или совокупность звуков, искажающие или мешающие качественному восприятию сигнала при его записи, хранении, передаче или обработке.
Шумоподавление – процесс удаления шума из сигнала [1].
Одними из первых появились полосовые фильтры, конкретно фильтры высоких, низких частот.
Данные фильтры работают по следующему принципу:
- Задается точка среза т.е. граница в частотной характеристике системы, проходя которую, энергия сигнала начнет уменьшаться;
- Пропускаемый сигнал проходит через фильтр, который пропускает только ту часть сигнала, которая выше или ниже точки среза в зависимости от того какой фильтр, высоких или низких частот (Рис. 1).
Рисунок 1. Иллюстрация работы фильтров низких и высоких частот
Применяются данные фильтры для шумоподавления в среде со стационарными шумами, например, аудиотехника или телекоммуникации.
Поскольку точка среза задается заранее, то проявляются следующие недостатки:
- Ограниченность: Если в сигнале имеется шум, по частотным характеристикам, сопоставимый с полезной частью сигнала, то такой шум будет пропущен через фильтр;
- Искажения сигнала: Та часть полезного сигнала, что ближе всего к точке среза может быть подвергнута искажения;
- Чувствительность к оборудованию и параметрам: Работа фильтра зависит от точных характеристик компонентов, таких как резисторы, конденсаторы и т.д. В случае их изменения, может быть нарушена работа фильтра [2].
Далее уже были придуманы такие методы как спектральное вычитание, фильтр Винера, адаптивный фильтр LMS, MMSE и компандерные системы.
Спектральное вычитание – один из наиболее популярных методов, работа которого предполагает вычитание спектрального слепка шума из обрабатываемого сигнала.
Алгоритм его работы состоит из нескольких этапов:
- Разложение сигнала в спектр с помощью преобразования Фурье
- Составление слепка шума
- Вычитание полученного слепка из целого сигнала
- Обратное преобразование (Рис. 2)
Рисунок 2. Принцип работы метода спектрального вычитания
Наиболее эффективен данный метод при шумоподавлении стационарных шумов, как например шум вентиляторов.
Несмотря на свою эффективность он имеет следующие недостатки:
- Музыкальные шумовые искажения: Эти искажения возникают в результате случайных пиков в спектре, вызванных установкой отрицательных спектральных значений на ноль во время обработки.
- Зависимость от точной оценки шума: Эффективность спектрального вычитания в значительной степени зависит от точной оценки спектра шума. Неточная оценка шума может привести либо к недостаточному снижению шума, либо к искажению требуемого сигнала.
- Возможность искажения речи: Чрезмерное вычитание или неправильная оценка уровня шума могут привести к удалению частей фактического речевого сигнала, что приведет к искажениям и снижению разборчивости [4; 5].
Фильтр Винера
Фильтр Винера — это статистический метод обработки сигналов, разработанный для оценки неизвестного сигнала из зашумленного наблюдения путем минимизации среднеквадратической ошибки (MSE) между оцененным и истинным сигналами.
Фильтр Винера работает в предположении, что и сигнал, и шум являются стационарными стохастическими процессами с известными спектральными характеристиками.
Он направлен на поиск линейного, не зависящего от времени фильтра (LTI), который при применении к наблюдаемому зашумленному сигналу дает оценку желаемого сигнала с наименьшим возможным MSE.
В частотной области передаточная функция фильтра Винера G(f)G(f) задается формулой:
|
(1) |
где Sxy(f) — это спектральная плотность перекрестной мощности между входным и требуемым сигналами, а Sxx(f) - спектральная плотность мощности входного сигнала.
Такая конструкция гарантирует, что фильтр учитывает частотный состав как сигнала, так и шума, эффективно ослабляя частоты, на которых преобладает шум. (Рис. 3)
Рисунок 3. Принцип работы фильтра Винера
Применяется данный метод в основном для повышения качества речи в конференциях или же в офисных помещениях.
Однако он также обладает следующими недостатками:
- Требование предварительной информации: Для работы фильтра требуются знания спектральных характеристик сигнала и шума, которые не всегда могут быть доступны или поддаваться точной оценке
- Предположение о стационарности: Фильтр предполагает, что статистические свойства сигнала и шума не меняются со временем, что может быть неверно в динамичных средах
- Вычислительная сложность: Реализация фильтра, особенно в приложениях реального времени, может быть сопряжена с большими вычислительными затратами из-за необходимости спектральных оценок и преобразований [7].
Адаптивные фильтры — это класс алгоритмов, широко используемых в обработке аудиосигналов для решения задач, связанных с подавлением шума, эхокомпенсацией, идентификацией систем и других.
Они способны автоматически подстраивать свои параметры в реальном времени в зависимости от изменений входного сигнала или характеристик системы.
Адаптивные фильтры работают на основе итеративного процесса, который минимизирует ошибку между желаемым сигналом и выходным сигналом фильтра.
Основные компоненты адаптивного фильтра включают:
- Входной сигнал — сигнал, который нужно обработать.
- Адаптивный фильтр — система с изменяемыми коэффициентами.
- Ошибка — разница между желаемым сигналом и выходом фильтра.
- Алгоритм адаптации — метод, который обновляет коэффициенты фильтра для минимизации ошибки.
Данный тип методов шумоподавления представлен методами LMS, NLMS, RLS.
- LMS (Least Mean Squares):
- Коэффициенты фильтра обновляются по формуле:
|
(2) |
Где w(n)— вектор коэффициентов фильтра, μ— шаг адаптации, e(n)— ошибка, x(n)— входной сигнал.
- NLMS (Normalized Least Mean Squares):
- Улучшенная версия LMS, где шаг адаптации нормализуется по мощности входного сигнала:
|
(3) |
Где ϵ— малая константа для предотвращения деления на ноль.
- Обеспечивает более быструю сходимость, чем LMS.
- RLS (Recursive Least Squares):
- Использует рекурсивный метод для минимизации взвешенной суммы квадратов ошибок.
- Обеспечивает более быструю сходимость, чем LMS и NLMS, но требует больше вычислительных ресурсов.
Адаптивные алгоритмы шумоподавления широко используются для подавления фоновых шумов на улице, такие как шум автотранспорта или промышленные установки из-за их способности динамически приспосабливаться к изменяющейся шумовой среде.
Однако у них есть свои недостатки:
1. Вычислительная сложность: Адаптивные алгоритмы часто требуют значительных вычислительных ресурсов, что может привести к увеличению задержек обработки и необходимости использования дополнительного оборудования;
2. Скорость сходимости и стабильность: на скорость сходимости адаптивных фильтров влияют такие факторы, как размер шага и длина фильтра;
3. Чувствительность к шумовым характеристикам: на адаптивные фильтры могут влиять некоррелированные компоненты шума, что приводит к снижению производительности;
4. Проблемы внедрения: при применении адаптивных фильтров в режиме реального времени возникают проблемы, связанные с вычислительными требованиями и объемом памяти [3].
Таким образом, хотя адаптивные алгоритмы шумоподавления обеспечивают гибкость и улучшенные возможности шумоподавления, при их применении необходимо тщательно сбалансировать вычислительные требования, поведение при сходимости, чувствительность к характеристикам шума и возможность реализации.
Системы компандерного шумоподавления широко используются при обработке звука для повышения качества сигнала за счет снижения уровня шума.
Они работают путем сжатия динамического диапазона аудиосигнала перед передачей или записью и расширения его до исходного диапазона во время воспроизведения или приема.
Этот метод улучшает отношение сигнал/шум (SNR), особенно в средах с ограниченным динамическим диапазоном, таких как аналоговые магнитофонные записи или беспроводные передачи. (Рис. 4)
Рисунок 4. Принцип работы компандерных систем шумоподавления
Хотя системы компандирования обладают преимуществами в плане снижения уровня шума, они также имеют определенные ограничения:
- Нелинейные искажения: процессы сжатия и расширения являются нелинейными, что при неправильном управлении может привести к искажениям;
- Проблемы с несоответствием: если компрессор и расширитель не идеально согласованы, это может привести к искажениям или ухудшению качества сигнала;
- Ограниченная эффективность при определенных типах помех: Компандеры менее эффективны при воздействии помех, сходных по природе с сигналом, таких как импульсные помехи;
- Сложность в реализации: проектирование и калибровка компандерных систем требуют тщательного рассмотрения, чтобы сбалансировать снижение уровня шума и точность передачи сигнала [6].
Суммируя все вышесказанное, мы можем сказать, что для вышеперечисленных классических методов характерен ряд общих недостатков, а именно:
- Зависимость от предварительного анализа входных данных, таких как спектральные характеристики, такие как слепок шума у спектрального вычитания или отдельных характеристик шума и сигнала у фильтра Винера, или вычисление входных параметров для адаптивных фильтров.
- Вытекающие из вышеуказанного, сложности вычисления
- Сильная ограниченность применения, а именно каждый метод предполагает довольно узкое применение, такое как шум вентиляторов и компьютеров, или же уличный шум транспорта или других людей.
И хотя эти проблемы можно частично решить путем комбинирования методов, это не решит проблему вычислительной нагрузки, а скорее всего усугубит.
Однако в данный момент активно развиваются технологии искусственного интеллекта и нейросетей.
Технологии нейросетей представляют собой качественно иной подход к данной задаче.
В первую очередь нейросети возможно обучать на больших наборах данных, содержащих широкий диапазон шумовых условий, что позволяет адаптироваться к нестационарным шумам, а также обладают способностью обобщать и адаптироваться к различным типам шумов и речи.
Это делает их универсальным инструментом, который может использоваться в широком спектре приложений – от телефонной связи и конференций до обработки аудио для медиаплатформ.
Универсальные модели способны интегрировать особенности нескольких классических методов, объединяя лучшие их стороны в одном алгоритме.
Во-вторых, в контексте задачи шумоподавления нейросетевые модели обучаются на примерах «грязного» и «чистого» сигнала, что позволяет им самостоятельно находить оптимальные способы отделения шума от полезного сигнала.
В-третьих, Нейронные сети по своей природе способны аппроксимировать сложные нелинейные функции.
В-четвертых, хоть для обучения нейросетей требуются значительно большие мощности, этап их непосредственного применения оптимизирован и может выполняться с низкой задержкой на современном оборудовании, включая мобильные устройства или специализированные ускорители по типу GPU.
Они эффективно обрабатывают нелинейные зависимости между шумом и речевым сигналом, что позволяет уменьшить или устранить типичные для линейных методов артефакты.
Таким образом, необходимость задавать фиксированные параметры отпадает, а модель сама «учится» выделять наиболее релевантные признаки речи, что снижает риск возникновения искажений
Конечно, для обучения моделей под данную задачу, требуются ещё большие вычислительные мощности, однако для их непосредственного применения не нужны мощные системы.
Как пример уже появились такие нейросети как Conv-TasNet, HiFi-GAN или DEMUCS, которые рассчитаны под задачу шумоподавления.
Список литературы:
- Loizou, P. C. Speech Enhancement: Theory and Practice / P. C. Loizou. — 1-е изд. — Boca Raton : CRC Press, 2007. — 632 c. — Текст : непосредственный.
- Proakis, J. G. Digital Signal Processing: Principles, Algorithms, and Applications / J. G. Proakis, D,G Manolakis. — 4-е изд. — Upper Saddle River : Prentice Hall, 2007. — 1004 c. — Текст : непосредственный.
- Widrow, B. Adaptive Signal Processing / B. Widrow, S. D. Stearns. — 1-е изд. — Englewood Cliffs : Prentice-Hall, 1985. — 474 c. — Текст : непосредственный.
- Boll, S. F. Suppression of acoustic noise in speech using spectral subtraction / S. F. Boll. — Текст : непосредственный // IEEE Transactions on Acoustics, Speech, and Signal Processing. — 1979. — № 27.2. — С. 113-120.
- Ephraim, Y. Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator / Y. Ephraim, D. Malah. — Текст : непосредственный // IEEE Transactions on Acoustics, Speech, and Signal Processing. — 1984. — № 32.6. — С. 1109–1121.
- Jayant, N. S. Digital Coding of Waveforms: Principles and Applications to Speech and Video / N. S. Jayant, P. Noll. — 1-е изд. — Englewood Cliffs : Prentice-Hall, 1984. — 688 c. — Текст : непосредственный.
- Lim, J. S. All-pole modeling of degraded speech / J. S. Lim, A. V. Oppenheim. — Текст : непосредственный // IEEE Transactions on Acoustics, Speech, and Signal Processing. — 1978. — № 26.3. — С. 197–210.
Оставить комментарий