Статья опубликована в рамках: CLXI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 07 мая 2026 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Малинчик Н.С. РАЗРАБОТКА ГИБРИДНОГО ПОДХОДА К АУДИОСЕПАРАЦИИ: ЛЕГКОВЕСНЫЕ НЕЙРОСЕТЕВЫЕ АРХИТЕКТУРЫ И ПРОТОКОЛ ПОТОКОВОЙ ПЕРЕДАЧИ МАСОК LMSF (LIGHTWEIGHT MASK STREAMING FORMAT) // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CLXI междунар. студ. науч.-практ. конф. № 5(159). URL: https://sibac.info/archive/technic/5(159).pdf (дата обращения: 04.06.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

РАЗРАБОТКА ГИБРИДНОГО ПОДХОДА К АУДИОСЕПАРАЦИИ: ЛЕГКОВЕСНЫЕ НЕЙРОСЕТЕВЫЕ АРХИТЕКТУРЫ И ПРОТОКОЛ ПОТОКОВОЙ ПЕРЕДАЧИ МАСОК LMSF (LIGHTWEIGHT MASK STREAMING FORMAT)

Малинчик Никита Сергеевич

магистрант, кафедра современных технологий программирования, Гродненский государственный университет имени Янки Купалы,

РБ, г. Гродно

Статкевич Святослав Эдуардович

научный руководитель,

канд. физико-математических. наук, доц., Гродненский государственный университет имени Янки Купалы,

РБ, г. Гродно

DEVELOPING A HYBRID APPROACH TO AUDIO SEPARATION: LIGHTWEIGHT NEURAL NETWORK ARCHITECTURES AND THE LIGHTWEIGHT MASK STREAMING FORMAT (LMSF)

Malinchyk Mikita Sergeyevich

Master's student, Department of Modern Programming Technologies, Yanka Kupala State University of Grodno,

Belarus, Grodno

Statkevich Sviataslau Eduardovich

Scientific supervisor, candidate of Physical and Mathematical Sciences, associate professor, Yanka Kupala State University of Grodno,

Belarus, Grodno

АННОТАЦИЯ

Разрыв между вычислительной сложностью современных методов разделения источников звука и возможностями мобильного железа не сокращается достаточно быстро. Настоящая работа предлагает LMSF (Lightweight Mask Streaming Format) — конкретную спецификацию формата встраивания квантизованных частотно-временных масок разделения в MP3-поток, при которой клиентское устройство изолирует отдельные источники, выполняя лишь операции FFT и табличного декодирования. Подход основан на парадигме информированного разделения источников (ISS): маски вычисляются на стороне сервера по стемовым дорожкам или с применением высококачественных нейросетевых сепараторов, сжимаются в три этапа (психоакустическое прореживание → векторное квантование → дифференциальное и энтропийное кодирование) и доставляются через поля MPEG Ancillary Data или ID3v2 GEOB. На стороне клиента декодирование маски сводится к табличному поиску и поэлементному умножению в комплексной области — нейросетевой runtime не требуется. В работе анализируются интеграционные ограничения формата, компромисс между битрейтом масок и качеством разделения, а также открытая задача совместного проектирования психоакустической модели и алгоритма VQ-сжатия. Расширение на пространственные конфигурации через сопряжение с MPEG-D SAOC обозначено как конкретный следующий шаг, а не абстрактное направление исследований.

ABSTRACT

The compute gap between state-of-the-art audio source separation and what runs on a smartphone is not closing fast enough. This paper proposes LMSF (Lightweight Mask Streaming Format) — a concrete specification for embedding quantized time-frequency separation masks inside an MP3 stream, so that client devices can isolate individual sources using only FFT operations and codebook lookups. The approach is grounded in the informed source separation (ISS) framework: masks are computed server-side from stem tracks or high-quality neural estimators, compressed through a three-stage pipeline (psychoacoustic decimation → vector quantization → differential + entropy coding), and delivered via MPEG Ancillary Data or ID3v2 GEOB fields. On the client, mask decoding reduces to table lookups and complex-valued pointwise multiplication — no inference runtime required. We analyze the format's integration constraints, the trade-off between mask bitrate and separation quality, and the open problem of designing a joint psychoacoustic–VQ compression model. Extension to spatial scenes via MPEG-D SAOC coupling is outlined as a concrete next step, not just a research direction.

Ключевые слова: разделение источников звука, информированное разделение источников (ISS), LMSF, частотно-временные маски, идеальная относительная маска (IRM), STFT, MP3, векторное квантование, психоакустическое прореживание, дифференциальное кодирование, edge-инференс, потоковая передача аудио, MPEG-D SAOC, VQ-VAE, реальное время, мобильные системы.

Keywords: audio source separation, informed source separation (ISS), LMSF, time-frequency masking, ideal ratio mask (IRM), STFT, MP3, vector quantization, psychoacoustic decimation, differential coding, edge inference, audio streaming, MPEG-D SAOC, VQ-VAE, real-time, mobile systems.

Введение

Современные нейросетевые методы разделения источников обеспечивают практически идеальную вокальную изоляцию — при наличии GPU-сервера. Запустить те же модели на мобильном устройстве — совсем другая история. Demucs v3, к примеру, требует порядка 2–3 GFLOPS на секунду аудио в стандартной конфигурации, что на среднем ARM SoC ощутимо нагружает тепловой пакет. Проблема не в качестве алгоритмов — она в том, где происходят вычисления.

Существующие решения этого противоречия делятся на два класса: компрессия модели (прунинг, квантование, дистилляция знаний) и вынос вычислений на сервер. Компрессия сохраняет инференс локальным, но деградирует качество разделения при жёстких параметрических ограничениях. Облачный инференс переносит нейросетевую модель на сервер, однако требует двустороннего стриминга аудио — с задержкой и расходом трафика, которые делают интерактивное использование в реальном времени затруднительным, особенно на мобильных сетях.

Существует третий путь, которому уделялось меньше систематического внимания: вынести на сервер не модель, а результат её работы. Если маски разделения вычислены однократно, агрессивно сжаты и переданы вместе с аудио, для которого они вычислены, клиенту остаётся лишь их применить. Это и есть ключевая идея парадигмы информированного разделения источников (ISS) — однако существующие ISS-реализации либо передают служебную информацию по отдельному каналу, либо встраивают её через аудиоводяные знаки, и ни тот ни другой вариант не интегрируется органично с развёрнутой инфраструктурой стриминга MP3/AAC [6; 3].

Настоящая работа превращает этот нереализованный путь в конкретную спецификацию формата. LMSF (Lightweight Mask Streaming Format) определяет: как квантизованные частотно-временные маски упаковываются в поля MPEG Ancillary Data или ID3v2, какие операции сжатия снижают битрейт масок до приемлемых накладных расходов, как выглядит клиентский конвейер декодирования в терминах вычислительных примитивов. Спецификация — и есть основной вклад работы. Экспериментальная оценка явно выносится за её рамки.

Теоретические предпосылки

Рассматривается одномерный цифровой аудиосигнал смеси , представимый как сумма источников :

Переход к частотно‑временной области осуществляется с помощью кратковременного преобразования Фурье (STFT), в результате чего получается спектр смеси и спектры отдельных источников . Задача ASS состоит в восстановлении оценок по известному [1].

Наиболее распространенный подход — использование масок , ограниченных интервалом , с помощью которых оценивается вклад каждого источника:

В идеальном случае маска совпадает с так называемой идеальной относительной маской (Ideal Ratio Mask, IRM):

Восстановление каждого источника выполняется путём поэлементного умножения спектра смеси на соответствующую маску по всем временным кадрам и частотным бинам. В схемах информированного разделения (ISS) предполагается доступность отдельных составляющих сигнала на этапе кодирования: это позволяет заблаговременно сформировать вспомогательные данные, снижающие вычислительную нагрузку на декодер. В роли такой side-information могут выступать параметры обученных моделей, спектральные коэффициенты, матрицы линейных преобразований или непосредственно частотно-временные маски.

В практических реализациях ISS служебные данные передаются либо отдельным каналом, параллельным основному аудиопотоку, либо встраиваются в сам сигнал методами цифровой водяной маркировки. Оба варианта имеют существенное ограничение: интеграция с распространёнными форматами сжатого аудио (MP3, AAC) в них не предусмотрена, а целенаправленная оптимизация структуры передаваемых частотно-временных масок не рассматривается [6; 3]. Данная проблема к настоящему времени остаётся нерешённой.

Концепция легковесного формата LMSF

Основная идея предлагаемого подхода состоит в разделении обработки на две стадии:

Серверная стадия подготовки контента. На стороне сервера (или студии звукозаписи) доступны отдельные дорожки аудиоисточников. Для них вычисляются частотно‑временные маски, максимально близкие к идеальным (например, на основе тяжелых нейросетевых моделей и точных спектральных оценок). Далее эти маски подвергаются ступенчатому сжатию с учетом психоакустических свойств слуха и статистики аудиосигнала.
Клиентская стадия воспроизведения. На клиентском устройстве воспроизводится стандартный MP3‑поток смеси, а параллельно осуществляется извлечение и декодирование компактно закодированных масок LMSF.

Декодированные маски применяются к спектру смеси, после чего выполняется обратное STFT для получения временных сигналов отдельных источников. Ресурсоёмкие этапы — обучение модели, нейросетевой инференс и точная оценка масок — реализуются исключительно на серверной стороне в процессе подготовки контента, клиентское устройство оперирует уже готовой компактной структурой данных. Для контекстуального сопоставления рассмотрим стандарт MPEG‑D SAOC (Spatial Audio Object Coding), в рамках которого передача аудиообъектов осуществляется посредством downmix‑сигнала, дополненного параметрической информацией об уровнях объектов и межобъектных корреляциях.

Стандарт MPEG‑D SAOC (Spatial Audio Object Coding) описывает передачу аудиообъектов через downmix‑сигнал и параметрическую информацию, включающую уровни объектов и межобъектные корреляции. В терминах SAOC пользователь может изменять громкость отдельных объектов, а декодер использует набор параметров для восстановления пространственной сцены [7; 2].

Предлагаемый формат LMSF концептуально близок к SAOC в части идеи раздельной передачи основного сигнала и служебной информации, однако принципиально отличается типом передаваемых данных. В LMSF передаются именно квантизованные частотно‑временные маски, приближенные к нейросетевым или идеальным маскам, а не более грубые объектные параметры. Это позволяет достигать более точного спектрального разделения источников в пределах одного-двух каналов downmix‑сигнала.

Конвейер сжатие масок

IRM полного разрешения, вычисленная, скажем, при 1024 частотных бинах и шаге 10 мс, несёт значительно больше информации, чем слуховая система способна использовать. Первый этап сжатия сокращает это разрешение, проецируя маску на перцептивно равномерную частотную шкалу — Bark или ERB-rate — что даёт порядка 24–40 эффективных частотных полос в зависимости от целевой полосы пропускания. Временное разрешение аналогично снижается: значения маски, изменяющиеся между соседними кадрами менее чем на порог ЕЗМ (едва заметного модуляционного изменения), коллапсируются.

Помимо субдискретизации, психоакустическое маскирование обнуляет значения маски в тех частотно-временных ячейках, где соответствующий источник опускается ниже порога одновременного маскирования смеси. Эти ячейки не вносят вклада в воспринимаемое качество разделения — их передача бессмысленно расходует биты. Тот же принцип управляет распределением шума квантования по суббандам в MP3, разница лишь в том, что здесь он применяется к области масок, а не к области сигнала.

После прореживания векторы масок — как правило, один профиль частотных полос на аналитический кадр — квантуются по предобученному кодовому словарю. Обучение словаря выполняется методом k-средних или энкодером VQ-VAE, обученным на репрезентативных музыкальных корпусах. Эмпирически, 2–3 бита на коэффициент частотной полосы (4–8 уровней) — разумная отправная точка для размера VQ-словаря, однако адаптивное квантование для каждого трека — выбор размера словаря исходя из энергетического распределения конкретного материала — скорее всего обеспечит лучшее соотношение качество/бит. Это открытый вопрос в текущей спецификации.

Соседние кадры масок темпорально коррелированы, разностный сигнал

как правило близок к нулю для устойчивых тонов и мал при плавных переходах. Кодирование разности вместо абсолютного значения маски сокращает эффективный размер алфавита, что благоприятно для последующего сжатия кодированием Хаффмана или арифметическим кодированием. В совокупности с прореживанием и VQ-этапом ожидаемый битрейт потока масок для двух источников находится в диапазоне 4–16 кбит/с — накладные расходы, малые относительно 128+ кбит/с MP3-потока, хотя точные цифры требуют эмпирической проверки на реальных корпусах.

Интеграция LMSF в MP3‑поток

MP3 предоставляет два нативных механизма для хранения нестандартных данных. Ancillary Data занимает слоты битового резервуара в конце каждого MPEG-аудиофрейма и исторически использовалась для RDS-текста, метаданных громкости и задач водяной маркировки. Блоки ID3v2 GEOB (General Encapsulated Object) допускают произвольные бинарные полезные нагрузки в заголовке файла. LMSF задействует оба механизма: GEOB несёт блок инициализации (словарь, количество источников, параметры квантования, версию формата), тогда как поперфреймовые данные масок стримятся через Ancillary Data с интервалами, выровненными по фиксированному числу MPEG-фреймов (целевые логические блоки 100–200 мс).

Каждый логический блок LMSF содержит: индекс фрейма или временную метку для синхронизации при перемотке, сжатые дифференциальные данные масок для всех K источников, опциональные флаги грубой фазовой коррекции. Заголовок синхронизации при перемотке обязателен для стримингового использования: без него пользователь, перематывающий трек вперёд, не сможет восстановить корректный опорный кадр маски для дифференциального декодирования. Это известная точка отказа наивных схем дифференциального кодирования в стриминговых протоколах, она должна решаться периодическими сбросами на ключевой кадр — аналогично I-фреймам в видеокодеках.

Плееры без поддержки LMSF игнорируют неизвестные поля ID3v2 и неопределённое содержимое Ancillary Data в соответствии со спецификацией — обратная совместимость является структурным свойством формата, а не декларируемым достоинством [9].

Клиентская стадия декодирования

Конвейер декодирования на клиентской стороне включает три вычислительных этапа:

STFT-анализ текущего аудиобуфера — как правило, 1024–4096 сэмплов на фрейм с окном Ханна. При частоте дискретизации 44,1 кГц и перекрытии 50% это даёт порядка 43–172 спектральных кадров в секунду. Для большинства мобильных чипсетов FFT-нагрузка такого масштаба тривиальна.
Реконструкция маски — табличный поиск (целочисленный индекс → вектор с плавающей запятой), обратное дифференциальное предсказание (сложение с предыдущим кадром маски), частотная интерполяция обратно на полную сетку FFT — методом линейной или sinc-интерполяции.
Маскированное обратное STFT — поэлементное умножение спектра смеси на декодированную маску в комплексной области, затем синтез методом перекрытия с накоплением (overlap-add). Единственная потребность в памяти сверх аудиобуфера — текущий и предыдущий кадры маски, что пренебрежимо мало.

Суммарная нагрузка с плавающей запятой определяется STFT, а не декодированием маски. В этом и состоит суть подхода. Raspberry Pi 4 справляется с этим конвейером в реальном времени с запасом. Показательное сравнение — не «LMSF против локального Demucs»: здесь LMSF побеждает тривиально. Более трудный вопрос: конкурентоспособно ли качество масок LMSF по сравнению с дистиллированными лёгкими моделями — например, Conv-TasNet при 5M параметрах, — которые могут работать на современных смартфонах? Этот вопрос пока не имеет количественного ответа и представляет собой наиболее важную открытую задачу для последующих экспериментальных исследований.

Обсуждение и перспективы развития

Перенос вычислительной сложности на сервер является безусловным: оценка масок может использовать наилучший доступный нейросетевой сепаратор — например, HTDemucs, дообученный на закрытых студийных данных, — и ни один из этих параметров никогда не касается клиентского устройства. Ни один подход на основе дистилляции не даёт такой гарантии. Для правообладателей контента, располагающих стемами — стриминговых сервисов, звукозаписывающих студий, движков игрового аудио, — архитектура вписывается в существующий производственный конвейер без новых инструментов.

Совместимость формата с существующей инфраструктурой столь же реальна. Новый протокол стриминга не нужен: LMSF встраивается в контейнеры, с которыми уже работают все аудиоплееры.

Стемы должны быть доступны на этапе подготовки контента. Это исключает большую часть каталогового аудио, а также любой живой или пользовательский контент. Подход принципиально является форматом дистрибуции, а не универсальным сепаратором — различие, которое стоит обозначить раньше и чётче.

Агрессивное квантование масок порождает артефакты, концентрирующиеся в перцептивно чувствительных зонах: атаки транзиентов, вокал с обилием согласных, плотные гармонические пассажи струнных. Психоакустическая модель прореживания (раздел 4.1) призвана смягчить эту проблему, однако степень смягчения не валидирована. Характеризация артефактов квантования — обязательное условие для любой дискуссии о стандартизации.

Формату также необходим организационный «дом». LMSF в представленном виде — самостоятельное предложение, его принятие в реальных продуктах требует согласования с MPEG или аналогичным органом — нетривиальный процесс, из-за которого более сильные технические предложения уже не один раз оставались нереализованными.

Кодирование масок на основе VQ-VAE — наиболее технически перспективное расширение. Вместо прямого квантования IRM-приближений энкодер VQ-VAE проецирует кадры масок в дискретное латентное пространство, обученное под критерий перцептивного качества реконструкции — аналогично тому, как Encodec решает задачу кодирования формы волны. Кодовый словарь становится адаптивным к контенту без необходимости переобучения для каждого трека.

Сопряжение с MPEG-D SAOC заслуживает большего, чем простое упоминание: гибридный формат, использующий параметры объектов SAOC для грубого пространственного размещения и маски LMSF для точного спектрального разделения внутри каждого объекта, стал бы подлинно новой комбинацией. Однако его проектирование требует разрешения нетривиальных коллизий между допущениями о частотном разрешении в двух кодирующих фреймворках [2; 7]. Это — настоящая исследовательская задача, а не строчка в списке будущих работ.

Заключение

Предложенная архитектура LMSF переносит вычислительную нагрузку туда, где она органична — на этап подготовки контента, когда стемы доступны, время не ограничено и можно задействовать модели любой сложности. Клиентское устройство при этом получает не задачу разделения, а её решение в компактной форме: несколько килобит накладных расходов на секунду аудио против полного нейросетевого инференс-стека.

Формат специфицирован на уровне интеграции достаточно конкретно, чтобы служить основой для реализации: механизмы упаковки в MPEG Ancillary Data и ID3v2 GEOB, синхронизация через ключевые кадры, трёхэтапный конвейер сжатия. На уровне параметров сжатия — размер словаря, пороги психоакустического прореживания, целевой битрейт — спецификация остаётся открытой, и это честная позиция: без измерений на реальных корпусах фиксировать эти цифры преждевременно.

Главное нерешённое практическое препятствие — не техническое, а контентное: метод работает только там, где стемы существуют и доступны. Для большей части каталогового аудио это условие не выполняется. Сужение сферы применения стоит воспринимать не как недостаток, а как честную формулировку задачи: LMSF — формат дистрибуции для структурированного контента, а не универсальный сепаратор.

Список литературы:

Maldonado A., Rascón C. Lightweight Online Separation of the Sound Source for Computational Auditory Scene Analysis and Robot Audition // International Journal of Advanced Engineering Research and Science. – 2020. – Vol. 7, No. 8. – URL: http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462020000301257 (дата обращения: 10.12.2025).
MPEG-D: Spatial Audio Object Coding (SAOC) – Standards – MPEG // Официальный сайт MPEG. – 2015. – 26 Oct. – URL: https://www.mpeg.org/standards/MPEG-D/2/ (дата обращения: 10.12.2025).
Maldonado A., Rascón C., et al. Onset-informed Source Separation using Non-negative Matrix Factorisation and Spectral Masks // Proceedings of the 23rd International Conference on Digital Audio Effects (DAFx‑20). – Vienna, 2020. – URL: https://dafx2020.mdw.ac.at/proceedings/papers/DAFx2020_paper_29.pdf (дата обращения: 10.12.2025).
Liutkus A., Daudet L., Richard G. Informed Source Separation using Latent Components* // 11th International Conference on Independent Component Analysis and Signal Separation (ICA). – 2013. – URL: https://perso.telecom-paristech.fr/grichard/Publications/ICA_Liutkus.pdf (дата обращения: 10.12.2025).
Liutkus A., Stöter F.-R., et al. The 2018 Signal Separation Evaluation Campaign // ArXiv preprint. – 2022. – arXiv:2110.05059. – URL: https://arxiv.org/pdf/2110.05059.pdf (дата обращения: 10.12.2025).
Fourer D., et al. Informed Spectral Analysis for Isolated Audio Source // IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). – 2011. – URL: https://fourer.fr/publi/WASPAA11/waspaa11-fourer.pdf (дата обращения: 10.12.2025).
Spatial Audio Object Coding (SAOC) // Официальный сайт MPEG (архив Ч. Чиарильоне). – URL: https://mpeg.chiariglione.org/standards/mpeg-d/spatial-audio-object-coding.html (дата обращения: 10.12.2025).
Röder T., Ewert S., Müller M., et al. NMF-based Informed Source Separation // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2016. – URL: https://www.ient.rwth-aachen.de/cms/uploads/public/audio/icassp16/robewi16.pdf (дата обращения: 10.12.2025).
Real-time Audio Source Separation using a Time-frequency Masking Algorithm: пат. US 10014002 B2. – Заявл. 23.10.2017. – URL: https://patents.google.com/patent/US10014002B2/en (дата обращения: 10.12.2025).