Статья опубликована в рамках: CLVI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 04 декабря 2025 г.)
Наука: Информационные технологии
Скачать книгу(-и): Скачать книгу
ИНЖЕНЕРНАЯ ОПТИМИЗАЦИЯ ЛЕГКОВЕСНЫХ АРХИТЕКТУР ДЛЯ ЛОКАЛЬНОЙ АУДИОСЕПАРАЦИИ НА EDGE-ПЛАТФОРМАХ
ENGINEERING OPTIMIZATION OF LIGHTWEIGHT ARCHITECTURES FOR LOCAL AUDIO SEPARATION ON EDGE PLATFORMS
Malinchyk Mikita Sergeyevich
Master's student, Department of Modern Programming Technologies, Yanka Kupala State University of Grodno,
Belarus, Grodno
Statkevich Sviataslau Eduardovich
Scientific supervisor, Candidate of Physical and Mathematical Sciences, Assoc., Yanka Kupala State University of Grodno,
Belarus, Grodno
АННОТАЦИЯ
Развитие методов локальной обработки аудиосигналов для мобильных и edge-устройств требует разработки архитектур с минимальными вычислительными затратами и объёмом памяти. Данная работа представляет систематический анализ основных подходов к инженерной оптимизации легковесных моделей для аудиосепарации, включая архитектурные модификации (Tiny Conv-TasNet, Band-Split RNN, Lite U-Net) и методы компрессии (pruning, quantization, knowledge distillation). Показано, что применение комплексных оптимизационных стратегий позволяет достичь баланса между качеством разделения и ресурсной эффективностью на устройствах с ограниченными вычислительными возможностями. Предложены направления развития, включающие автоматизацию архитектурного поиска и стандартизацию процедур воспроизводимости.
ABSTRACT
The development of local audio signal processing methods for mobile and edge devices requires the development of architectures with minimal computational costs and memory requirements. This work presents a systematic analysis of the main approaches to the engineering optimization of lightweight models for audio separation, including architectural modifications (Tiny Conv-TasNet, Band-Split RNN, Lite U-Net) and compression methods (pruning, quantization, knowledge distillation). It is shown that the use of comprehensive optimization strategies allows achieving a balance between separation quality and resource efficiency on devices with limited computing capabilities. Development directions are proposed, including automation of architectural search and standardization of reproducibility procedures.
Ключевые слова: аудиосепарация, edge-устройства, легковесные нейросети, Conv-TasNet, Band-Split RNN, Lite U-Net, pruning, quantization, knowledge distillation, Neural Architecture Search (NAS), метрики SDRi, SI-SNRi, real-time обработка, мобильные системы, оптимизация ресурсов, AutoML, воспроизводимость, бенчмаркинг.
Keywords: audio separation, edge devices, lightweight neural networks, Conv-TasNet, Band-Split RNN, Lite U-Net, pruning, quantization, knowledge distillation, Neural Architecture Search (NAS), SDRi metrics, SI-SNRi, real-time processing, mobile systems, resource optimization, AutoML, reproducibility, benchmarking.
Введение
Аудиосепарация – задача выделения отдельных источников звука из смешанного акустического сигнала, приобретает значительное практическое значение в условиях развития портативных вычислительных устройств и систем реального времени. Граница между централизованной облачной обработкой и локальной обработкой на edge-устройствах смещается в сторону последней благодаря требованиям к минимизации задержки, приватности данных и автономности функционирования. Вместе с тем, аппаратные ограничения мобильных платформ, такие как ограниченный объём оперативной памяти, неглубокий конвейер команд процессора, энергетические ограничения, предъявляют жёсткие требования к разработке алгоритмических решений.
Характеризуя современное состояние области, следует отметить существенное отличие от классических подходов (NMF, ICA), которые хотя и обладают интерпретируемостью, не обеспечивают достаточного качества разделения в условиях реальной акустической вариативности. Архитектуры глубокого обучения, напротив, демонстрируют значительное улучшение по метрикам разделения (SDRi, SI-SNRi), однако требуют адаптации под constraints edge-платформ.
Основная цель данной работы – структурировать современные подходы к инженерной оптимизации легковесных моделей, выявить их технические особенности и методические взаимосвязи, а также определить критические точки для развития систем аудиосепарации на ограниченных платформах.
Архитектурные основы легковесных решений
Легковесные архитектуры для аудиосепарации разрабатываются согласно определённым инженерным принципам: минимизация параметров при сохранении способности моделировать долгосрочные зависимости сигнала, ограничение глубины и числа фильтров, использование специализированных операций (depthwise separable convolutions). Среди наиболее применимых решений выделяют: Tiny Conv-TasNet, Band-Split RNN и Lite U-Net архитектуры.
Архитектура Tiny Conv-TasNet основана на принципах временной свёртки и отказывается от явных спектральных преобразований. Модель состоит из трёх основных блоков: линейный энкодер, блок разделения (separation module) на основе TCN (Temporal Convolutional Network) и линейный декодер.
Ключевые оптимизационные приёмы включают:
- использование depthwise separable convolutions вместо стандартных свёрток;
- минимизацию числа каналов в encode/decode слоях (8–16 каналов вместо 32–64);
- сокращение skip-коннектов и глубины TCN-блоков (обычно 1–2 слоя).
Операция временной свёртки может быть формализована в виде (1):
(1)
где «
» свёрточная операция,
— параметры bottleneck-слоёв.
Типичные характеристики: размер модели 0.5–2 МБ, latency 50–70 мс на ARM-процессорах, качество разделения (SDRi) 3–5 дB [1, c. 1257].
Band-Split RNN архитектура строится на идее разделения входного спектра на независимые частотные диапазоны с параллельной обработкой в каждом (2). Такой подход позволяет адаптировать обработку под различные спектральные компоненты сигнала и значительно снизить вычислительные затраты.
Алгоритм работает следующим образом:
- Входной сигнал разбивается на диапазоны, например: 0–2 кГц, 2–8 кГц, 8–16 кГц и выше.
- Для каждой полосы применяется компактная RNN (1–2 слоя GRU или LSTM с 32–64 нейронами).
- Выходные сигналы объединяются через маскирующие механизмы или сумматоры.
Формально, для полосы
:
(2)
где
— входной сигнал в полосе
,
— скрытое состояние.
Преимущества: параллелизм обработки, адаптивность к спектральной структуре, типичный размер 1–2 МБ, latency 60–90 мс, SDRi 2.5–4 дB [1, c. 1258].
Lite U-Net — модификация стандартной U-Net архитектуры, оптимизированная для работы в условиях ограниченного объёма памяти. Основные преобразования включают:
- редукцию числа фильтров во всех слоях (4–16 вместо 32–64 и выше);
- использование depthwise separable convolutions в encoder-части;
- применение лёгких transposed convolutions в decoder-части;
- агрессивное downsampling/pooling (2–3 уровня вместо 4–6).
Операция encoder/decoder-блока может быть описана как функция (3):
(3)
где DWConv — depthwise convolution.
Характеристики: размер 1–2 МБ, latency 80–120 мс, требуемая RAM 20–45 МБ, SDRi 2–4 дB.
Таблица 1.
Сравнительные характеристики легковесных архитектур
|
Архитектура |
Размер |
Latency |
Тип блоков |
Оптимизация |
|
Tiny Conv-TasNet |
0.5–2 МБ |
~50–70 мс |
Depthwise Conv1D |
Bottleneck, Min-Skip |
|
Band-Split RNN |
1–2 МБ |
~60–90 мс |
GRU/LSTM, Band Splitting |
Параллелизм по полосам |
|
Lite U-Net |
1–2 МБ |
~80–120 мс |
DWConv, Lightweight Decoder |
Агрессивный Downsampling |
Анализ показывает, что Tiny Conv-TasNet обеспечивает оптимальное соотношение latency и компактности, Band-Split RNN лучше адаптирует обработку под спектральные особенности, а Lite U-Net обладает большей гибкостью в выборе глубины encoder/decoder, но при повышенных требованиях к памяти.
Методы инженерной оптимизации
Инженерная оптимизация легковесных архитектур определяется совокупностью ключевых метрик: вычислительная сложность (FLOPs), число параметров, объём памяти (RAM), латентность, энергопотребление, реализуемость на целевой аппаратной платформе.
Для достижения баланса между качеством и ресурсной эффективностью применяется комплекс методов, каждый из которых решает определённый аспект оптимизации.
Pruning заключается в удалении весов или фильтров с малой важностью (4). Формально, связи удаляются, если:
(4)
где
— заданный порог чувствительности.
Практическое применение показывает, что структурированное pruning (удаление целых фильтров или каналов) более эффективно для edge-устройств, так как не требует специализированного аппаратного обеспечения. Типичный результат: сокращение размера на 20–70%, потеря качества не превышает 0.3 дB SDRi.
Quantization заменяет float32-арифметику на int8 или float16, значительно снижая требования к памяти и ускоряя вычисления. Стандартная процедура линейного квантования (5):
(5)
где
— шаг квантования (6), определяемый как:
(6)
— целевая битность (обычно 8).
Эффект: сокращение памяти на 30–75%, ускорение инференса на 30–100%, потеря качества не превышает 0.2 дB SDRi при правильной калибровке [2, с. 123].
Knowledge Distillation — процесс обучения компактной “ученика”-модели по выходам сложной “учителя”-модели. Согласно современным подходам дистилляции, лосс-функция (7) структурируется как:
(7)
где
— стандартный лосс на целевых значениях,
— лосс по выходам учителя,
— вес балансировки (обычно 0.3–0.5).
Дистилляция позволяет сохранить значительную часть качества при радикальной компактности модели: сокращение размера на 40–90%, потеря качества не превышает 0.5 дB SDRi [2, с. 130].
Band-splitting — техника разделения сигнала на независимые спектральные диапазоны (8):
(8)
где
— диапазон
,
— функция обработки (в данном случае компактная RNN или свёрка).
Замена тяжёлых операций на depthwise separable convolutions снижает число параметров в
раз для
-канального входа (9):
(9)
где
— пространственные размеры,
— размер ядра.
NAS — методология автоматического поиска оптимальной архитектурной конфигурации под специфические аппаратные ограничения. Основные подходы включают:
- Gradient-based (DARTS, ProxylessNAS): трансформация дискретного поиска в непрерывную оптимизацию;
- Evolutionary Algorithms: эволюционный поиск с отбором успешных конфигураций;
- Bayesian Optimization: вероятностные методы с адаптивным выбором кандидатов;
- One-Shot NAS: обучение супернейросети, содержащей все возможные подархитектуры.
NAS способен выявить архитектурные конфигурации, превосходящие “ручные” решения благодаря подгонке под специфические ограничения платформы: типичное сокращение FLOPs на 50% и выше.
Таблица 2.
Сравнительная эффективность методов оптимизации
|
Метод |
Сокращение размера |
Ускорение |
Потеря качества |
Оборудование |
|
Pruning |
20–70% |
20–60% |
≤ 0.3 dB SDRi |
Универсальный |
|
Quantization |
30–75% |
30–100% |
≤ 0.2 dB SDRi |
ARM/MCU |
|
Distillation |
40–90% |
20–80% |
≤ 0.5 dB SDRi |
Универсальный |
|
Band-Splitting |
15–40% |
20–60% |
≤ 0.4 dB SDRi |
Универсальный |
|
NAS |
∼50%+ |
∼50%+ |
Разное |
Универсальный |
Практическое применение и оценка
Оценка качества аудиосепарации производится через стандартизированные метрики. Signal-to-Distortion Ratio (SDRi) (10) определяется как:
(10)
где
— помехи от других источников,
— шумовая компонента,
— артефакты алгоритма.
Scale-Invariant Signal-to-Noise Ratio (SI-SNR) описывается следующей формулой (11):
(11)
где
— оптимальный масштабный коэффициент.
Требования к edge- и мобильным решениям формулируются как комплекс ограничений:
- Latency: не более 100 мс для real-time обработки;
- Размер модели: 1–5 МБ для хранения на устройстве;
- Оперативная память: 10–50 МБ в зависимости от архитектуры;
- Энергопотребление: минимальный прирост потребления батареи устройства;
- Вычислительная сложность: не более 100–500 МДж на один инстанс обработки.
Даже небольшое превышение этих порогов делает модель непригодной для реальной эксплуатации на массовых мобильных платформах.
Верификация архитектур производится на стандартизированных датасетах:
MUSDB18 — 150 многоинструментальных композиций с раздельными стемами (вокал, барабаны, бас, остальное);
WSJ0-2mix — 30 часов смешанной речи двух дикторов;
WHAM! — 140 часов реверберированных и зашумленных смесей речи.
Требование к воспроизводимости включает: открытый исходный код, явная спецификация числа параметров, точное описание процедуры тестирования, публикация конфигураций моделей и обучающих скриптов.
Сравнительный анализ и перспективы развития
Сводная таблица характеристик легковесных архитектур
|
Архитектура |
Размер |
Latency |
RAM |
SDRi (тип.) |
Особенности |
|
Tiny Conv-TasNet |
0.5–2 МБ |
50–70 мс |
10–30 МБ |
3–5 dB |
Оптимальная latency |
|
Band-Split RNN |
1–2 МБ |
60–90 мс |
15–40 МБ |
2.5–4 dB |
Спектральный параллелизм |
|
Lite U-Net |
1–2 МБ |
80–120 мс |
20–45 МБ |
2–4 dB |
Гибкая архитектура |
Результаты анализа показывают, что каждая архитектура обладает выраженным профилем оптимизации. Tiny Conv-TasNet демонстрирует минимальную latency и хорошо масштабируется на мобильных ARM-процессорах. Band-Split RNN удобен для портативных микрофонных систем благодаря частотному разделению. Lite U-Net обеспечивает большую гибкость, но требует больших объёмов памяти.
Несмотря на достигнутый прогресс, остаются критические методологические вызовы:
- Универсальность: как обеспечить портативность архитектур без индивидуальной оптимизации под каждое устройство?
- Воспроизводимость: необходимо стандартизировать процедуры тестирования, установить единые скрипты валидации, обеспечить открытый доступ к конфигурациям моделей.
- Автоматизация поиска: интеграция AutoML и NAS методологий для подгонки архитектур под специфические аппаратные ограничения.
- Гибридные подходы: совмещение band-splitting с quantization и pruning для преодоления естественного trade-off между качеством и размером.
- Индустриальное применение: необходимы open-source пайплайны разработки, открытые спецификации внедрения и унифицированные протоколы интеграции для ускорения переноса разработок из академии в массовые продукты.
Перспективное развитие области должно быть сосредоточено на:
- создании self-adaptive архитектур, способных динамически адаптировать структуру к доступным ресурсам устройства;
- развёртывании воспроизводимых испытательных стендов с открытой инфраструктурой для объективного сравнения решений;
- разработке унифицированных метрик оценки (не только SDRi/SI-SNRi, но и energy efficiency, latency predictability);
- интеграции методов continual learning для адаптации моделей к новым акустическим условиям без переобучения на полном датасете.
Заключение
Инженерная оптимизация легковесных архитектур для локальной аудиосепарации является критически значимым направлением развития интеллектуальных аудиосистем для edge- и мобильных платформ. Комплексное применение архитектурных модификаций (Tiny Conv-TasNet, Band-Split RNN, Lite U-Net) и методов компрессии (pruning, quantization, knowledge distillation, NAS) позволяет добиваться существенного снижения вычислительных затрат без критичного ущерба для качества разделения.
Достигнутый баланс между качеством и ресурсной эффективностью открывает возможности для развёртывания высокопроизводительных аудиосистем на устройствах с минимальными ресурсами. Однако реализация полного потенциала требует дальнейшей стандартизации процедур воспроизводимости, развития методов автоматического поиска архитектур и расширения спектра применяемых метрик оценки.
Практическое внедрение таких решений в массовые продукты требует не только совершенствования алгоритмических методов, но и развития открытой инфраструктуры тестирования, создания унифицированных пайплайнов разработки и обеспечения доступности инструментов для исследователей и инженеров. Это составляет центральную задачу системной инженерии в области аудиосепарации для edge-систем на текущем этапе развития.
Список литературы:
- Luo Yi, Mesgarani Nima. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2019. – Vol. 27, №8. – P. 1256–1266. – DOI: 10.1109/TASLP.2019.2915167.
- Lan X., Zhai Y., Liu P., Wang Y. Counterclockwise block-by-block knowledge distillation for lightweight neural networks // Nature Machine Intelligence. – 2025. – Vol. 7. – P. 123–135.


Оставить комментарий