Поздравляем с Новым Годом!
   
Телефон: 8-800-350-22-65
Напишите нам:
WhatsApp:
Telegram:
MAX:
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CLVI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 04 декабря 2025 г.)

Наука: Информационные технологии

Скачать книгу(-и): Скачать книгу

Библиографическое описание:
Малинчик Н.С. ИНЖЕНЕРНАЯ ОПТИМИЗАЦИЯ ЛЕГКОВЕСНЫХ АРХИТЕКТУР ДЛЯ ЛОКАЛЬНОЙ АУДИОСЕПАРАЦИИ НА EDGE-ПЛАТФОРМАХ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CLVI междунар. студ. науч.-практ. конф. № 12(154). URL: https://sibac.info/archive/technic/12(154).pdf (дата обращения: 28.12.2025)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
Диплом Выбор редакционной коллегии

ИНЖЕНЕРНАЯ ОПТИМИЗАЦИЯ ЛЕГКОВЕСНЫХ АРХИТЕКТУР ДЛЯ ЛОКАЛЬНОЙ АУДИОСЕПАРАЦИИ НА EDGE-ПЛАТФОРМАХ

Малинчик Никита Сергеевич

магистрант, кафедра современных технологий программирования, Гродненский государственный университет имени Янки Купалы,

РБ, г. Гродно

Статкевич Святослав Эдуардович

научный руководитель,

канд. физ.-мат. наук, доц., Гродненский государственный университет имени Янки Купалы,

РБ, г. Гродно

ENGINEERING OPTIMIZATION OF LIGHTWEIGHT ARCHITECTURES FOR LOCAL AUDIO SEPARATION ON EDGE PLATFORMS

 

Malinchyk Mikita Sergeyevich

Master's student, Department of Modern Programming Technologies, Yanka Kupala State University of Grodno,

Belarus, Grodno

Statkevich Sviataslau Eduardovich

Scientific supervisor, Candidate of Physical and Mathematical Sciences, Assoc., Yanka Kupala State University of Grodno,

Belarus, Grodno

 

АННОТАЦИЯ

Развитие методов локальной обработки аудиосигналов для мобильных и edge-устройств требует разработки архитектур с минимальными вычислительными затратами и объёмом памяти. Данная работа представляет систематический анализ основных подходов к инженерной оптимизации легковесных моделей для аудиосепарации, включая архитектурные модификации (Tiny Conv-TasNet, Band-Split RNN, Lite U-Net) и методы компрессии (pruning, quantization, knowledge distillation). Показано, что применение комплексных оптимизационных стратегий позволяет достичь баланса между качеством разделения и ресурсной эффективностью на устройствах с ограниченными вычислительными возможностями. Предложены направления развития, включающие автоматизацию архитектурного поиска и стандартизацию процедур воспроизводимости.

ABSTRACT

The development of local audio signal processing methods for mobile and edge devices requires the development of architectures with minimal computational costs and memory requirements. This work presents a systematic analysis of the main approaches to the engineering optimization of lightweight models for audio separation, including architectural modifications (Tiny Conv-TasNet, Band-Split RNN, Lite U-Net) and compression methods (pruning, quantization, knowledge distillation). It is shown that the use of comprehensive optimization strategies allows achieving a balance between separation quality and resource efficiency on devices with limited computing capabilities. Development directions are proposed, including automation of architectural search and standardization of reproducibility procedures.

 

Ключевые слова: аудиосепарация, edge-устройства, легковесные нейросети, Conv-TasNet, Band-Split RNN, Lite U-Net, pruning, quantization, knowledge distillation, Neural Architecture Search (NAS), метрики SDRi, SI-SNRi, real-time обработка, мобильные системы, оптимизация ресурсов, AutoML, воспроизводимость, бенчмаркинг.

Keywords: audio separation, edge devices, lightweight neural networks, Conv-TasNet, Band-Split RNN, Lite U-Net, pruning, quantization, knowledge distillation, Neural Architecture Search (NAS), SDRi metrics, SI-SNRi, real-time processing, mobile systems, resource optimization, AutoML, reproducibility, benchmarking.

 

Введение

Аудиосепарация – задача выделения отдельных источников звука из смешанного акустического сигнала, приобретает значительное практическое значение в условиях развития портативных вычислительных устройств и систем реального времени. Граница между централизованной облачной обработкой и локальной обработкой на edge-устройствах смещается в сторону последней благодаря требованиям к минимизации задержки, приватности данных и автономности функционирования. Вместе с тем, аппаратные ограничения мобильных платформ, такие как ограниченный объём оперативной памяти, неглубокий конвейер команд процессора, энергетические ограничения, предъявляют жёсткие требования к разработке алгоритмических решений.

Характеризуя современное состояние области, следует отметить существенное отличие от классических подходов (NMF, ICA), которые хотя и обладают интерпретируемостью, не обеспечивают достаточного качества разделения в условиях реальной акустической вариативности. Архитектуры глубокого обучения, напротив, демонстрируют значительное улучшение по метрикам разделения (SDRi, SI-SNRi), однако требуют адаптации под constraints edge-платформ.

Основная цель данной работы – структурировать современные подходы к инженерной оптимизации легковесных моделей, выявить их технические особенности и методические взаимосвязи, а также определить критические точки для развития систем аудиосепарации на ограниченных платформах.

Архитектурные основы легковесных решений

Легковесные архитектуры для аудиосепарации разрабатываются согласно определённым инженерным принципам: минимизация параметров при сохранении способности моделировать долгосрочные зависимости сигнала, ограничение глубины и числа фильтров, использование специализированных операций (depthwise separable convolutions). Среди наиболее применимых решений выделяют: Tiny Conv-TasNet, Band-Split RNN и Lite U-Net архитектуры.

Архитектура Tiny Conv-TasNet основана на принципах временной свёртки и отказывается от явных спектральных преобразований. Модель состоит из трёх основных блоков: линейный энкодер, блок разделения (separation module) на основе TCN (Temporal Convolutional Network) и линейный декодер.

Ключевые оптимизационные приёмы включают:

  • использование depthwise separable convolutions вместо стандартных свёрток;
  • минимизацию числа каналов в encode/decode слоях (8–16 каналов вместо 32–64);
  • сокращение skip-коннектов и глубины TCN-блоков (обычно 1–2 слоя).

Операция временной свёртки может быть формализована в виде (1):

                                                                  (1)

где «» свёрточная операция,  — параметры bottleneck-слоёв.

Типичные характеристики: размер модели 0.5–2 МБ, latency 50–70 мс на ARM-процессорах, качество разделения (SDRi) 3–5 дB [1, c. 1257].

Band-Split RNN архитектура строится на идее разделения входного спектра на независимые частотные диапазоны с параллельной обработкой в каждом (2). Такой подход позволяет адаптировать обработку под различные спектральные компоненты сигнала и значительно снизить вычислительные затраты.

Алгоритм работает следующим образом:

  1. Входной сигнал разбивается на диапазоны, например: 0–2 кГц, 2–8 кГц, 8–16 кГц и выше.
  2. Для каждой полосы применяется компактная RNN (1–2 слоя GRU или LSTM с 32–64 нейронами).
  3. Выходные сигналы объединяются через маскирующие механизмы или сумматоры.

Формально, для полосы :

                                                                             (2)

где  — входной сигнал в полосе ,  — скрытое состояние.

Преимущества: параллелизм обработки, адаптивность к спектральной структуре, типичный размер 1–2 МБ, latency 60–90 мс, SDRi 2.5–4 дB [1, c. 1258].

Lite U-Net — модификация стандартной U-Net архитектуры, оптимизированная для работы в условиях ограниченного объёма памяти. Основные преобразования включают:

  • редукцию числа фильтров во всех слоях (4–16 вместо 32–64 и выше);
  • использование depthwise separable convolutions в encoder-части;
  • применение лёгких transposed convolutions в decoder-части;
  • агрессивное downsampling/pooling (2–3 уровня вместо 4–6).

Операция encoder/decoder-блока может быть описана как функция (3):

                                                                      (3)

где DWConv — depthwise convolution.

Характеристики: размер 1–2 МБ, latency 80–120 мс, требуемая RAM 20–45 МБ, SDRi 2–4 дB.

Таблица 1.

Сравнительные характеристики легковесных архитектур

Архитектура

Размер

Latency

Тип блоков

Оптимизация

Tiny Conv-TasNet

0.5–2 МБ

~50–70 мс

Depthwise Conv1D

Bottleneck, Min-Skip

Band-Split RNN

1–2 МБ

~60–90 мс

GRU/LSTM, Band Splitting

Параллелизм по полосам

Lite U-Net

1–2 МБ

~80–120 мс

DWConv, Lightweight Decoder

Агрессивный Downsampling

 

Анализ показывает, что Tiny Conv-TasNet обеспечивает оптимальное соотношение latency и компактности, Band-Split RNN лучше адаптирует обработку под спектральные особенности, а Lite U-Net обладает большей гибкостью в выборе глубины encoder/decoder, но при повышенных требованиях к памяти.

Методы инженерной оптимизации

Инженерная оптимизация легковесных архитектур определяется совокупностью ключевых метрик: вычислительная сложность (FLOPs), число параметров, объём памяти (RAM), латентность, энергопотребление, реализуемость на целевой аппаратной платформе.

Для достижения баланса между качеством и ресурсной эффективностью применяется комплекс методов, каждый из которых решает определённый аспект оптимизации.

Pruning заключается в удалении весов или фильтров с малой важностью (4). Формально, связи удаляются, если:

                                                                                                  (4)

где  — заданный порог чувствительности.

Практическое применение показывает, что структурированное pruning (удаление целых фильтров или каналов) более эффективно для edge-устройств, так как не требует специализированного аппаратного обеспечения. Типичный результат: сокращение размера на 20–70%, потеря качества не превышает 0.3 дB SDRi.

Quantization заменяет float32-арифметику на int8 или float16, значительно снижая требования к памяти и ускоряя вычисления. Стандартная процедура линейного квантования (5):

                                                                                  (5)

где  — шаг квантования (6), определяемый как:

                                                                                  (6)

 — целевая битность (обычно 8).

Эффект: сокращение памяти на 30–75%, ускорение инференса на 30–100%, потеря качества не превышает 0.2 дB SDRi при правильной калибровке [2, с. 123].

Knowledge Distillation — процесс обучения компактной “ученика”-модели по выходам сложной “учителя”-модели. Согласно современным подходам дистилляции, лосс-функция (7) структурируется как:

                                                                              (7)

где  — стандартный лосс на целевых значениях,  — лосс по выходам учителя,  — вес балансировки (обычно 0.3–0.5).

Дистилляция позволяет сохранить значительную часть качества при радикальной компактности модели: сокращение размера на 40–90%, потеря качества не превышает 0.5 дB SDRi [2, с. 130].

Band-splitting — техника разделения сигнала на независимые спектральные диапазоны (8):

                                                                         (8)

где  — диапазон ,  — функция обработки (в данном случае компактная RNN или свёрка).

Замена тяжёлых операций на depthwise separable convolutions снижает число параметров в  раз для -канального входа (9):

                                    (9)

где  — пространственные размеры,  — размер ядра.

NAS — методология автоматического поиска оптимальной архитектурной конфигурации под специфические аппаратные ограничения. Основные подходы включают:

  • Gradient-based (DARTS, ProxylessNAS): трансформация дискретного поиска в непрерывную оптимизацию;
  • Evolutionary Algorithms: эволюционный поиск с отбором успешных конфигураций;
  • Bayesian Optimization: вероятностные методы с адаптивным выбором кандидатов;
  • One-Shot NAS: обучение супернейросети, содержащей все возможные подархитектуры.

NAS способен выявить архитектурные конфигурации, превосходящие “ручные” решения благодаря подгонке под специфические ограничения платформы: типичное сокращение FLOPs на 50% и выше.

Таблица 2.

Сравнительная эффективность методов оптимизации

Метод

Сокращение размера

Ускорение

Потеря качества

Оборудование

Pruning

20–70%

20–60%

≤ 0.3 dB SDRi

Универсальный

Quantization

30–75%

30–100%

≤ 0.2 dB SDRi

ARM/MCU

Distillation

40–90%

20–80%

≤ 0.5 dB SDRi

Универсальный

Band-Splitting

15–40%

20–60%

≤ 0.4 dB SDRi

Универсальный

NAS

∼50%+

∼50%+

Разное

Универсальный

 

Практическое применение и оценка

Оценка качества аудиосепарации производится через стандартизированные метрики. Signal-to-Distortion Ratio (SDRi) (10) определяется как:

                                                                 (10)

где  — помехи от других источников,  — шумовая компонента,  — артефакты алгоритма.

Scale-Invariant Signal-to-Noise Ratio (SI-SNR) описывается следующей формулой (11):

                                                                   (11)

где  — оптимальный масштабный коэффициент.

Требования к edge- и мобильным решениям формулируются как комплекс ограничений:

  • Latency: не более 100 мс для real-time обработки;
  • Размер модели: 1–5 МБ для хранения на устройстве;
  • Оперативная память: 10–50 МБ в зависимости от архитектуры;
  • Энергопотребление: минимальный прирост потребления батареи устройства;
  • Вычислительная сложность: не более 100–500 МДж на один инстанс обработки.

Даже небольшое превышение этих порогов делает модель непригодной для реальной эксплуатации на массовых мобильных платформах.

Верификация архитектур производится на стандартизированных датасетах:

MUSDB18 — 150 многоинструментальных композиций с раздельными стемами (вокал, барабаны, бас, остальное);

WSJ0-2mix — 30 часов смешанной речи двух дикторов;

WHAM! — 140 часов реверберированных и зашумленных смесей речи.

Требование к воспроизводимости включает: открытый исходный код, явная спецификация числа параметров, точное описание процедуры тестирования, публикация конфигураций моделей и обучающих скриптов.

Сравнительный анализ и перспективы развития

Таблица 3.

Сводная таблица характеристик легковесных архитектур

Архитектура

Размер

Latency

RAM

SDRi (тип.)

Особенности

Tiny Conv-TasNet

0.5–2 МБ

50–70 мс

10–30 МБ

3–5 dB

Оптимальная latency

Band-Split RNN

1–2 МБ

60–90 мс

15–40 МБ

2.5–4 dB

Спектральный параллелизм

Lite U-Net

1–2 МБ

80–120 мс

20–45 МБ

2–4 dB

Гибкая архитектура

 

Результаты анализа показывают, что каждая архитектура обладает выраженным профилем оптимизации. Tiny Conv-TasNet демонстрирует минимальную latency и хорошо масштабируется на мобильных ARM-процессорах. Band-Split RNN удобен для портативных микрофонных систем благодаря частотному разделению. Lite U-Net обеспечивает большую гибкость, но требует больших объёмов памяти.

Несмотря на достигнутый прогресс, остаются критические методологические вызовы:

  1. Универсальность: как обеспечить портативность архитектур без индивидуальной оптимизации под каждое устройство?
  2. Воспроизводимость: необходимо стандартизировать процедуры тестирования, установить единые скрипты валидации, обеспечить открытый доступ к конфигурациям моделей.
  3. Автоматизация поиска: интеграция AutoML и NAS методологий для подгонки архитектур под специфические аппаратные ограничения.
  4. Гибридные подходы: совмещение band-splitting с quantization и pruning для преодоления естественного trade-off между качеством и размером.
  5. Индустриальное применение: необходимы open-source пайплайны разработки, открытые спецификации внедрения и унифицированные протоколы интеграции для ускорения переноса разработок из академии в массовые продукты.

Перспективное развитие области должно быть сосредоточено на:

  • создании self-adaptive архитектур, способных динамически адаптировать структуру к доступным ресурсам устройства;
  • развёртывании воспроизводимых испытательных стендов с открытой инфраструктурой для объективного сравнения решений;
  • разработке унифицированных метрик оценки (не только SDRi/SI-SNRi, но и energy efficiency, latency predictability);
  • интеграции методов continual learning для адаптации моделей к новым акустическим условиям без переобучения на полном датасете.

Заключение

Инженерная оптимизация легковесных архитектур для локальной аудиосепарации является критически значимым направлением развития интеллектуальных аудиосистем для edge- и мобильных платформ. Комплексное применение архитектурных модификаций (Tiny Conv-TasNet, Band-Split RNN, Lite U-Net) и методов компрессии (pruning, quantization, knowledge distillation, NAS) позволяет добиваться существенного снижения вычислительных затрат без критичного ущерба для качества разделения.

Достигнутый баланс между качеством и ресурсной эффективностью открывает возможности для развёртывания высокопроизводительных аудиосистем на устройствах с минимальными ресурсами. Однако реализация полного потенциала требует дальнейшей стандартизации процедур воспроизводимости, развития методов автоматического поиска архитектур и расширения спектра применяемых метрик оценки.

Практическое внедрение таких решений в массовые продукты требует не только совершенствования алгоритмических методов, но и развития открытой инфраструктуры тестирования, создания унифицированных пайплайнов разработки и обеспечения доступности инструментов для исследователей и инженеров. Это составляет центральную задачу системной инженерии в области аудиосепарации для edge-систем на текущем этапе развития.

 

Список литературы:

  1. Luo Yi, Mesgarani Nima. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2019. – Vol. 27, №8. – P. 1256–1266. – DOI: 10.1109/TASLP.2019.2915167.
  2. Lan X., Zhai Y., Liu P., Wang Y. Counterclockwise block-by-block knowledge distillation for lightweight neural networks // Nature Machine Intelligence. – 2025. – Vol. 7. – P. 123–135.
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
Диплом Выбор редакционной коллегии

Оставить комментарий