Статья опубликована в рамках: Научного журнала «Студенческий» № 22(360)

Рубрика журнала: Информационные технологии

Библиографическое описание:

Комарицын Е.А. РАЗРАБОТКА АДАПТИВНОЙ СИСТЕМЫ ГИТАРНОГО ОБУЧЕНИЯ НА БАЗЕ ЛОКАЛЬНЫХ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ И АЛГОРИТМОВ ЦИФРОВОЙ ОБРАБОТКИ СИГНАЛОВ // Студенческий: электрон. научн. журн. 2026. № 22(360). URL: https://sibac.info/journal/student/361/424989 (дата обращения: 03.08.2026).

РАЗРАБОТКА АДАПТИВНОЙ СИСТЕМЫ ГИТАРНОГО ОБУЧЕНИЯ НА БАЗЕ ЛОКАЛЬНЫХ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ И АЛГОРИТМОВ ЦИФРОВОЙ ОБРАБОТКИ СИГНАЛОВ

Комарицын Егор Андреевич

магистрант, Тюменский государственный университет,

РФ, г. Тюмень

Хартьян Денис Юрьевич

научный руководитель,

канд. техн. наук, доц., Школа компьютерных наук, Тюменский государственный университет,

РФ, г. Тюмень

АННОТАЦИЯ

В статье рассматривается проблема обеспечения оперативной обратной связи в процессе самостоятельного музыкального обучения. Описана архитектура и программная реализация гибридной веб-платформы «Guitar AI», объединяющей классические методы цифровой обработки сигналов (DSP) и современные генеративные нейросетевые модели. Особое внимание уделено оптимизации инференса моделей Whisper и Qwen 2.5 для работы на центральном процессоре (CPU) в реальном времени. Приведены результаты экспериментального исследования точности детекции аккордов и качества распознавания речи.

Ключевые слова: искусственный интеллект, машинное обучение, цифровая обработка сигналов, Edge AI, распознавание речи, обучение музыке, WebSockets, квантование моделей.

Введение

Развитие технологий Edge AI (ИИ на периферии) открывает новые возможности для образовательных платформ, требующих обработки мультимедийных данных с минимальной задержкой. В сфере музыкального образования критически важным является наличие «мгновенного фидбека» — способности системы анализировать звук инструмента и корректировать ошибки пользователя в темпе исполнения. Существующие зарубежные аналоги (Yousician, Simply Guitar) имеют ряд ограничений: высокая латентность из-за облачных вычислений, отсутствие поддержки русского голосового интерфейса и риски нарушения приватности данных. Целью данной работы является разработка автономной, локализованной системы гитарного обучения с использованием оптимизированных ИИ-моделей.

Методология и архитектура системы

Разработанная система «Guitar AI» построена по клиент-серверной архитектуре с использованием протокола бинарных WebSockets для минимизации оверхеда при передаче аудиоданных.

1. Цифровая обработка звукового сигнала (DSP)

Для детекции аккордов аудиопоток разбивается на фреймы (окна) по 4096 семплов. В качестве основного метода анализа выбрано Оконное преобразование Фурье (STFT). Для подавления тембровой окраски конкретных инструментов осуществляется переход к хроматограммам (Chroma Features), представляющим распределение энергии по 12 полутонам хроматической гаммы.

2. Гибридная ИИ-система

Система включает три ключевых компонента:

Модуль ASR (Automatic Speech Recognition): модель Faster-Whisper (Small). Для обеспечения работы на CPU применено квантование весов до уровня int8, что позволило сократить потребление ОЗУ до 1,2 Гб и достичь задержки инференса в 130–150 мс.
Диалоговое ядро: локальная LLM Qwen 2.5 (7B), развернутая через сервер Ollama.
Механизм адаптивного контекста: при формировании системного промпта для LLM бэкенд динамически интегрирует телеметрию ошибок пользователя из СУБД SQLite, реализуя концепцию персонализированного обучения.

Программная реализация

Технологический стек включает Next.js 15 для фронтенда, обеспечивающего реактивность интерфейса (60 FPS), и FastAPI для асинхронной обработки конкурентных запросов. Логика фильтрации событий (Stability Threshold) предотвращает осцилляцию интерфейса («мигание»): аккорд считается валидным только при подтверждении в трех последовательных фреймах.

Результаты экспериментов

Для оценки эффективности системы был проведен эксперимент с участием 10 испытуемых. Суммарная выборка составила более 600 попыток исполнения аккордов в условиях естественного бытового шума.

Таблица 1.

Показатели точности детекции и распознавания

Метрика	Значение	Примечание
Точность детекции аккордов (Em, Am, D)	89,1% – 92,4%	Стабильное распознавание
Точность детекции аккорда F (баррэ)	78,3%	Отражает ошибки постановки рук
Word Error Rate (WER) команд	4,8%	Высокая точность
Средний WER свободной речи	7,8%	Соответствует целевому KPI
Суммарная задержка (Latency)	< 150 мс	Real-time взаимодействие

Анализ юзабилити по шкале SUS (System Usability Scale) показал результат 4,42 из 5, что свидетельствует о высоком уровне удовлетворенности пользователей, особенно в части отсутствия необходимости прерывать игру для взаимодействия с интерфейсом благодаря голосовому управлению.

Заключение

В ходе работы была подтверждена гипотеза о возможности реализации высокоточного музыкального ассистента на базе локальных квантованных моделей без использования графических ускорителей (GPU). Разработанный метод адаптивного промптинга позволяет системе не только фиксировать ошибки, но и давать адресные методические рекомендации. Полученные результаты могут быть масштабированы на другие музыкальные инструменты и использованы в отечественных EdTech-платформах.

Список литературы:

Rabiner L. R., Schafer R. W. Theory and Applications of Digital Speech Processing. – Pearson, 2011.
Radford A. et al. Robust Speech Recognition via Large-Scale Weak Supervision // OpenAI Blog. – 2022.
FastAPI Documentation. URL: https://fastapi.tiangolo.com/ (дата обращения: 10.05.2026).
Müller M. Fundamentals of Music Processing. – Springer, 2015.