Статья опубликована в рамках: LXXIV Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 11 февраля 2019 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Боровикова О.В. РАЗРАБОТКА МОБИЛЬНОГО ПРИЛОЖЕНИЯ ДОПОЛНЕННОЙ РЕАЛЬНОСТИ ДЛЯ РАСПОЗНАВАНИЯ МУЗЫКИ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LXXIV междунар. студ. науч.-практ. конф. № 2(73). URL: https://sibac.info/archive/technic/2(73).pdf (дата обращения: 31.07.2025)

Проголосовать за статью

Конференция завершена

Эта статья набрала 3 голоса

Дипломы участников

У данной статьи нет
дипломов

РАЗРАБОТКА МОБИЛЬНОГО ПРИЛОЖЕНИЯ ДОПОЛНЕННОЙ РЕАЛЬНОСТИ ДЛЯ РАСПОЗНАВАНИЯ МУЗЫКИ

Боровикова Ольга Витальевна

студент 4 курса, кафедра МО ЭВМ СПбГЭТУ,

РФ, г. Санкт-Петербург

Герасимова Тамара Владимировна

научный руководитель,

ст. преп. каф. МО ЭВМ СПбГЭТУ,

РФ, г. Санкт-Петербург

Введение

Разработка программных продуктов дополненной реальности (AR) для распознавания музыки в настоящее время является одним из динамично развивающихся направлений в области искусственного интеллекта. Под распознаванием музыки понимается перевод музыкального звукового сигнала в символьное представление. Данные программы можно использовать для поиска плагиата в музыкальной сфере или музыкальных произведений по фрагменту, обзора культурной ценности произведения, так же, возможно, и для обучения музыкантов.

Для достижения цели необходимо решить следующие задачи:

В ходе проекта выполняются следующие задачи:

Изучение существующих алгоритмов и методов, используемых в данной проблемной области
Исследование представленных алгоритмов и методов (сравнительный анализ)
Разработка этапов алгоритма для программной системы

В статье рассмотрены основные существующие алгоритмы, определены критерии сравнения аналогов и подробно описана структура алгоритма, реализованная в работе.

1. Обзор алгоритмов

В настоящее время разработано множество алгоритмов для решения задачи распознавания музыки (звукового сигнала), которые позволяют создавать различные аудио-поисковые системы (например, Shazam). Как известно, при распознавании звукового сигнала на первом этапе - микрофон конвертирует звуковые колебания в аналоговый (непрерывный) электрический сигнал. Далее полученные данные подвергаются различным преобразованиям, которые рассматриваются ниже.

В работе [5] авторы предлагают алгоритм распознавания, основанный на определение минимального значимого набора признаков звукового сигнала. Такой набор определяют посредством анализа структуры звука в спектральном диапазоне с помощью мел-частотных кепстральных коэффициентов (mel-frequency cepstral coefficients, MFCC) и применения к вычисленным коэффициентам метода главных компонент. Для сравнения обработанного сигнала с существующими данными(нотами) авторы работы используют нейросетевой подход, а, именно, искусственную нейронную сеть (ИНС) прямого распространения и метод обратного распространения ошибки для обучения сети. При тестировании данного алгоритма выяснили, что такие параметры, как количество MFCC – 14 и количество главных компонент – 7, обеспечивают высокую точность, более 90 %. Данный алгоритм используется для распознавания музыкальных инструментов.

В работе [4] описывается алгоритм, основной идеей которого является анализ спектрограммы звукового сигнала с помощью дискретного преобразования Фурье (ДПФ). Авторы обращаются к модифицированному ДПФ - быстрому преобразованию Фурье (БПФ), что уменьшает количество производимых операций при обработке сигнала. При таком анализе получается огромный интервал частот в определённый момент времени, что для конечного сравнения неприемлемо. Поэтому рассматривается разделение интервала на более мелкие части, основываясь на частотах, которые обычно присущи важным музыкальным компонентам, и проанализировать их по отдельности. В результате, полученного набора частот производится сравнение и определяется подходящая композиция. Для такого алгоритма требуется база данных с определёнными наборами частот для каждой композиции в определённый промежуток времени. На нём основана популярная система Shazam.

Известен алгоритм распознавания музыкальных мелодий в условиях априорной неопределённости [3]. В основе этого алгоритма лежит теория активного восприятия В.А. Утробина. Звуковой сигнал в этой теории изучается как система. Он разбивается на определённые интервалы ∆t, для каждого из которых определяется частота основного тона. Оценка частоты основного тона, основана на использовании алгебры групп. С помощью замкнутых и полных групп выполняется спектрально-корреляционный анализ. В алгоритме анализа монофонической музыки [1] предлагается использовать вейвлет-преобразование [6], которое представляет входной сигнал в виде обобщенного ряда или интеграла Фурье по системе базисных функций, сконструированных из материнского вейвлета ψ(t), обладающего определенными свойствами за счет операций сдвига во времени b и изменения временного масштаба a. В данной задаче автор использовал непрерывное ВП с материнским вейвлетом Морле [5], в котором в качестве базиса используются функции синуса и косинуса. Преимущество использования этого метода состояло в том, что свойства окна, его ширина и перемещение по частоте, присущи самим вейвлетам, а не являются дополнительным условием, как в преобразовании Фурье, где используется оконная функция, что приводит ВП к более гибкому частотно-временному разрешению.

Существует модель, в которой рассматривается распознавание речи с использованием скрытой Марковской модели [2]. В данной модели, как правило, конкретная последовательность состояний в которой пребывает система не интересует. При распознавании звуковой сигнал разбивается на интервалы, которые соответствуют состояниям СММ, параметры сигнала каждого фрагмента считаются постоянными. Для каждого интервала вычисляем набор номеров кодовой страницы и применяем алгоритм прямого и обратного хода для вычисления вероятности соответствия данного звукового фрагмента определенному слову словаря. Вероятность каждого фрагмента зависит от текущего состояния системы и не зависит от предыдущих состояний. Если вероятность превышает существующее пороговое значение – слово считается распознанным.

2. Критерии сравнения аналогов

Для сравнения аналогов определим следующие критерии сравнения:

1. Способы анализа – каким способом определяются частотные характеристики звукового сигнала; Способ анализа определенно влияет на качество оценки входного сигнала, так как именно на этом этапе происходит отбор значимых частот сигнала для дальнейшего распознавания (исключение посторонних шумов).

2. Тип обрабатываемого сигнала – какой сложности сигнал обрабатывается: монофонический, полифонический, отдельные ноты, речь; Данный критерий позволяет определить область применения алгоритма. рассчитан он на сложный быстроизменяющийся звуковой сигнал или же на однотипный, простой.

3. Загруженность алгоритма – использование в алгоритме дополнительных технологий; Использование в алгоритме дополнительных технологий, влияет на сложность его разработки (реализация)

Результаты сравнения аналогов по вышеперечисленным критериям представлены в таблице 1.

Таблица 1.

Сравнение по критериям

Выводы по итогам сравнения: В результате проведённого сравнения, относительно входного звукового сигнала лучше показали себя алгоритмы с БПФ и MFCC, но второй проигрывает с БПФ по сложности реализации. Таким образом, можно сделать предположение о том, что для решения задачи распознавания музыкальных произведений необходимо использовать алгоритм, который производит качественный отбор частотных характеристик сигнала (способы анализа) и принимает на вход полифонический сигнал, что расширяет возможности определения различных по сложности сигналов.

3. Разработка структуры алгоритма

3.1 Общие сведения.

Для распознавания музыкальных произведений воспользуемся частотным методом, который использует быстрое преобразование Фурье, он позволяет анализировать более сложные на входе сигналы.

3.2 Структура алгоритма

Определим структуру метода частотного анализа звукового сигнала с использованием БПФ.

Рисунок 1. Схема структуры алгоритма

2.3 Описание элементов структуры

Захват звука: Этап направлен на запись сэмплированного аудиосигнала (для захвата всех частот, которые человек может слышать в звуковом сигнале, необходимо сэмплировать сигнал с частотой, вдвое превышающей диапазон человеческого слуха).
Функция дискретизации сигнала: На этом этапе преобразовывается конечный набор образцов сигнала, взятых с равными промежутками времени, в список коэффициентов конечной комбинации комплексных синусоид, упорядоченных по частоте, принимая во внимание, что эти синусоиды были дискретизированы с одной и той же частотой.
Оконная функция: Этап позволяет определить в какой момент времени появилась каждая частота, т.е. разбивает входной сигнал на равные по времени интервалы. Для каждого интервала применяется функция дискретизации сигнала.
Формирование сигнатуры аудио: Осуществляется выбор наиболее важных частот. Происходит разбиение на интервалы: 30 Гц - 40 Гц, 40 Гц - 80 Гц и 80 Гц - 120 Гц для низких тонов (например, для бас-гитары), 120 Гц - 180 Гц и 180 Гц - 300 Гц для средних и высоких тонов. (покрытие вокала и большинства других инструментов).
Сравнение сигнатур: На этом этапе происходит распознавание полученного сигнала, путём сравнения с данными базы.

Заключение

В ходе работы был проведен анализ существующих алгоритмов распознавания звукового сигнала. Основываясь на изученном материале, была разработана подробная структура алгоритма распознавания с использованием быстрого преобразования Фурье. Данные результаты можно использовать для создания собственного программного обеспечения, направленного на распознавание музыкальных сигналов.

Список литературы:

Алиев Р. М. Автоматическое распознавание нот в музыкальном сигнале на основе преобразования Фурье и вейвлет-анализа. – 2011.
Алимурадов А. К., Чураков П. П. Обзор и классификация методов обработки речевых сигналов в системах распознавания речи //Измерение. Мониторинг. Управление. Контроль. – 2015. – №. 2 (12).
ОРЛОВ А. С., ЯКОВЛЕВ О. А., ГАЙ В. Е. АЛГОРИТМ РАСПОЗНАВАНИЯ МУЗЫКАЛЬНЫХ МЕЛОДИЙ В УСЛОВИЯХ АПРИОРНОЙ НЕОПРЕДЕЛЕННОСТИ //Фундаментальные проблемы радиоэлектронного приборостроения. – 2014. – Т. 14. – №. 5. – С. 145-146.
Сорока В. Г., Фатеев Д. С. Исследование принципов работы программ распознавания музыки, используемых в современных приложениях // Молодой ученый. — 2016. — №29. — С. 38-41. — URL https://moluch.ru/archive/133/37453/ (дата обращения: 15.11.2018).
Станкевич Ф.В., Спицын В.Г. НЕЙРОСЕТЕВОЕ РАСПОЗНАВАНИЕ МУЗЫКАЛЬНЫХ ИНСТРУМЕНТОВ С ИСПОЛЬЗОВАНИЕМ МЕЛ-ЧАСТОТНЫХ КЕПСТРАЛЬНЫХ КОЭФФИЦИЕНТОВ // Фундаментальные исследования. – 2014. – № 12-1. – С. 51-56; [URL: http://fundamental-research.ru/ru/article/view?id=36070 (дата обращения: 01.12.2018)]
Яковлев, А. Н Введение в вейвлет-преобразования / А. Н. Яковлев // Новосибирск: Издательство НГТУ, 2003. С. 29–31.