Статья опубликована в рамках: CLIX Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 20 февраля 2023 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Тушинская Е.В. АЛГОРИТМ ИЗВЛЕЧЕНИЯ ПИКОВЫХ ЗНАЧЕНИЙ ЭНЕРГИИ ИЗ АУДИОИНФОРМАЦИИ // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. CLIX междунар. студ. науч.-практ. конф. № 4(158). URL: https://sibac.info/archive/meghdis/4(158).pdf (дата обращения: 03.04.2025)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

АЛГОРИТМ ИЗВЛЕЧЕНИЯ ПИКОВЫХ ЗНАЧЕНИЙ ЭНЕРГИИ ИЗ АУДИОИНФОРМАЦИИ

Тушинская Екатерина Вадимовна

студент, кафедра информатики, Белорусский Государственный Университет Информатики и Радиоэлектроники,

Беларусь, г. Минск

PEAK ENERGY VALUES EXTRACTING ALGORITHM IN AUDIO PROCESSING

Katsiaryna Tushynakaya

student, Department of Informatics, Belarussian State University of Informatics and Radioelectronics,

Belarus, Minsk

АННОТАЦИЯ

В данной статье рассмотрен алгоритм извлечения пиковых значений энергии сигнала, а также его применение в машинном обучении в качестве подготовительного этапа при решении задачи классификации.

ABSTRACT

This paper gives an overview for a peak energy extraction algorithm and its application to machine learning as a preparatory step in solving classification problem.

Ключевые слова: глубокое обучение; аудио информация; нейронная сеть.

Keywords: audio processing; SVM; neural network.

Для хранения аудиоданных в современных ЭВМ используется так называемая импульсно-кодовая модуляция. При импульсно-кодовой модуляции аналоговый передаваемый сигнал преобразуется в цифровую форму посредством трёх операций: дискретизации по времени, квантования по амплитуде и кодирования.

Для преобразования аналогового сигнала в цифровой используется аналого-цифровой преобразователь. АЦП через равные промежутки времени измеряет амплитуду аналогового сигнала — получает мгновенные значения или отсчёты сигнала, затем преобразует отсчёты в двоичные слова. Мгновенное измеренное значение отсчёта аналогового сигнала квантуется по уровням (округляется до ближайшего целого). Итоговое значение – ИКМ-данные представляют из себя массив дискретных данных энергий аналоговой волны – отсчеты, записанные с определенной частотой дискретизации[1]. Для начала анализа необходимо найти непосредственно спектр аудиосигнала входного файла. Для этого над дискретным рядом выборок значений энергий полученных данных импульсно-кодовой модуляции берется быстрое преобразование Фурье.

Для начала инициализируется массив выходных значений спектра, количество аудиоканалов и частоты дискретизации. Дальнейшие вычисления проводятся только при правильном числе каналов. Затем проводится проверка буфера ИКМ-данных и поиск индексов массива, с которыми будет проводиться анализ. Алгоритм быстрого преобразования Фурье работает с кратными двум окнами значений элементов выборки ИКМ данных. Для поиска оптимального числа считываемых данных находится максимально большую степень двойки размера окна, а затем проводится заполнение буфера данными ИКМ, предварительно применив к ним сглаживающий фильтр – окно Ханна. Фильтр, представленный окном Ханна, улучшает входной массив для быстрого преобразование Фурье путем сглаживания шумов. С полученным буфером проводится быстрое преобразование Фурье, оно же SFT (Swift Fourier Transform), в результате которого получаем комплексные аргументы, возведение в квадрат которых позволяет получить спектр сигнала [2].

Следует заметить, что график спектра – трехмерный. Спектр сигнала представляет зависимость частоты от времени и энергии на частоту в данный промежуток времени. Выходной массив алгоритма представляет из себя значения энергий элемента выборки. Каждый элемент выборки в свою очередь представляет диапазон частот. Время можно найти, умножив индекс массива на частное размера окна и частоты дискретизации. Таким образом, из полученного массива можно легко достать значения спектра на определенных диапазонах частоты. Далее проводится анализ каждого из трех диапазонов частоты по отдельности.

Для поиска пиков энергии спектра сигнала производится операция нахождения спектральной разницы. Спектральная разница есть разница между текущим и предыдущим значением энергии спектра для каждого элемента окна, представляющего свой частотный диапазон. Если значение разницы положительно, энергия увеличилась относительно предыдущего временного интервала, отрицательно – энергия уменьшилась. Итоговая функция принимает значение разницы функции спектральной разницы и пороговой функции.

Наиболее перспективным при решении задачи поиска схожести двух композиций является использование характеристик ритма, среди которых самым очевидным является определение темпа или ударов в минуту (beats per minute – BPM). В данной статье был рассмотрен процесс нахождения BPM при помощи алгоритма извлечения пиковых значений, результатом которого является набор данных, который впоследствии будет использован в качестве входных параметров для SVM классификатора.

Список литературы:

Tzanetakis, G. Musical Genre Classification of Audio Signals / G. Tzanetakis, P. Cook // IEEE transactions on speech and audio processing – 2002. – Vol. 10, No. 5. P. 293-302 (дата обращения 03.02.2023).
The Scientist and Engineer’s Guide to Digital Signal Processing [Электронный ресурс] — Режим доступа: — URL: dpsguide.com/pdfbook.html (дата обращения 26.01.2023)