Статья опубликована в рамках: LXII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 08 февраля 2018 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
РАСПОЗНАВАНИЕ ЭМОЦИЙ В ЧЕЛОВЕЧЕСКОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ ВЕЙВЛЕТОВ
В настоящее время все большую актуальность приобретают математические методы обработки звуковых записей, в частности записей человеческой речи. Это связано со все более возрастающей потребностью в автоматической обработке речевых сигналов – поиск человеком нужной информации в звуковых записях вручную уже не является эффективным. Использование математических методов обработки звуковых записей позволит обрабатывать их в автоматическом режиме и освободит человека от рутинного поиска нужной информации по большому количеству звуковых записей.
Одним из способов обработки сигналов является применение вейвлет-анализа. Вейвлет-анализ – раздел ЦОС (цифровая обработка сигналов), который описывает правила обработки цифровых сигналов с помощью специальных математических функций – вейвлетов. Он включает в себя различные методы обработки сигналов с их использованием – вейвлет-преобразование.
Вейвлет-преобразование (ВП) –метод обработки сигналов, который заключается в переводе цифрового сигнала, представленного во временной области, в частотно-временную область с помощью вейвлетов.
В данной статье описывается исследование, цель которого –определение типа вейвлета, использование которого может показать наиболее высокую надежность и точность распознавания эмоций человека, и сравнение результатов вейвлет-преобразования с результатами других методов обработки речевых сигналов при решении задачи распознавания эмоций человека (преобразование Фурье). Также в статье приведены достоинства и недостатки преобразования Фурье и вейвлет-преобразования.
Предметная область
Эмоция – субъективная реакция человека на воздействия внешних и внутренних раздражителей, отражающая их личную значимость для субъекта и проявляющаяся в виде удовольствия или неудовольствия [1].
Эмоции могут проявляться различными способами. Один из них – речь человека, испытывающего ту или иную эмоцию. При различных эмоцияхпараметры сигнала с речью человека, такие как частота сигнала и значение энергии сигнала на данной частоте, различаются (например, речь в состоянии спокойствия, возгласы при испытании радости или ругань при гневе). Отсюда можно сделать вывод, что распознавание эмоционального состояния человека по его речи в принципе возможно.
К. Изард выделяет следующие виды эмоций: страдание, гнев, отвращение, презрение, страх, стыд, радость, интерес, удивление [1]. Из этого списка были выбраны следующие 3 эмоции:
Гнев – отрицательная эмоция; возникает у человека при формировании серьезного препятствия на пути удовлетворения важной потребности.
Страх – отрицательная эмоция; возникает у человека при получении им информации об угрожающей ему опасности (мнимой или действительной).
Радость – положительная эмоция; возникает у человека в том случае, когда присутствуют возможности достаточно полно удовлетворить его актуальную потребность.
В рамках данного исследования автором этой статьи была введена еще одна эмоция – норма. Норма – нейтральная эмоция; возникает у человека при отсутствии воздействия на него внешних раздражителей.
Таким образом, были выбраны 4 вида эмоций для проведения исследования: гнев, страх, радость, норма. Автор выбрал именно эти виды эмоций ввиду того, что данные эмоции относительно легко отличаются друг от друга на слух и, следовательно, должны с относительно высокой точностью распознаваться с помощью ВП.
Задачи исследования
После определения предметной области исследования были сформированы следующие задачи:
- Запись звуковых файлов с человеческой речью для 4 вышеуказанных эмоций.
- Обработка записанных звуковых файлов.
- Применение для всех записанных звуковых файлов с речью вейвлет-преобразования (с использованием нескольких вейвлетов) и другого метода обработки сигналов (преобразование Фурье).
- Обработка и анализ полученных результатов с использованием методов математической статистики.
Ход исследования
Вначале была произведена запись звуковых файлов с человеческой речью для 4 вышеуказанных эмоций (гнев, страх, радость, норма). Были записаны голоса двух участников записи – девушки 21 года и парня 24 лет. На каждую эмоцию были записаны 460 звукозаписей с голосами дикторов, на которых они проговаривали определенный набор фраз на русском языке. Каждая звукозапись содержит голос определенного диктора, который проговаривает конкретную фразу. На каждую эмоцию в данном случае приходится 250 записей женского голоса и 210 записей мужского голоса. Длительность записанных звукозаписей составила от 2 до 6 секунд. Таким образом, общее количество звукозаписей составило 1840 (по 460 на каждую из 4 эмоций).
Все звукозаписи были записаны при следующих настройках: частота дискретизации – 8000 Гц, количество каналов – 1 (моно), расширение аудиофайлов – WAV.
После проведения записи была выполнена обработка записанных звуковых файлов. В данном случае обработка звукозаписей представляет собой приведение всех аудиофайлов к одинаковой длительности, а именно – обрезка звуковых дорожек таким образом, чтобы каждая новая звукозапись состояла преимущественно из записи голоса диктора. Обрезка звукозаписей произведена для обеспечения возможности корректного сравнения матриц с вейвлет-коэффициентами между собой или спектров преобразования Фурье между собой. При обработке звукозаписей с различными длительностями с помощью вейвлет-преобразования (преобразования Фурье) получаются матрицы вейвлет-коэффициентов (спектры преобразования Фурье) с различными размерами, что делает невозможным их сравнение между собой. Длительность всех обработанных звукозаписей была принята равной 2 секундам.
После обработки звуковых файлов к ним были применены вейвлет-преобразование и преобразование Фурье.
Вейвлет-преобразование (ВП), как было сказано ранее, переводит сигнал из временной области в частотно-временную область, что позволяет получить дополнительную информацию об анализируемом сигнале (изменение значений частотных компонент сигнала во времени). Для решения задачи распознавания эмоционального состояния человека используется непрерывное вейвлет-преобразование (НВП), так как оно позволяет анализировать сигнал на произвольно выбираемых масштабах и частотах [2].
Масштаб в НВП – величина, обратно пропорциональная анализируемой частоте для сигнала. Конкретное значение масштаба однозначно определяет значение анализируемой частоты сигнала, которое принимает то или иное значение в зависимости от вида, используемого вейвлета.
В статье [2] приводится следующая формула НВП:
, (1)
где –вейвлет-коэффициент, – значение масштаба, – отсчет амплитуды анализируемого сигнала, – преобразование Фурье входного сигнала, – преобразование Фурье используемого вейвлета (звездочка обозначает операцию свертки сигнала с вейвлетом).
Но вычисление вейвлет-коэффициентов по формуле (1) невозможно, поскольку любой цифровой сигнал имеет конечное число отсчетов амплитуд. К тому же непосредственное вычисление интеграла требует значительных вычислительных ресурсов. Поэтому для выполнения вейвлет-преобразования сигнала нужно использовать дискретную версию формулы НВП, которая предложена в статье [2]:
, (2)
где –вейвлет-коэффициент для n-го отсчета амплитуды сигнала при m-ом значении масштаба, – коэффициенты дискретного преобразования Фурье сигнала, – коэффициенты дискретного преобразования Фурье вейвлета, –количество отсчетов амплитуды сигнала (длина сигнала).
Один вейвлет-коэффициент представляет собой комплексное число для определенной частоты в определенный момент времени. Результатом вейвлет-преобразования является матрица вейвлет-коэффициентов размером m*n, где m – количество используемых масштабов (анализируемых частот), n – длина сигнала.
Квадрат модуля вейвлет-коэффициента (вещественное число) пропорционален энергии сигнала данной частоты в данный момент времени. Поэтому имеет смысл исследовать матрицы коэффициентов , поскольку по значениям этих коэффициентов в определенные моменты времени и на определенных частотах можно определить принадлежность сигнала к той или иной эмоции.
Похожий алгоритм непрерывного вейвлет-преобразования реализован в системе научных вычислений MATLAB, которая и использовалась для проведения данного исследования. Для проведения вейвлет-преобразования использовалась встроенная функция cwt – функция непрерывного одномерного вейвлет-преобразования, которая используется для анализа одномерных сигналов [3, с. 167-168] и располагается в Wavelet Toolbox – пакете расширения системы MATLAB, который предоставляет возможности для работы с вейвлетами как в командном режиме, так и с помощью средств графического интерфейса пользователя [3, с. 149].
Для решения задачи распознавания эмоций по голосу человека Голубинский А.Н. в своей статье рекомендует использовать вейвлет Морле, поскольку «частотно-временные характеристики данной функции аналогичны характеристикам базилярной мембраны» [2]. Поэтому для проведения исследования были выбраны следующие виды вейвлетов:
- ВейвлетМорле вещественный. Соответствующее обозначение в Wavelet Toolbox – morl. Задается следующей формулой [3, с. 138]:
(3)
- ВейвлетМорле комплексный. Соответствующее обозначение в Wavelet Toolbox – cmor. Задается следующей формулой [3, с. 134]:
, (4)
где –положительный параметр ширины полосы частот,–центральная частота.
- Вейвлет Гаусса комплексный. Соответствующее обозначение в Wavelet Toolbox – cgau5. Является производной от комплексной функции Гаусса, которая задается следующей формулой [3, с. 134]:
(5)
При выполнении задачи исследования № 3 к каждой аудиозаписи из выборки размером 460*4 была применена функция abs(cwt).^2 (вычисление квадратов модулей вейвлет-коэффициентов)с каждым из 3 выбранных вейвлетов. Количество масштабов выбрано во всех случаях одинаковое – 150, причем значения масштабов для каждого из вейвлетов подбирались таким образом, чтобы полоса частот во всех случаях была одной и той же (8000-53,3 Гц, значение частоты с i-м порядковым номером масштаба равно 8000/i). Длина каждой аудиозаписи равна 16000 отсчетам (2 секунды при ЧД=8000 Гц). Таким образом, получено 5520 (460*4*3) матриц квадратов модулей вейвлет-коэффициентов размером 150*16000 (2400000 элементов). Примеры спектров НВП (матриц вейвлет-коэффициентов) представлены ниже.
Рисунок 1. Примеры спектров НВП для различных видов эмоций
На этих графиках представлены значения коэффициентовНВП4 звукозаписей с помощью вещественного вейвлета Морле. На данных звукозаписях одним из дикторов (девушка) проговаривается одна и та же фраза 4 различными голосами. Светлые области на графиках обозначают повышенную энергию сигнала; темные области – низкую энергию сигнала.
На этих же графиках можно увидеть, что:
- Гнев и радость ярче всего проявляются на повышенных частотах (значения масштаба 8-20, частоты 325-812,5 Гц);
- Страх лучше выражен на низких частотах (значения масштаба 25-40, частоты 162,5-260 Гц);
- Норма выражается на более высоких, чем страх, и на более низких, чем гнев и радость, частотах, (значения масштаба 15-40, частоты 162,5-433,3 Гц).
Преобразование Фурье (ПФ) – один из методов анализа сигналов, который заключается в переводе сигнала из временной области в частотную. ПФ задается следующей формулой [3, с. 48]:
, (6)
где – значение коэффициента ПФ для определенной частоты сигнала,– значение амплитуды анализируемого сигнала в момент времени .
Результатом ПФ является спектр частот на промежутке (ЧД – частота дискретизации), причем границы промежутка не изменяются вне зависимости от длины сигнала. Разность между двумя соседними отсчетами спектра ПФ равна, где – длительность сигнала в секундах, вне зависимости от ЧД сигнала.
В данном исследовании использовалась одна из разновидностей ПФ, которая называется быстрое преобразование Фурье (БПФ), поскольку использование алгоритма БПФ позволяет значительно уменьшить время вычисления спектра ПФ. Рассматриваются значения квадратов модулей коэффициентов ПФ, которые так же, как и коэффициенты НВП, прямо пропорциональны энергии сигнала на определенной частоте. Примеры спектров БПФ приведены ниже (примеры звукозаписей те же).
Рисунок 2. Примеры спектров БПФ для различных видов эмоций
В данном случае взяты левые половины спектров БПФ от 0 до 4000 Гц.
На данных графиках можно увидеть подтверждение ранее сказанного о диапазонах частот, на которых наиболее ярко выражены вышеуказанные эмоции. К тому же на этих графиках видны отличия значений энергии сигнала на различных частотах – у гнева она значительно выше, чем у других эмоций.
После применения алгоритмов НВП и БПФ к звукозаписям была произведена обработка полученных результатов с использованием методов математической статистики. Были выбраны 460 наборов по 4 матрицы вейвлет-коэффициентов и 460 наборов по 4 спектра БПФ, каждый из которых соответствует определенной фразе. Для каждого из наборов были вычислены коэффициенты корреляции матриц вейвлет-коэффициентов между собой и спектров БПФ между собой. Причем для матриц вейвлет-коэффициентов вычислялись значения коэффициентов двумерной корреляции (корреляции между матрицами) с помощью функции corr2 системы MATLAB. Эта функция вычисляет коэффициент корреляции между матрицами Aи B размера m*n по следующей формуле [4]:
, (7)
где и – средние арифметические значения матриц A и B соответственно.
Затем были вычислены средние коэффициенты корреляции по каждому из 460 наборов коэффициентов корреляции для матриц вейвлет-коэффициентов НВП с использованием 3 видов вейвлетов и спектров БПФ. Таким образом, получены 4 матрицы корреляции, которые представлены ниже.
Таблица 1.
Матрица средних коэффициентов корреляции для матриц вейвлет-коэффициентов (вейвлет Морле вещественный)
Эмоция |
Гнев |
Страх |
Радость |
Норма |
Гнев |
1 |
0,12 |
0,14 |
0,13 |
Страх |
|
1 |
0,09 |
0,11 |
Радость |
|
|
1 |
0,14 |
Норма |
|
|
|
1 |
Таблица 2.
Матрица средних коэффициентов корреляции для матриц вейвлет-коэффициентов (вейвлет Морле комплексный)
Эмоция |
Гнев |
Страх |
Радость |
Норма |
Гнев |
1 |
0,18 |
0,21 |
0,21 |
Страх |
|
1 |
0,14 |
0,17 |
Радость |
|
|
1 |
0,22 |
Норма |
|
|
|
1 |
Таблица 3.
Матрица средних коэффициентов корреляции для матриц вейвлет-коэффициентов (вейвлет Гаусса комплексный)
Эмоция |
Гнев |
Страх |
Радость |
Норма |
Гнев |
1 |
0,18 |
0,23 |
0,22 |
Страх |
|
1 |
0,15 |
0,18 |
Радость |
|
|
1 |
0,24 |
Норма |
|
|
|
1 |
Таблица 4.
Матрица средних коэффициентов корреляции для спектров БПФ
Эмоция |
Гнев |
Страх |
Радость |
Норма |
Гнев |
1 |
0,18 |
0,31 |
0,30 |
Страх |
|
1 |
0,16 |
0,19 |
Радость |
|
|
1 |
0,33 |
Норма |
|
|
|
1 |
Из матриц видно, что все значения коэффициентов корреляции положительны. Значения коэффициентов корреляции в данном случае показывают различимость одной эмоции от другой. Чем меньше значения коэффициентов корреляции, тем меньше зависят значения матриц вейвлет-коэффициентов/спектров БПФ для различных эмоций друг от друга и, следовательно, тем надежнее отличить одну эмоцию от другой и наоборот. Из данных матриц корреляции можно увидеть, что определить эмоциональное состояние человека по звукозаписилучше применением к ней НВП, чем применением БПФ (по всем эмоциям вне зависимости от вейвлета). Причем для решения задачи распознавания эмоций с помощью вейвлет-преобразования из всех рассмотренных вейлетов лучше всего подходит вещественный вейвлет Морле, а НВП с использованием комплексного вейвлета Гаусса справилось с задачей распознавания эмоций хуже НВП с остальными вейвлетами, но лучше, чем БПФ.
В качестве доказательства значимости полученных коэффициентов корреляции были выдвинуты и проверены гипотезы о значимости коэффициента корреляции для всех полученных коэффициентов корреляции по методу, описанному в книге [5, с. 239-240]:
Для проверки значимости коэффициента корреляции нужно выдвинуть 2 гипотезы: H0 – коэффициент корреляции значимости не имеет, H1 –коэффициент корреляции значим. Затем вычислить наблюдаемое значение критерия:
, (8)
где – выборочный коэффициент корреляции, – объем выборки.
После вычисления наблюдаемого значения критериянужно по таблице критических точек распределения Стьюдента по определенному уровню значимости и числу степеней свободы определить значение критической точки . Если , то гипотеза H0 принимается, иначе – отвергается и принимается гипотеза H1.
Таким образом были проверены все полученные ранее коэффициенты корреляции. В данном случае выбран уровень значимости и объем выборки, равный количеству отсчетов в 1 спектре БПФ/матрице НВП, поскольку в каждом из данных наборов вычислялись коэффициенты корреляции между 4 спектрами/матрицами, которые представлены именно коэффициентами БПФ/НВП. Таким образом, для спектров БПФ ,, , для матриц НВП , , . Применяя формулу (8), получены наблюдаемые значения критерия от 14,14 до 387,92.
Таким образом, все значения превышают 2,58. Отсюда можно сделать вывод, что все полученные средние коэффициенты корреляции с вероятностью значимы и, следовательно, значения спектров БПФ/матриц НВП для любых двух эмоций зависят друг от друга в той или иной степени.
Но при этом все равно эмоции можно относительно легко отличить друг от друга, причем с помощью НВП эмоции распознаются лучше, чем с помощью БПФ.
Отсюда можно сделать вывод, что с применением вейвлет-преобразования эмоции человека различаются лучше, чем с применением БПФ, причем для распознавания эмоционального состояния человека лучше всего применять НВП с использованием вещественного вейвлета Морле.
Но вейвлет-преобразование имеет недостаток: оно намного более затратно по времени выполнения из-за гораздо большего числа вычисляемых коэффициентов, чем БПФ. Эту проблему можно решить сжатием матриц вейвлет-коэффициентов, а именно – уменьшением размера строк матриц, при этом может снизиться качество распознавания эмоций. Поэтому вейвлет-преобразование в задаче распознавания эмоций лучше применять в тех случаях, когда не требуется обработка звукозаписей в режиме реального времени. В противном случае лучше использовать БПФ для обработки звукозаписей.
Список литературы:
- Сущность, функции и виды чувств и эмоций. – [Электронный ресурс] – Режим доступа. – URL: http://www.grandars.ru/college/psihologiya/emocii-i-chuvstva.html (дата обращения 06.01.2018).
- Голубинский А.Н. Выявление эмоционального состояния человека по речевому сигналу на основе вейвлет-анализа // Научная электронная библиотека «Киберленинка». – [Электронный ресурс] – Режим доступа. – URL: https://cyberleninka.ru/article/v/vyyavlenie-emotsionalnogo-sostoyaniya-cheloveka-po-rechevomu-signalu-na-osnove-veyvlet-analiza (дата обращения 08.01.2018).
- Дьяконов В.П. Вейвлеты. От теории к практике. Изд. 2-е, перераб. и доп. – М.: СОЛОН-Пресс, 2004. – 400 с.: ил. – (Серия «Полное руководство пользователя»).
- 2-D correlation coefficient – MATLAB corr2 // MathWorks. – [Электронныйресурс] – Режимдоступа. – URL: https://www.mathworks.com/help/images/ref/corr2.html (дата обращения 12.01.2018).
- Гмурман В. Е. Руководство к решению задач по теории вероятностей и математической статистике: Учеб. Пособие для студентов втузов. – 3-е изд., перераб. и доп. – М.: Высш. Школа, 1979. – 400 с., ил.
Оставить комментарий