Статья опубликована в рамках: CXXV Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 08 мая 2023 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Кот В.Я. РАЗРАБОТКА ИЕРАРХИЧЕСКОГО МЕХАНИЗМА ВНИМАНИЯ ДЛЯ РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА ПО ЕГО ГОЛОСУ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. CXXV междунар. студ. науч.-практ. конф. № 5(123). URL: https://sibac.info/archive/technic/5(123).pdf (дата обращения: 06.07.2025)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

РАЗРАБОТКА ИЕРАРХИЧЕСКОГО МЕХАНИЗМА ВНИМАНИЯ ДЛЯ РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА ПО ЕГО ГОЛОСУ

Кот Владислав Яковлевич

магистрант, кафедра автоматизации научных исследований, Московский Государственный Университет им. М. В. Ломоносова,

РФ, г. Москва

Шишкин Алексей Геннадиевич

научный руководитель,

д-р физ.-мат. наук, проф., Московский Государственный Университет им. М. В. Ломоносова,

РФ, г. Москва

Эмоции и речь тесно взаимосвязаны и играют важную роль в общении. В связи с этим, автоматическая и объективная диагностика эмоционального состояния человека по его речи представляет большой практический интерес. За последние несколько десятилетий были разработаны многочисленные методы для решения задачи распознавания эмоций по голосу, но, несмотря на большое число работ в области распознавания эмоций по речевому сигналу, необходимо продолжение исследований и улучшение существующих моделей, имеющих пока недостаточно высокую точность. В настоящей работе с этой целью разработан новый иерархический механизм внимания, позволяющий учитывать особенности речевой информации как на глобальном, так и на локальном уровнях. Лучшая из разработанных моделей показывает результат в 67% точности в задаче классификации с 4мя классами на базе данных IEMOCAP.

1. ВВЕДЕНИЕ

Технология распознавания эмоций в речи может найти применение в огромном количестве задач. Распознавание человеческих эмоций — важнейшая технология в области искусственного интеллекта и взаимодействия человека с компьютером. Возможность распознавания эмоций в речи важна как для исследования самой речи и эмоций, так и для улучшения качества обслуживания клиентов. Например, эмоции студентов влияют на их заинтересованность в обучении, а поэтому и на понимание и усвоение новых знаний. Также идентификация эмоционального состояния востребована в телекоммуникационной сфере, в индустрии развлечений, обучении, медицине и других сферах.

За последние несколько десятилетий были разработаны многочисленные методы для решения задачи распознавания эмоций по голосу, на основе которых строятся системы идентификации эмоционального состояния человека. Например, предобработка сигналов с последующим применением метода главных компонент, слепого разделения источников (Blind source separation), анализа колебаний без тренда или метода режекторного фильтра, извлечение характерных признаков сигнала адаптивной авторегрессией, быстрым преобразованием Фурье, вейвлет-преобразованиями или общим пространственным шаблоном, классификация эмоций методом опорных векторов, сверточными или рекуррентными нейронными сетями, нейронными сетями на основе долгой краткосрочной памяти.

Исследования по распознаванию эмоций на основе речевых сигналов быстро развиваются. Несмотря на полученные результаты, многие вопросы нуждаются в дальнейшем изучении, а методы – в улучшениях. Именно данной теме и посвящена настоящая работа.

2. МЕТОДЫ И АРХИТЕКТУРА

Исходные речевые сигналы из базы данных IEMOCAP [4] были разделены на части длиной 4 с., эмоциональную выразительность которых будет предсказывать модель. Из сигналов длиной 4 с. выделялись сегменты длиной 400 мс., которые в дальнейшем разделялись на окна по 25 мс. с перекрытием 10 мс., как показано на рисунке 1.

Рисунок 1. Сегментация исходного сигнала

На полученных окнах сигнала вычислялись мел-кепстральные коэффициенты. Мел-кепстральные коэффициенты (MFCC) — это характеристика, широко используемая в автоматическом распознавании речи и распознавании говорящего. Мел-кепстральные коэффициенты обладают повышенной помехоустойчивостью и позволяют принимать достоверные решения на относительно коротких интервалах анализа речи. Мел-кепстральные коэффициенты подавались на вход нейросети.

В разработанных моделях используется механизм внимания, представляющий собой способ сообщить сети, на что стоит обратить больше внимания, то есть сообщить вероятность того или иного исхода в зависимости от состояния нейронов и поступающих на вход данных. Слой внимания сам выявляет на основе обучающей выборки элементы, фокусировка на которых снижает ошибку сети.

В данной модели механизм внимания используется на двух разных логических уровнях, чтобы сообщить модели какие признаки наиболее важные для сети. Во-первых, это поиск информации на уровне окон. Во-вторых, это поиск сегментов, содержащих наиболее полезную для модели информацию, как показано на рисунке 2.

Рисунок 2. Схема использования механизма внимания в модели

Коэффициенты внимания вычисляются с помощью модуля нейронной сети прямого распространения.

Итоговая модель, получившаяся в результате проведенных экспериментов, выглядит следующим образом: Она состоит из двух логических слоев сети и слоя классификации, как показано на рис. 3.

Рисунок 3. Общая схема модели

Каждый слой сети, схема которого показана на рис. 3, состоит из:

Линейного блока, который из мел-кепстральных коэффициентов строит векторы признаков.
Блока внимания, который получает на вход векторы признаков и дает им свои веса, иначе говоря, отмечает их важность
Далее начальные векторы признаков и новые векторы признаков, полученные умножением начальных векторов на их веса от блока внимания, конкатенируются
Полученный новый вектор проходит через еще один линейный слой для возврата к исходной размерности
В конце слоя происходит поэлементное сложение векторов по последнему измерению.

Соответственно первый слой сети отвечает за работу с признаками на уровне окон, а второй на уровне сегментов.

После двух логических слоев вектор признаков подается на вход слою классификации. На выходе модель выдает вероятности принадлежности сигнала соответствующему классу.

3. ЭКСПЕРИМЕНТЫ

Для обучения и тестирования модели нужны образцы эмоциональной человеческой речи, поэтому для данной задачи использовались аудиозаписи с частотой дискретизации 16 кГц из базы данных IEMOCAP (The Interactive Emotional Dyadic Motion Capture) [4]:

База данных IEMOCAP предназначена для предоставления речевых данных для исследований, а также для разработки и оценки систем распознавания эмоций. IEMOCAP содержит около 12 часов аудиовизуальных данных, включая видео, речь, захват движения лица, транскрипцию текста.

Для подбора оптимальных гиперпараметров полносвязной модели было проведено тестирование и оптимизация на следующих гиперпараметрах:

• Количество слоев в линейных блоках: 2-5 слоев

• Количество слоев в блоке внимания: 1-3 слоя

• Количество нейронов на скрытых слоях в линейных блоках и блоке внимания: 32-256 нейронов

• Функция активации: сигмоида, ReLU (Rectified Linear Unit), LeakyReLU

• Оптимизаторы: SGD, RMSprop, Adam

Тестирование модели было проведено на сигналах из 4-х и 5-ти классов эмоций из базы данных IEMOCAP.

4 класса: Злость, Счастье, Грусть, Нейтральность

Данная группа эмоций является наиболее распространенной в исследованиях на данной базе данных.

5 классов: Злость, Взволнованность, Грусть, Расстройство, Нейтральность

Данная группа эмоций содержит наибольшее количество примеров в базе данных.

В таблице 1 приведены полученные результаты работы модели при изменении количества слоев в линейном блоке. Результаты показывают, что при любом количестве слоев полносвязная модель с механизмом внимания имеет более высокую точность, чем без него. При этом с данными параметрами модели с 4-мя слоями в линейном блоке имеют более высокую точность как при наличии механизма внимания, так и при его отсутствии.

В таблице 2 приведены полученные результаты работы модели при изменении количества слоев в блоке внимания. На основе проведенных экспериментов с количеством слоев в блоке внимания был сделан вывод, что модели с тремя слоями в блоке внимания показывают лучшие результаты.

Таблица 1.

Результаты обучения полносвязной модели на 4х и 5ти классах с разным количеством слоев в линейном блоке. На каждом скрытом слое по 128 нейронов. На вход подается 40 мел-частотных кепстральных коэффициентов

	2 слоя	3 слоя	4 слоя	5 слоев
4 класса без внимания	0.632047	0.643917	0.642433	0.636499
4 класса c вниманием	0.640950	0.645401	0.651335	0.643917
5 классов без внимания	0.477407	0.502947	0.510629	0.497053
5 классов с вниманием	0.51	0.504912	0.519646	0.480354

Таблица 2.

Результаты обучения полносвязной модели на 4х и 5ти классах с разным количеством слоев в блоке внимания. На каждом скрытом слое по 128 нейронов. На вход подается 40 мел-частотных кепстральных коэффициентов

	1 слой	2 слоя	3 слоя	4 слоя
4 класса c вниманием	0.658754	0.649852	0.667656	0.658754
5 классов с вниманием	0.501965	0.500000	0.508841	0.495088

Аналогичные эксперименты были проведены, чтобы выбрать лучшую функцию активации. В данной работе в окончательной архитектуре нейросети использовалась функция активации Leaky ReLU.

Были проведены эксперименты с моделями с использованием разных оптимизаторов. В результате было получено, что модели с оптимизатором Адам имеют более высокий показатель точности.

4. ВЫВОДЫ

В данной работе была рассмотрена задача распознавания эмоционального состояния человека по его голосу с помощью нейронных сетей. Для решения данной задачи была рассмотрена иерархическая глубокая нейронная сеть прямого распространения, обученная на мел-частотных кепстральных коэффициентах.

В качестве набора данных использовалась база данных IEMOCAP, содержащая примеры разных эмоциональных состояний человека. Была выполнена предварительная обработка речевых сигналов.

Была разработана иерархическая нейросетевая модель на основе механизма внимания для распознавания эмоций человека по речевому сигналу, оптимизирована её архитектура для получения наилучшего результата и выполнена её программная реализация.

Исследование зависимости результатов от наличия в нейросетевой модели нескольких слоев механизма внимания показало, что результаты иерархических моделей с механизмом внимания выше, чем у аналогичных без данного механизма. Точность лучших моделей составила 67% при работе с 4-х классовой классификацией и 52% при 5-ти классовой классификации.

Список литературы:

A. A. Abdelhamid, E-S. M. El-Kenawy, B. Alotaibi, G. M. Amer, M. Y. Abdelkader et al., “Robust speechemotion recognition using CNN +LSTM based on stochastic fractal search optimization algorithm,”IEEE Access, vol. 10, pp. 49265–49284, 2022
Yuanyuan Zhang, Jun Du, Zirui Wang, Jianshu Zhang and Yanhui Tu, “Attention Based Fully Convolutional Network for Speech Emotion Recognition” in 2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
Gu, Y.; Yang, K.; Fu, S.; Chen, S.; Li, X.; Marsic, I. “Multimodal Affective Analysis Using Hierarchical Attention Strategy with Word-Level Alignment” in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, Melbourne, Australia, 15–20 July 2018; Volume 2018, p. 2225.
C. Busso, M. Bulut, C. Lee, A. Kazemzadeh, E. Mower, S. Kim, J. Chang, S. Lee, and S. Narayanan “IEMOCAP (The Interactive Emotional Dyadic Motion Capture)” at https://sail.usc.edu/iemocap/

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

РАЗРАБОТКА ИЕРАРХИЧЕСКОГО МЕХАНИЗМА ВНИМАНИЯ ДЛЯ РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА ПО ЕГО ГОЛОСУ

Оставить комментарий