Статья опубликована в рамках: CII Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 26 июня 2024 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
РАСПОЗНАВАНИЕ ЭМОЦИЙ В РЕЧИ С ИСПОЛЬЗОВАНИЕМ МАШИННОГО ОБУЧЕНИЯ И ГЛУБОКОГО ОБУЧЕНИЯ
EMOTION RECOGNITION IN SPEECH USING MACHINE LEARNING AND DEEP LEARNING
Mai Tien Dung
Student, MIREA - Russian Technological University,
Russia, Moscow
АННОТАЦИЯ
Цель: Исследовать эмоции в голосе во время разговора. Например, речь, произнесенная в состоянии страха, гнева или радости, становится громкой и быстрой, с более высоким и широким диапазоном высоты звука, в то время как эмоции, такие как грусть или усталость, создают медленную и низкую речь. Обнаружение человеческих эмоций через анализ голосовых и речевых образцов имеет множество применений, таких как улучшение взаимодействия между человеком и машиной.
Методы: В этом исследовании были представлены модели классификации эмоций на основе сверточных нейронных сетей (CNN), машины опорных векторов (SVM) и многослойного перцептрона (MLP), основанные на акустических характеристиках, таких как мел-кепстральные коэффициенты (MFCC). Модели были обучены для классификации семи различных эмоций (нейтральное, спокойное, радостное, грустное, гневное, испуганное, отвращение, удивление).
Результаты: Оценка исследования показала, что предложенный метод обеспечивает точность соответственно 84%, 82% и 84% при использовании CNN, MLP и SVM для семи эмоций, используя базу данных Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) и Toronto Emotional Speech Set (TESS).
Выводы: Результаты показывают, что модели на основе глубоких нейронных сетей, таких как CNN, более точны в классификации эмоций по сравнению с традиционными методами, такими как SVM и MLP. Эти методы могут эффективно применяться для улучшения взаимодействия между человеком и машиной.
ABSTRACT
Objective: To investigate emotions in the voice during conversations. For instance, speech expressed in states of fear, anger, or joy becomes loud and fast, with a higher and wider pitch range, whereas emotions such as sadness or tiredness generate slow and low speech. Detecting human emotions through the analysis of voice and speech samples has numerous applications, such as enhancing human-machine interactions.
Methods: This study introduced emotion classification models based on convolutional neural networks (CNN), support vector machines (SVM), and multilayer perceptrons (MLP), grounded on acoustic features such as mel-frequency cepstral coefficients (MFCC). Models were trained to classify seven different emotions (neutral, calm, happy, sad, angry, fearful, disgust, surprise).
Results: The evaluation demonstrated that the proposed method achieves accuracy rates of 84%, 82%, and 84% using CNN, MLP, and SVM respectively for the seven emotions, utilizing the Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) and Toronto Emotional Speech Set (TESS).
Conclusions: Findings indicate that models based on deep neural networks, such as CNN, are more accurate in emotion classification compared to traditional methods like SVM and MLP. These methods can effectively be applied to enhance human-machine interactions.
Ключевые слова: эмоции, голосовой анализ, глубокие нейронные сети, сверточные нейронные сети, машина опорных векторов, многослойный перцептрон, мел-кепстральные коэффициенты (MFCC), классификация эмоций, RAVDESS, TESS.
Keywords: Emotions, voice analysis, deep neural networks, convolutional neural networks, support vector machines, multilayer perceptron, mel-frequency cepstral coefficients (MFCC), emotion classification, RAVDESS, TESS.
Введение
Голос является наиболее естественным и эффективным средством коммуникации человека. Речь включает в себя характеристики языкового выражения, такие как фонетика, морфология, синтаксис и семантика, а также состояние выражаемых эмоций. Анализ голосовых сигналов позволяет глубоко понять такие аспекты, как интонация, лексический запас, характеристики говорящего и эмоциональное содержание речи.
Применение анализа голоса весьма разнообразно, включая поддержку в услугах по обслуживанию клиентов банков, предприятий, ресторанов, а также в медицинской сфере для ухода за пациентами. Он также используется для оценки уровня удовлетворенности клиентов и улучшения взаимодействия между людьми и сервисами.
В данном исследовании наша цель заключается в использовании моделей машинного обучения, таких как машины опорных векторов (SVM), многослойный перцептрон (MLP) и сверточные нейронные сети (CNN), для анализа чистых аудиоданных, особенно с использованием коэффициентов мел-кепстральной частоты (MFCC) [2]. MFCC широко применяется в обработке аудиосигналов благодаря своей способности эффективно описывать характеристики аудиосигнала, что делает его подходящим входным данным для моделей машинного обучения, направленных на анализ и классификацию эмоций в голосе.
1. Детали Реализации
1.1 Методология
В данном исследовании предлагаются модели классификации для распознавания эмоций на основе методов опорных векторов (SVM) и многослойного перцептрона (MLP). Основная идея заключается в использовании мел-частотных кепстральных коэффициентов (MFCC) [2] [3], часто называемых "спектром спектра", в качестве единственного признака для обучения модели. MFCC зарекомендовали себя как одна из самых передовых техник представления звука для задачи автоматического распознавания речи. Коэффициенты MFCC широко используются из-за их способности представлять амплитудный спектр звукового сигнала в виде компактного вектора.
Процесс извлечения признаков MFCC описан в [2] [3]. Сначала аудиофайл разбивается на фреймы фиксированного размера окна, чтобы получить статистически устойчивые сегменты сигнала. Затем амплитудный спектр нормализуется путем отображения частот на "мел" шкалу. Этот шаг помогает подчеркнуть частоты, которые более значимы для воссоздания сигнала, аналогично тому, как слуховая система человека воспринимает звук. Для каждого аудиофайла извлекаются 40 признаков MFCC, преобразуя аудиофайл в последовательность вещественных чисел. Затем из этой временной последовательности генерируются последовательности MFCC. Матрица MFCC транспонируется, и среднее значение вычисляется по горизонтальной оси матрицы.
1.2 Алгоритмы
1.2.1 Convolutional Neural Network (Cnn)
Глубокая нейронная сеть (CNN), разработанная для задачи классификации, представлена на рис. 2.1 Сеть способна работать с векторами из 40 признаков для каждого аудиофайла, подаваемого на вход. 40 значений представляют собой компактную числовую форму аудиокадра длиной 2 секунды. Следовательно, а вход подается ряд обучающих файлов размером (40 x 1), на которых выполнен один раунд 1D CNN с функцией активации ReLU, dropout 20% и функцией max-pooling 2 x 2. Rectified linear unit (ReLU) можно формализовать как g(z) = max{0, z}, и она позволяет нам получить большое значение в случае активации, применяя эту функцию как хороший выбор для представления скрытых единиц. Pooling в этом случае может помочь модели сосредоточиться только на основных характеристиках каждой части данных, делая их инвариантными по отношению к их позиции. Описанный процесс был повторен с изменением размера ядра. Затем был применен еще один dropout и выход был сглажен, чтобы сделать его совместимым со следующими слоями. Наконец, был применен один Dense слой (полносвязный слой) с функцией активации softmax, изменив размер выхода с 640 элементов до 8 и оценив вероятностное распределение каждого из правильно закодированных классов. (Neutral=0; Calm=1; Happy=2; Sad=3; Angry=4; Fearful= 5; Disgust=6; Surprised=7).
Рисунок 2.1. CNN layer
1.2.2 Multilayer Perceptron (MLP)
Многослойный перцептрон (MLP) - это класс искусственных нейронных сетей (ANN) прямого распространения. MLP использует метод обучения с учителем, называемый обратным распространением ошибки, для обучения сети. Его множественные слои и нелинейная активация отличают MLP от линейного перцептрона. Он может различать данные, которые не являются линейно разделимыми.
Многослойный персептрон (MLP): MLP принадлежит к классу нейронных сетей с прямой связью. Он состоит как минимум из трех узлов: входного, скрытого и выходного слоя. Все узлы чередуются с помощью нелинейной функции активации для стабилизации сети во время обучения. Выразительная сила сети возрастает по мере увеличения количества скрытых слоев до определенной степени. Их нелинейный характер позволяет им различать данные, которые не являются линейно разделимыми.
1.2.3 Support Vector Machine (SVM)
Метод опорных векторов (SVM) - это алгоритм машинного обучения с учителем, который может быть использован как для задач классификации, так и для регрессии. Однако чаще всего он используется в задачах классификации. В алгоритме SVM каждый элемент данных представляется как точка в n-мерном пространстве (где n - количество признаков), при этом значение каждого признака является значением определенной координаты. Данные могут быть масштабированы перед применением к классификатору SVM, чтобы избежать атрибутов в больших числовых диапазонах при их обработке. Масштабирование также служит для предотвращения некоторых численных трудностей во время вычислений.
1.3 Dataset
Для этой задачи набор данных создан с использованием 5252 образцов из базы данных эмоциональной речи и песни Райерсона (RAVDESS) [1] и набора данных эмоциональной речи Торонто (TESS) [6].
Образцы включают:
Набор данных |
Актёры |
Язык |
Количество |
Категории эмоций |
RAVDESS speech |
12 мужчин и 12 женщин |
Английский |
1440 |
Грусть, гнев, радость, отвращение, удивление, нейтральное, спокойствие, страх |
RAVDESS song |
1012 |
|||
TESS |
2 женщины (26 и 64 года) |
Английский |
2800 |
Грусть, гнев, радость, отвращение, удивление, нейтральное, спокойствие, страх |
2. Блок-Схема Проектирования Системы
Рисунок 2. Блок-Схема Проектирования Системы
3. ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ
Результаты, полученные на этапе оценки, показывают эффективность модели по сравнению с базовыми линиями и современными методами на наборах данных RAVDESS и TESS. Рис. 3.1, 3.2, 3.3 отображают значения точности, полноты и F1 для каждой из эмоциональных категорий (SVM, MLP, CNN). Эти результаты показывают, что точность и полнота очень сбалансированы, что позволяет получить значения F1, распределенные вокруг значения 0,86 для почти всех классов. Небольшая изменчивость результатов F1 указывает на надежность модели, которая эффективно справляется с правильной классификацией эмоций в восьми различных категориях. Классы «Спокойствие» и «Отвращение» являются теми, в которых модель менее точна, но этот результат не удивляет, поскольку, как известно из введения, они являются самыми сложными для идентификации не только по речи, но и при наблюдении за выражением лица или анализе письменного текста. Для оценки эффективности классификации эмоций, в данной работе было проведено сравнение с ее результатами, полученными с использованием других алгоритмов, а именно SVM, MLP-классификаторов и CNN. Результаты, показанные в таблице 1, позволяют нам наблюдать, что значения F1 моей модели лучше, чем у базовых линий и конкурентов во всех категориях.
Однако необходимо отметить, что снижение производительности минимально и также направлено на предотвращение переобучения, и хорошо известно, что с увеличением числа классов задача классификации становится более сложной и теряет точность. Тем не менее, предложенная здесь модель CNN-MFCC управляется, чтобы получить значение F1, которое в среднем эквивалентно тому, что наблюдалось в двух сравнительных работах. Дополнительный показатель надежности модели можно найти на рис. 3.4 и рис. 3.5. На первом рисунке можно наблюдать, как значение потерь (ошибка в точности модели) стремится снижаться как на тестовом наборе, так и на тренировочном наборе до 200-й эпохи. Снижение менее заметно с 100й эпохи, но все же воспринимается. На рис 3.5 показано среднее значение точности по всем категориям, которое, в отличие от потерь, увеличивается с увеличением количества эпох. Такие значения потерь и точности не сильно различаются между тренировочным и тестовым наборами данных, что позволяет утверждать, что модель не переобучается при тренировке. Следствием этого, по сути, является соответствие с ранее наблюдаемыми значениями F1.
Рисунок 3.1. Результаты модели SVM на тестовом наборе для каждого класса
Рисунок 3.2. Результаты модели MLP на тестовом наборе для каждого класса
Рисунок 3.3. Результаты модели CNN на тестовом наборе для каждого класса
Таблица 1.
F1-оценка для каждого класса по сравнению с базовыми методами (SVM, MLP, CNN)
Class |
SVM |
MLP |
CNN |
Гнев |
0.89 |
0.86 |
0.88 |
Спокойствие |
0.72 |
0.70 |
0.76 |
Отвращение |
0.81 |
0.84 |
0.84 |
Страх |
0.84 |
0.84 |
0.84 |
Радость |
0.82 |
0.86 |
0.85 |
Нейтральное |
0.94 |
0.89 |
0.86 |
Грусть |
0.86 |
0.73 |
0.83 |
Удивление |
0.85 |
0.83 |
0.89 |
Рисунок 3.4. Результаты CNN Loss function после 200 эпох
Рисунок 3.5. Результаты CNN точности после 200 эпох
4. ЗАКЛЮЧЕНИЕ
В этом исследовании было разработано и проведено сравнение трех типов архитектур машинного обучения (SVM, MLP, CNN) для классификации эмоций по записям из базы данных эмоций в песнях и речах Ryerson (RAVDESS) и базы данных эмоциональной речи Торонто (TESS). Результаты показали, что модель SVM, несмотря на её легкость и простоту понимания, достигла общего показателя F1, равного 0,84, что эквивалентно модели CNN, основанной на нейронной сети. Это доказывает, что использование простых моделей машинного обучения может достигать значительных результатов.
В заключение, исследование демонстрирует, что традиционные модели машинного обучения всё ещё могут показывать впечатляющую производительность, сопоставимую со сложными моделями глубокого обучения, особенно при правильной комбинации и оптимизации. Это открывает потенциал для широкого применения моделей машинного обучения в приложениях по классификации эмоций, особенно когда вычислительные ресурсы ограничены.
Список литературы:
- LIVINGSTONE, S. R., AND RUSSO, F. A. : The Ryerson audio-visual database of emotional speech and song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in north american english. PloS one 13, 5 (2018), e0196391.
- Logan, B., et al.: Mel frequency cepstral coefficients for music modeling. In ISMIR (2000), vol. 270, pp. 1–11.
- Muda, L., Begam, M., and Elamvazuthi, I. : Voice recognition algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) techniques. arXiv preprint arXiv:1003.4083 (2010).
- Nair, V., and Hinton, G. E. : Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th international conference on machine learning (ICML-10) (2010), pp. 807–814
- Platt, J. C., Cristianini, N. and Shawe-Taylor, J. : Large margin dags for multiclass classification. In Advances in Neural Information Processing Systems 12, S. A. Solla, T. K. Leen, and K. Muller, Eds. MIT Press, 2000, pp. 547–553
- Toronto emotional speech set (TESS) (https://tspace.library.utoronto.ca/handle/1807/24487)
дипломов
Оставить комментарий