Статья опубликована в рамках: CCXXXVII Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 28 мая 2026 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Снисаренко О. УНИВЕРСАЛЬНАЯ МУЛЬТИМОДАЛЬНАЯ МОДЕЛЬ ДЛЯ РАСПОЗНАВАНИЯ ЭМОЦИЙ // Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ: сб. ст. по мат. CCXXXVII междунар. студ. науч.-практ. конф. № 10(236). URL: https://sibac.info/archive/meghdis/10(236).pdf (дата обращения: 21.07.2026)

Проголосовать за статью

Конференция завершена

Эта статья набрала 0 голосов

Дипломы участников

У данной статьи нет
дипломов

УНИВЕРСАЛЬНАЯ МУЛЬТИМОДАЛЬНАЯ МОДЕЛЬ ДЛЯ РАСПОЗНАВАНИЯ ЭМОЦИЙ

Снисаренко Ольга

магистрант, кафедра математического моделирования, Московский Государственный Университет имени М. В. Ломоносова,

РФ, г. Москва

Шишкин Алексей Геннадиевич

научный руководитель,

д-р физ. - мат. наук, Московский Государственный Университет имени М. В. Ломоносова,

РФ, г. Москва

GENERALIZED MULTIMODAL FRAMEWORK FOR EMOTION RECOGNITION

Snissarenko Olga

Master’s student, Department of Mathematical Modelling, Lomonosov Moscow State University,

Russia, Moscow

Shishkin Aleksey Gennadievich

Scientific supervisor, Doctor of Physical and Mathematical Sciences, Lomonosov Moscow State University,

Russia, Moscow

АННОТАЦИЯ

В работе представлена мультимодальная модель распознавания эмоций на основе интеграции аудиоданных, видеоданных и ЭЭГ-сигналов. Исследование выполнено на датасете EAV (EEG-Audio-Video Dataset for Emotion Recognition in Conversational Contexts) с использованием методов late fusion и Multi-Loss Gradient Modulation for Multimodal Learning. В качестве энкодеров применялись модели Wav2Vec 2.0, EfficientNet-B0 и сверточная сеть для обработки ЭЭГ-признаков. Проведённый анализ показал, что мультимодальный подход обеспечивает более высокие значения accuracy и F1-score по сравнению с унимодальными моделями, а также демонстрирует хорошую обобщающую способность и устойчивость классификации эмоций.

ABSTRACT

This paper presents a multimodal emotion recognition model based on the integration of audio, video, and EEG signals. The study was conducted on the EAV (EEG-Audio-Video Dataset for Emotion Recognition in Conversational Contexts) dataset using late fusion and Multi-Loss Gradient Modulation for Multimodal Learning methods. Wav2Vec 2.0, EfficientNet-B0, and a convolutional neural network for EEG feature extraction were used as encoders. The experimental results demonstrate that the multimodal approach achieves higher accuracy and F1-score compared to unimodal models, while also providing good generalization ability and stable emotion classification performance.

Ключевые слова: мультимодальное обучение; распознавание эмоций; EEG; Wav2Vec 2.0; EfficientNet; late fusion; deep learning.

Keywords: multimodal learning; emotion recognition; EEG; Wav2Vec 2.0; EfficientNet; late fusion; deep learning.

С ростом социальных сетей и вычислительных мощностей пользователи всё

чаще выражают эмоции мультимодально (текст, аудио, изображения, видео), стимулируя исследования в области мультимодального распознавания эмоций (MERC) [1, с. 6818]. Это направление улучшает рекомендательные системы, медицинские приложения и дистанционное обучение [2, с. 90]. Аудио- и видео признаки точнее идентифицируют эмоции, особенно с учётом мимики [3, с. 1], интонаций и жестов, но задачу усложняют шум, индивидуальные особенности и культурно-языковые различия. Цель данной работы разработать и исследовать мультимодальную модель классификации базовых эмоций на основе интеграции аудио признаков, видео признаков и физиологических сигналов с целью повышения точности распознавания по сравнению с традиционными унимодальными подходами.

Основной гипотезой является то, что различные техники комбинации видео и аудио признаков могут повысить точность модели. Предполагается, что исследование продемонстрирует эффективные результаты после применения методов late fusion, Multi-Loss Gradient Modulation for Multimodal Learning [10].

Для экспериментов использовался широко известный набор данных EAV “EEG-Audio-Video Dataset for Emotion Recognition in Conversational Contexts” [4]. Этот набор данных был записан сорока двумя англоговорящими участниками, которые выполняли 200 различных сценарных взаимодействий. Этот набор данных включает в себя восемь тысяч четыреста сбалансированных примеров записей и он разделен на пять популярных эмоциональных состояний: нейтральное, гнев, радость, печаль, спокойствие. Особенность этого датасета, в том, что он приближен к реальным условиям по сравнению с классическими наборами данных, записанных с изолированным выражением эмоций. Данные содержат 3 модальности: аудио, видео и ЭЭГ сигналы. ЭЭГ сигналы записывались с использованием 30 электродов с частотой дискретизации 500 Гц, аудиоданные представлены в виде монофонических WAV-записей с частотой 44,1 кГц и содержат речевые характеристики,такие как интонация, тембр и ритм. Видеоданные включают в себя записи лиц участников с частотой 30 кадров в секунду и отражают визуальные признаки эмоций, включая мимику и микровыражения.

Аудиодорожки приводились к формату WAV с частотой дискретизации 16 000 Гц. Перед подачей в модель сигнал нормализовался методом z-score, где среднее и стандартное отклонение вычислялись по всей обучающей выборке. Для получения фрагментов фиксированной длины применялось скользящее окно с перекрытием 50%. Во время обучения выбиралась случайная позиция окна, на этапе валидации и тестирования, использовалась центральная. Переменно-длинные фрагменты в батче выравнивались паддингом с формированием соответствующей маски внимания.

Видеоряд обрабатывался в режиме 1 кадр/с, а также путем равномерного отбора 25 кадров из первых 150 (режим Clip-25). Для каждого примера формировался тензор из T=3 кадров. На этапе обучения применялись аугментации RandomResizedCrop(224) и RandomHorizontalFlip; для всех разбиений выполнялось масштабирование до 224×224 пикселей и нормализация по статистикам ImageNet (mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]).

Сигналы ЭЭГ (30 каналов, 500 Гц) обрабатывались следующим образом. Применялся полосовой фильтр Баттерворта 5-го порядка в диапазоне 1–45 Гц, после чего сигнал ресемплировался до 200 Гц. Для удаления глазодвигательных артефактов использовался алгоритм FastICA [8] (20 компонент) с автоматической идентификацией компонент по каналам Fp1/Fp2 (удалялось до 3 компонент). Сигнал разбивался на эпохи длиной 5 с (1000 отсчётов) с перекрытием 50%; из каждой эпохи вычиталась базовая линия (первые 200 мс). Эпохи с амплитудой, превышающей 150 мкВ, отбрасывались. Для снижения межсессионного сдвига применялось Euclidean Alignment [9]. Из каждой эпохи извлекались признаки дифференциальной энтропии (DE) по четырем частотным полосам: θ (4–8 Гц), α (8–13 Гц), β (13–30 Гц), γ (30–45 Гц) для каждого из 30 каналов. После был сформирован вектор признаков размерностью 30×4. Финальная нормализация выполнялась методом z-score в пределах каждого субъекта.

Обучение происходило на основе мультимодальной модель, которая включает три независимыхэнкодера (для аудио, видео и ЭЭГ) с последующим объединением через суммирование логитов (late fusion).

Аудио-энкодер построен на базе предобученной модели Wav2Vec 2.0 Large Robust (facebook/wav2vec2-large-robust) (принадлежит Meta, признана экстремистской и запрещенной в России) [5]; последние 12 из 24 трансформерных слоёв удалены, признаковый энкодер заморожен. Поверх усечённой модели добавляются свёрточный слой 1×1 (1024→50) и стек Conformer [7] (input_dim=50, encoder_dim=512, num_layers=5); темпоральное усреднение (AdaptiveAvgPool1d) формирует 512-мерный вектор представления.

Видео-энкодер использует EfficientNet-B0 [6] в качестве экстрактора признаков (1280-D на кадр). Обрабатываются два параллельных потока: полный кадр и центральный кроп (ratio=0.6), их результаты объединяются обучаемым двумерным мягким гейтом. Признаки каждого кадра проецируются линейным слоем (1280→512) и агрегируются по временному измерению усреднением или опциональным трансформером (2 слоя, 4 головы).

ЭЭГ-энкодер принимает тензор формы (1, 30, 4) и обрабатывает его двумя последовательными свёрточными слоями: Conv2d(1→64, kernel=(1,4)) для частотного измерения и Conv2d(64→128, kernel=(30,1)) для пространственного (канального) измерения, с GELU-активацией и Dropout(0.4). Полученный 128-мерный вектор проецируется в пространство 512-D для фьюжена.

Каждый энкодер снабжён собственной классификационной головой (Linear(512→num_classes)), а итоговые логиты вычисляются как сумма трёх ветвей. Многокомпонентная функция потерь включает как объединённый, так и унимодальные сигналы обучения.

Разбиение на обучающую, валидационную и тестовую выборки выполнялось на уровне субъектов, что исключает утечку данных между разбиениями. Субъекты перемешивались случайным образом (seed=42) и распределялись в пропорции 70 / 10 / 20% соответственно (при 42 субъектах это было: 30 / 4 / 8 субъектов). Ни один субъект не присутствует одновременно в нескольких разбиениях.

Модель обучалась с использованием оптимизатора Adam (lr=5×10⁻⁵, weight_decay=5×10⁻⁵, β₁=0.9, β₂=0.999, ε=1×10⁻⁷) в течение 120 эпох с размером батча 4. Использовалась ранняя остановка: обучение прекращалось при отсутствии улучшения метрики точности (accuracy) на валидационной выборке в течение 15 последовательных проверок. Использовалась функция потерь CrossEntropyLoss, суммируемая по четырем выходам модели: объединенному и трём унимодальным (аудио, видео, ЭЭГ) с равными весами. На этапе обучения к ЭЭГ-признакам применялась дополнительная аугментация: добавление гауссовского шума и случайное обнуление каналов.

По результатам обучения были получены следующие метрики:

Таблица 1.

Результаты классификации эмоций для различных модальностей

Текст	Val Accuracy	Test accuracy	F1 macro
Мультимодальная модель	92.31	96.77	96.17
Аудио	92.31	95.16	93.96
Видео	50.00	38.71	38.91
ЭЭГ	38.46	46.77	45.41

Лучший результат модель показала на 55 эпохе, достигнув 92.31 точности на валидационной выборке.

Рисунок 1. Кривые обучения мультимодальной модели

Во время обучения наблюдается стабильный рост accuracy и F1-score и одновременное снижение функции потерь, что свидетельствует о корректной сходимости модели. После ~50 эпох метрики выходят на плато, а train accuracy приближается к 100%, при этом test и validation остаются высокими, что указывает на хорошую обучаемость и устойчивость мультимодального подхода.

Рисунок 2. Матрицы ошибок по модальностям

Мультимодальная модель достигла наилучших результатов по accuracy и F1-score, превосходя все отдельные модальности. Аудио оказалось наиболее информативной unimodal-модальностью с почти идеальной классификацией, тогда как Video и EEG показывают значительно более низкое качество и сильную путаницу между эмоциями. Это подтверждает, что объединение модальностей повышает устойчивость и точность распознавания эмоций. Аудио модальность является главенствующей, а видео и ЭЭГ дополняют ее.

Рисунок 3. Матрица ошибок

Модель показывает высокое качество классификации, потому что большинство предсказаний находится на главной диагонали матрицы. Наибольшие ошибки возникают между классами 2 и 3, а также частично между 1 и 5, что говорит о схожести соответствующих эмоциональных состояний. В целом модель демонстрирует хорошую сбалансированность между классами.

Рисунок 4. Анализ обобщающей способности и сравнение модальностей

Разрыв между train и test accuracy остаётся умеренным, что говорит о хорошем обобщении модели без сильного переобучения. Мультимодальная модель обеспечивает максимальные показатели accuracy и F1-score, тогда как унимодальная Video и EEG значительно уступают, особенно по стабильности классификации отдельных эмоций.

Вывод: мультимодальный подход Fusion (Audio + Video + EEG) показал наилучшие результаты в задаче распознавания эмоций, значительно превзойдя отдельные модальности по accuracy и F1-score, при этом аудио оказалось наиболее информативным источником среди unimodal-моделей. Анализ кривых обучения и confusion matrix показал хорошую обобщающую способность модели, устойчивую сходимость и снижение ошибок классификации за счет объединения нескольких модальностей.

Список литературы:

Majumder N., Poria S., Hazarika D., Mihalcea R., Gelbukh A., Cambria E. DialogueRNN: An attentive RNN for emotion detection in conversations // Proceedings of the AAAI Conference on Artificial Intelligence. — 2019. — Vol. 33, № 1. — P. 6818–6825. — DOI: 10.1609/aaai.v33i01.33016818.
Schuller B. W. Speech emotion recognition: Two decades in a nutshell, benchmarks, and ongoing trends // Communications of the ACM. — 2018. — Vol. 61, № 5. — P. 90–99.
Mollahosseini A., Chan D., Mahoor M. H. Going deeper in facial expression recognition using deep neural networks // Proceedings of the IEEE Winter Conference on Applications of Computer Vision (WACV). — 2016. — P. 1–10.
EAV: EEG-Audio-Video Dataset for Emotion Recognition in Conversational Contexts // IEEE Dataport / Kaggle Dataset. — URL: https://zenodo.org/records/10205702 (дата обращения: 20.09.2025).
Baevski A., Zhou H., Mohamed A., Auli M. wav2vec 2.0: A framework for self-supervised learning of speech representations // Advances in Neural Information Processing Systems (NeurIPS). — 2020. — Vol. 33. — P. 12449–12460.
Tan M., Le Q. EfficientNet: Rethinking model scaling for convolutional neural networks // Proceedings of the 36th International Conference on Machine Learning (ICML). — 2019. — P. 6105–6114.
Gulati A., Qin J., Chiu C.-C. et al. Conformer: Convolution-augmented Transformer for speech recognition // Interspeech. — 2020. — P. 5036–5040.
Delorme A., Makeig S. EEGLAB: An open source toolbox for analysis of single-trial EEG dynamics // Journal of Neuroscience Methods. — 2004. — Vol. 134, № 1. — P. 9–21.
He H., Wu D. Transfer learning for brain–computer interfaces: A Euclidean space data alignment approach // IEEE Transactions on Biomedical Engineering. — 2020. — Vol. 67, № 2. — P. 399–410.
Peng X., Wang W., Hu Y. et al. Multi-Loss Gradient Modulation for Multimodal Learning // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2022. — P. 14157–14167.