Статья опубликована в рамках: Научного журнала «Студенческий» № 17(313)
Рубрика журнала: Информационные технологии
СОВРЕМЕННЫЕ АЛГОРИТМЫ РАСПОЗНАВАНИЯ ЭМОЦИЙ ПО ЛИЦУ: МЕТОДЫ, ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ
MODERN FACIAL EMOTION RECOGNITION ALGORITHMS: METHODS, CHALLENGES, AND PROSPECTS
Radmir Kadyrov
student, Department of Automation and Control, Naberezhnye Chelny Institute, Kazan (Volga Region) Federal University,
Russia, Naberezhnye Chelny
АННОТАЦИЯ
Распознавание эмоций является важной задачей в области компьютерного зрения и искусственного интеллекта, которая применяется в психологии, медицине, робототехнике, а также в беспилотных транспортных средствах. В данной статье рассматриваются современные методы анализа эмоций, как традиционные подходы, так и глубокое обучение. Будут обсуждаться ключевые проблемы, такие как: освещение, окклюзия и культурные различия, этика, а также перспективные направления развития технологии.
ABSTRACT
Emotion recognition is an important task in the fields of computer vision and artificial intelligence, with applications in psychology, medicine, robotics, and autonomous vehicles. This article examines modern emotion analysis methods, including both traditional approaches and deep learning techniques. Key challenges such as lighting, occlusion, cultural differences, and ethical considerations will be discussed, along with promising directions for the future development of this technology.
Ключевые слова: распознавание эмоций, компьютерное зрение, глубокое обучение, CNN, трансформеры, FER.
Keywords: emotion recognition, computer vision, deep learning, CNN, transformers, FER.
Введение
Распознавание эмоций по лицу – это область искусственного интеллекта, которая направлена на определение эмоционального состояния человека по его мимике.
Технология может применяться:
1) В медицине: например, можно диагностировать психологические отклонения, определять аутизм, выявлять боль
2) В маркетинге: собирать и анализировать реакцию людей на рекламу
3) В робототехнике: создание эмоционально отзывчивых интерфейсов
4) В автоматизированных транспортных средствах: определение состояния человека по лицу.
Несмотря на прогресс в этой области, остается ряд проблем, которые могут усложнить использование данного направления в реальности: изменчивость условий съемки, субъективность эмоций, недостаток данных. В данной статье мы рассмотрим анализ современных методов, их ограничения и возможные пути развития.
Методы распознавания эмоций
Для начала рассмотрим традиционные подходы, к ним относятся:
1) Анализ ключевых точек (Active Appearance Models)
Active Appearance Models (AAM) — это статистическая модель изображений, которая путём разного рода деформаций может быть подогнана под реальное изображение.
AAM используются для генерации набора особенностей, характерных для лица человека, которые затем могут применяться для различных задач, таких как распознавание лица, распознавание выражения лица и оценка позы.
2) Гистограммы ориентированных градиентов (HOG) и локальные бинарные шаблоны (LBP). Данные методы анализируют направление градиентов яркости в локальных областях лица. Эти методы часто используется для детекции лица перед классификацией эмоций.
3) Методы машинного обучения (SVM, Random Forest) с ручными признаками.
Метод опорных векторов (SVM) используется в ситуациях, когда данных мало, а высокая скорость работы является приоритетом. Основная идея SVM — это создание гиперплоскости, которая разделяет классы в многомерном пространстве.
Случайный лес (Random Forest) — ансамблевый метод, который объединяет множество деревьев решений для улучшения точности предсказаний. Идея состоит в том, чтобы создавать несколько деревьев решений на основе разных подвыборок данных и затем комбинировать их результаты.
Теперь рассмотрим методы глубокого обучения, современные методы используют нейросетевые архитектуры:
1) Сверточные нейронные сети (СNN)
Свёрточные нейронные сети (CNN) — это специализированный класс искусственных нейронных сетей, разработанный для задач, где важна пространственная структура данных, например, обработка изображений или видео.
Основной принцип работы CNN заключается в применении операции свёртки, которая позволяет извлекать пространственные иерархические признаки. Свёртка — это процесс, где небольшое ядро (фильтр) скользит по изображению и вычисляет новые значения, выделяя локальные признаки. К данным методам относятся: VGG, ResNet, EfficientNet.
2) Трансформер (англ. Transformer) — архитектура глубоких нейронных сетей, представленная в 2017 году исследователями из Google Brain. К этому методу относятся следующие классы моделей: ViT (Vision Transformer), Swin-Transformer
3) Гибридные модели (CNN + LSTM)
Гибридные модели CNN и LSTM объединяют возможности сверточных нейронных сетей (CNN) и сетей долгой краткосрочной памяти (LSTM) для захвата пространственных закономерностей и долгосрочных зависимостей в последовательных данных.
Проблемы и ограничения
В первую очередь рассмотрим технические сложности, к ним относятся:
1) Наличие очков, масок, бороды (данные атрибуты могут перекрыть ключевые точки лица, что будет препятствовать распознаванию эмоций человека)
2) Изменение ракурса или освещения (плохое освещение или изменение ракурса лица, может сбить систему, из-за нехватки данных для анализа)
3) Низкое качество видеоматериала (размытие, шумы, причиной может быть плохое качество камеры)
Также проблемы распознавания могут вызвать субъективность эмоций. Например, азиаты менее экспрессивны, чем европейцы, что может привести к сложностям при распознавании эмоций, или, например, индивидуальные особенности мимики, ведь каждый человек по-разному реагирует на случившуюся ситуацию, что тоже может неправильно распознаться системой.
И крайней проблемой, которую не так часто учитывают при разработке таких систем это этические нормы. Лицо человека является биометрическими данными, уникальные физиологические и/или поведенческие характеристики, которые могут быть использованы для его идентификации. При использовании системы стоит учитывать, как безопасность хранения этих данных, так и согласие от пользователя, на использование его биометрических данных.
Перспективы направления
Для более качественного анализа эмоций человека систему можно улучшить с помошью:
1) Помимо эмоций человека, видимых только на камеру, использовать аудио (речь, интонация), а также по возможности физиологические сигналы (ЭЭГ, пульс). Например, EmoNet, данная система объединяет CNN для лица и RNN для голоса.
2) Использование генеративных моделей для синтеза дополнительных данных и улучшения обучения на малых датасетах.
3) Использовать объяснимый искусственный интеллект (Explainable AI, XAI), для более доступного анализа решений ИИ, что в дальнейшем поможет выявить недостатки и устранить их.
Заключение
Таким образом, распознавание эмоций по лицу активно развивается благодаря методам глубокого обучения, но сталкивается с проблемами качества данных, индивидуальности человека и этики.
При решении вышеуказанных проблем данная область будет весьма актуальной в современном мире, так как это в разы повысит как эффективность лечения болезней, так и безопасность на улицах и дорогах.
Список литературы:
- Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение / Пер. с англ. – М.: ДМК Пресс, 2022. – 652 с.
- Дмитриев К., Методы машинного обучения для анализа изображений и временных рядов – Москва, МГУ, 2021. – 480 с.
- Хайкин С. Нейронные сети: полный курс – М.: Вильямс, 2020. – 1104 с.
- Tan M., Le Q.V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks // [Электронный ресурс]. – URL: https://arxiv.org/abs/1905.11946 (дата обращения: 07.05.2024).
- Vaswani A. et al. Attention Is All You Need // [Электронный ресурс]. – URL: https://arxiv.org/abs/1706.03762 (дата обращения: 07.05.2024).
Оставить комментарий