Статья опубликована в рамках: XC Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 08 июня 2020 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
РАЗРАБОТКА СИСТЕМЫ РАСПОЗНАВАНИЯ ЖЕСТОВОГО ЯЗЫКА НА ОСНОВЕ НЕЙРОННЫХ СЕТЕЙ
АННОТАЦИЯ
В работе представлена система для распознавания жестового языка на основе рекуррентных и сверточных нейронных сетей. Основная проблема распознавания жестового языка заключается в том, что большинство жестов не являются статическими, вследствие чего требуется выделять продолжительный жест из видеопотока, а только затем распознавать его. Также отдельной проблемой является их количество, помимо прочего многие из них содержат похожие жесты и движения. По результатам модели системы, предложенной в работе, можно сказать, что она достаточно точно справляется с задачей, однако на ограниченном количестве классов.
Ключевые слова: распознавание динамических жестов, сверточные, рекуррентные, нейронные сети.
ВВЕДЕНИЕ
Жестовый язык является наиболее структурированной формой общения для глухих и слабослышащих. Часто может возникнуть потребность в использовании жестового языка и для людей без нарушения слуха. Данная работа направлена на изучение и решение данной проблемы.
В настоящее время большинство систем по распознаванию жестов в качестве входных данных используют видеоданные в цветовой модели RGB. Такой подход актуален и достаточно прост, так как он дает возможность распознавать жесты, используя только смартфон с камерой. Например, в работе [1] используются цветные перчатки на руках для сбора данных для моделирования последовательных зависимостей с использованием скрытой марковской модели для распознавания американского жестового языка (ASL). В некоторых работах также используются данные, полученные при помощи Kinect с использованием данных акселерометров, закрепленных на руках [2].
Сверточные нейронные сети лежат в основе большинства современных задач компьютерного зрения. Хуанг и др. в [3] продемонстрировали эффективность использования сверточных нейронных сетей для распознавания языка жестов. Трехмерная CNN использовалась для извлечения пространственно-временных признаков из видео. Кристиан Сегеди и др. [4] представили модель Inception V3. Она позволяет выделять признаки из изображений, а после классифицировать их. Данная модель достигает высокой точности в распознавании и может быть использована для выделения признаков из каждого кадра при распознавании жеста, однако модель потребляет достаточно много вычислительных ресурсов и может быть заменена, например, на VGG-16 [5].
В работе [6] авторы предложили использовать сеть LSTM, которая использует движения нескольких суставов тела для распознавания человеческой деятельности по данным скелета. Рекуррентные нейронные сети подходят для фиксирования временной динамики данных, однако RNN имеют проблемы исчезающих и взрывных градиентов. LSTM решают эту проблему при помощи внутренней памяти и механизмов для обновления используемой памяти.
В результате, было решено использовать CNN и RNN для решения задачи распознавания жестового языка, так как они показывают хорошие результаты в решении схожих задач.
ИСХОДНЫЕ ДАННЫЕ
Основной проблемой распознавания русского жестового языка (РЖЯ) является отсутствие доступных данных для обучения нейронных сетей, поэтому было принято решение использовать базы для других языков. Было найдено около 20 различных датасетов в открытом доступе. Некоторые из них насчитывают по терабайту данных, например, SIGNUM [9]. В связи с ограниченными вычислительными ресурсами, обучение всей системы может занять довольно продолжительное время; поэтому по многим критериям был выбран датасет LSA64 [8], в котором насчитывается 64 жеста и 3200 видеозаписей в высоком качестве. Для разработки системы был использован язык Python 3.7 и фреймворк для глубокого обучения TensorFlow 2.0 [7]. В качестве сверточной нейронной сети использована модель Google Inception V3 [4].
РАЗРАБОТКА СИСТЕМЫ РАСПОЗНАВАНИЯ ЖЕСТОВ
В разработанной системе пространственные признаки для каждого из кадров видео извлечены при помощи сверточной нейронной сети, а временные признаки извлечены при помощи рекуррентной нейронной сети. Каждая видеозапись была разделена на кадры, из кадров был извлечен фон, сохраняя лишь кисти рук. Также изображение было переведено в режим градации серого, во избежание обучения сети для специфических цветов (рисунок 1).
Рисунок 1. Кадр жеста из LSA64 [8] до обработки и после обработки
Модель Inception V3 переобучена на обучающей выборке, выделенной из датасета LSA64, для распознавания пространственных признаков. Слой пулинга сети, возвращающий 2048-мерный вектор, представляет сверточные признаки изображения. Данный вектор будем передавать на вход рекуррентной нейронной сети. Такой подход улучшает классификацию, благодаря большему количеству признаков, хотя и может привести к переобучению сети из-за случайного шума в обучающем наборе. Модель рекуррентной нейронной сети состоит из одного слоя, содержащего 256 блоков LSTM. За этим слоем следует полностью связанный слой с функцией активации softmax. Наконец, регрессионный слой является выходным в системе, в качестве оптимизатора используется Adaptive Moment Estimation (ADAM) [10].
Общая структурная схема системы приведена на рисунке 2.
Рисунок 2. Структурная схема системы
РЕЗУЛЬТАТЫ
Предложенный подход показал результат с точностью ~96% на тестовой выборке, содержащей 10% от общего набора жестов LSA64. По метрике Top 3 достигается точность 100%, так, как и говорилось ранее, жестовый язык достаточно сложен и имеет много схожих жестов и движений. Полученный результат показал, что CNN в паре с RNN успешно решают поставленную задачу. В будущем данную систему можно облегчить и перенести на мобильные устройства c использованием TensorFlow Lite.
Список литературы:
- Zafrulla Z., Brashear H. et al. American sign language phrase verification in an educational game for deaf children // 20th International Conference on Pattern Recognition. – 2010. P.3846–3849
- Zafrulla Z., Brashear H. et al. American sign language recognition with the kinect // 13th International Conference on Multimodal Interfaces. – 2011. P.279–286
- Huang J., Zhou W., Li H., Li W. Sign language recognition using 3d convolutional neural networks // IEEE International Conference on Multimedia and Expo (ICME). – 2015. P.1–6
- Szegedy C., Vanhoucke V. et al. Rethinking the Inception Architecture for Computer Vision // arXiv:1512.00567. – 2015. P.1-10
- Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition // arXiv:1409.1556. – 2014. P.1-14
- Shahroudy A., Liu J., Ng T., Wang G. A large scale dataset for 3d human activity analysis // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – 2016. P.1010–1019
- Abadi, M., Agarwal, A. et al. Tensorflow: large-scale machine learning on heterogeneous distributed systems // arXiv:1603.04467. – 2016. P.1-19
- Ronchetti, F., Quiroga, F. et al. LSA64: an Argentinian sign language dataset // XXII Congreso Argentino de Ciencias de la Computación, CACIC. – 2016. P.794-803
- von Agris U., Knorr M., Kraiss K.-F. The significance of facial features for automatic sign language recognition // Automatic Face & Gesture Recognition, FG’08. 8th IEEE International Conference. – 2008. P.1–6
- Kingma, D., Ba, J. Adam: a method for stochastic optimization // arXiv:1412.6980, 2014. P.1-16
Оставить комментарий