Статья опубликована в рамках: Научного журнала «Студенческий» № 17(355)
Рубрика журнала: Информационные технологии
ОБЗОР АЛГОРИТМОВ ДЛЯ РАСПОЗНАВАНИЯ ЯЗЫКА ЖЕСТОВ С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
A REVIEW OF ALGORITHMS FOR RECOGNIZING SIGN LANGUAGE USING ARTIFICIAL INTELLIGENCE
Arikainen Ivan Arkadievich
Student, Physics and Technology Institute, Petrozavodsk State University,
Russia, Petrozavodsk
Soloviev Alexey Vladimirovich
Scientific supervisor, Candidate of Physical and Mathematical Sciences, Associate Professor, Physics and Technology Institute, Petrozavodsk State University,
Russia, Petrozavodsk
АННОТАЦИЯ
В данной статье рассматриваются подходы к решению задачи по распознаванию языка жестов с использованием искусственного интеллекта. Проблема языкового барьера между глухонемыми и людьми, которые не знают языка жестов, создает большую проблему для общения. Уменьшить данный барьер можно разного рода методами искусственного интеллекта. Основные алгоритмы, играющие важную роль в распознавании жестового языка, включают свёрточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN). На основе данных алгоритмов учёные пытаются обучать модели, которые будут хорошо анализировать и распознавать жесты собеседника. В результате работы учёных появляются модели способные распознавать жесты с точностью до 99.5%. Настоящая статья посвящена анализу современных алгоритмов для распознавания жестов с использованием искусственного интеллекта.
ABSTRACT
This article discusses approaches to solving the problem of recognizing sign language using artificial intelligence. The problem of the language barrier between the deaf and dumb and people who do not know sign language creates a big problem for communication. This barrier can be reduced by various methods of artificial intelligence. The main algorithms that play an important role in sign language recognition include convolutional neural networks (CNNs) and recurrent neural networks (RNNs). Based on these algorithms, scientists are trying to train models that will analyze and recognize the gestures of the interlocutor well. As a result of the work of scientists, models are emerging that can recognize gestures with an accuracy of up to 99.5%. This article is devoted to the analysis of modern algorithms for gesture recognition using artificial intelligence.
Ключевые слова: искусственный интеллект, язык жестов, американский язык жестов, распознавание языка жестов.
Keywords: artificial intelligence, sign language, American Sign Language, sign language recognition.
Введение
Языки жестов - это уникальное семейство языков, которые используют различные жесты рук и тела, а не вербальные средства для передачи информации и способа общения. Язык жестов остается основным средством для общения глухонемых, несмотря на доступность и простоту использования альтернативных методов, например, текстовых сообщений.
Многие страны имеют свой собственный стандарт и интерпретацию жестов. Например, алфавит в корейском языке жестов не будет означать то же самое, что в индийском. Хотя это и подчеркивает разнообразие, это также усложняет понимание языков жестов.
Будучи наглядным, быстрым и доступным, язык жестов формирует основу для целого класса диалектов жестов. По сообщению Всемирной федерации глухих, более 70 миллионов людей по всему миру используют различные языки жестов.
Язык жестов, хотя и является средством общения глухих людей, по-прежнему не имеет смысла для пользователя, не владеющего языком жестов, что серьезно мешает глухим людям влиться в общество. Однако этот коммуникационный разрыв, существовавший в течение многих лет, теперь может быть сокращен за счет внедрения различных методов автоматического распознавания жестов.
Настоящий обзор посвящен анализу современных алгоритмов для распознавания жестов с использованием машинного обучения.
Алгоритмы, используемые для распознавания языка жестов
Основные алгоритмы, играющие важную роль в распознавании жестового языка, включают свёрточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN).
- Свёрточные нейронные сети (CNN) для извлечения пространственных признаков: CNN широко используются для извлечения пространственных признаков из видеокадров или изображений, представляющих собой отдельные жесты. Архитектура CNN состоит из нескольких слоев свертки, за которыми следуют слои подвыборки (pooling). Слои свертки применяют фильтры к входному изображению, чтобы выделить локальные признаки, такие как края, углы и текстуры. Слои подвыборки уменьшают размерность признаков, делая модель более устойчивой к небольшим вариациям в положении и ориентации жестов. Для распознавания статических жестов, представляющих собой определенные конфигурации рук, могут использоваться CNN, обученные на наборе изображений, содержащих примеры каждого жеста. CNN извлекает признаки, характеризующие форму руки и положение пальцев, и классифицирует жест на основе этих признаков.
- Рекуррентные нейронные сети (RNN) для моделирования временных зависимостей: RNN, в частности, сети с долгой краткосрочной памятью (LSTM) и gated recurrent units (GRU), хорошо подходят для моделирования временных зависимостей в последовательности жестов. RNN обрабатывают входные данные последовательно, сохраняя информацию о предыдущих элементах последовательности в своей скрытой памяти. Это позволяет моделям RNN учитывать контекст и зависимости между отдельными жестами, что особенно важно для распознавания динамических жестов и непрерывного жестового языка. Для распознавания динамических жестов, представляющих собой последовательность движений рук, могут использоваться LSTM, обученные на наборе видеозаписей, содержащих примеры выполнения каждого жеста. LSTM анализирует последовательность кадров, отслеживая изменения в положении и форме руки, и классифицирует жест на основе этой информации.
В статье [1] представлен SignBERT, фреймворк, основанный на архитектуре BERT, предназначенный для непрерывного распознавания жестового языка. Авторы демонстрируют, что трансформеры, такие как BERT, обладают высокой эффективностью в задачах распознавания последовательностей, в том числе и в распознавании жестов. Использование SignBERT позволяет учитывать контекст и зависимости между отдельными жестами, что особенно важно для непрерывного распознавания жестового языка, где последовательность жестов формирует целые предложения.
Авторы статьи [2] использовали свёрточные нейронные сети (CNN) и методы компьютерного зрения для автоматического распознавания жестов языка жестов. Авторы демонстрируют, что CNN обладают эффективностью в задачах классификации изображений, что применимо к распознаванию отдельных жестов, представленных на изображениях или видеокадрах. Использование компьютерного зрения позволяет выделять релевантные признаки руки из изображения, которые затем обрабатываются CNN. Это особенно важно для автоматического распознавания языка жестов, где точное выделение и классификация жестов является ключевым фактором для эффективной коммуникации. Для обучения и тестирования модели использовался созданный собственный ASL датасет. Достигнутая точность распознавания составила 98% на тестовом наборе данных, что свидетельствует об эффективности предложенного подхода.
В отличие от подхода, используемого в SignBERT, авторы [3], сосредоточились на применении свёрточных нейронных сетей (CNN) для распознавания жестов саудовского жестового языка. Они разработали систему, которая использует CNN для извлечения признаков из видеоизображений жестов. Предлагаемая архитектура CNN, состоит из нескольких свёрточных слоев, слоев пулинга и полносвязных слоев, для классификации изображений жестов. Предложенная авторами система больше ориентирована на распознавание отдельных жестов, а не непрерывных последовательностей, и может не так эффективно учитывать контекст и зависимости между жестами. Для обучения и тестирования модели использовался собственный датасет, включающий 25 различных жестов саудовского жестового языка, собранных авторами. Достигнутая точность распознавания составила 99,47% на тестовом наборе данных, что демонстрирует перспективность использования предложенной архитектуры CNN. Авторы также отмечают потенциал для дальнейшего развития системы, включая распознавание динамических жестов и интеграцию с мобильными приложениями.
В свою очередь, авторы другой работы [4], предлагают иной подход к распознаванию жестового языка. Авторы предлагают новую архитектуру на основе CNNSa-LSTM для улучшения извлечения признаков, а также новый гибридный оптимизатор (hybrid optimizer HO) для более эффективного обучения модели. Авторы утверждают, что их предложенный подход превосходит существующие методы по точности распознавания на стандартных наборах данных. В своем проекте авторы достигли 98,7% точности распознавания жеста на датасете ASL от Kaggle. Будущие исследования могут быть направлены на объединение сильных сторон различных подходов для создания еще более мощных и универсальных систем распознавания жестового языка.
Из исследований авторов статьи [5], становится очевидной тенденция к использованию мультимодальных данных и информации о скелете человека для улучшения точности распознавания жестового языка. Авторы предлагают подход, основанный на объединении данных о видеоизображении и информации о скелетной структуре человека, что позволяет учитывать не только визуальные признаки жеста, но и его кинематические характеристики. Они используют свёрточные нейронные сети для обработки визуальной информации и графовые нейронные сети (GCN) для анализа данных о скелете. Объединение этих двух модальностей позволяет значительно повысить точность распознавания, особенно в сложных случаях, когда визуальные признаки могут быть недостаточно информативными. Результаты, представленные авторами, показали, что использование информации о скелете в сочетании с визуальными данными позволило достичь высокой точности распознавания на ряде датасетов жестового языка.
Развивая идею использования информации о скелете, работа [6] представляет подход к распознаванию жестового языка, основанный исключительно на данных о позах, извлеченных из видео. Авторы используют графовые свёрточные сети (GCN) для моделирования взаимосвязей между различными суставами тела и архитектуру BERT для обработки последовательности поз во времени. В отличие от подходов, которые используют визуальную информацию напрямую, этот метод фокусируется на абстрагировании от визуальных деталей и использует только информацию о движении и конфигурации тела. В частности, они строят граф, где узлами являются суставы, а ребрами – связи между ними, и применяют GCN для извлечения пространственных признаков. Затем эти признаки подаются в BERT для учета временной динамики жестов. Авторы демонстрируют, что такой подход, основанный на информации о позах и GCN-BERT, может достигать конкурентоспособных результатов по сравнению с более сложными мультимодальными системами. В своей работе авторы использовали датасет WLASL и достигли точности распознавания 60.15% для WLASL100 и 42.18% для WLASL300.
Для улучшения представления жестового языка в моделях-трансформерах, в работе [7] предложен подход, основанный на предварительном обучении SignBERT с использованием информации о модели руки. Это позволяет SignBERT лучше понимать нюансы языка жестов. Авторы утверждают, что точное моделирование движений и формы рук критически важно для распознавания жестового языка. Для этого они используют 3D-модель руки, которая позволяет извлекать признаки, отражающие форму и положение кистей рук в пространстве. Эти признаки затем интегрируются в процесс предварительного обучения SignBERT, что позволяет модели лучше понимать сложные движения рук, характерные для жестового языка. Авторы [7] демонстрируют, что предварительное обучение SignBERT с использованием информации о модели руки значительно повышает точность распознавания жестового языка, особенно в случаях, когда жесты выполняются быстро или с небольшими вариациями. Этот подход подчеркивает важность учета специфических особенностей человеческого тела, таких как руки, при разработке моделей для распознавания жестового языка.
Для систематизации и сравнения описанных выше подходов ниже в таблице 1 приведена сводная информация, отражающая типы используемых моделей, датасетов и достигнутую точность.
Таблица 1.
Сравнение подходов к распознаванию языка жестов
|
Авторы |
Тип нейросети |
Датасет |
Точность, % |
Особенность |
|
Zhenxing Zhou et al. |
BERT (трансформер) |
- |
- |
Учёт контекста между жестами |
|
Mehreen Hurroo et al. |
CNN |
собственный ASL |
98 |
Компьютерное зрение + CNN |
|
Alaa H Al-Obodi et al. |
CNN |
собственный (саудовский язык жестов) |
99,47 |
Архитектура CNN |
|
Abdullah Baihan et al. |
CNN+ Self-Attention +LSTM |
ASL (Kaggle) |
98,7 |
Гибридный оптимизатор |
|
Songyao Jiang et al. |
GCN+CNN |
- |
98,42 (RGB) и 98,53%(RGB‑D) |
Мультимодальность (видео + скелет) |
|
Anirudh Tunga et al. |
GCN+BERT |
WLASL |
60,15 (WLASL100) |
Только поза (скелет), без видео |
|
Hezhen Hu et al. |
SignBERT (предобучение) |
- |
- |
3D-модель руки |
Заключение
Разработка эффективных систем по распознаванию жестового языка является важной и актуальной задачей, направленной на улучшение качества жизни и расширение возможностей для людей с ограниченными возможностями слуха и речи.
Современные системы для распознавания языка жестов демонстрируют значительный прогресс в точности и скорости, благодаря использованию передовых алгоритмов глубокого обучения, в частности свёрточных нейронных сетей и рекуррентных нейронных сетей. Однако остается ряд проблем, которые необходимо решить для создания надежных и удобных в использовании систем, таких как вариативность жестов, сложность распознавания динамических жестов и необходимость в больших объемах данных.
Список литературы:
- Чжоу Ч., Там В. В. Л., Лам Э. Ю. SignBERT: основанная на BERT платформа глубокого обучения для непрерывного распознавания жестового языка // IEEE Access. 2021. № 9. С. 161669–161682.
- Хурро М., Эльхам М. Система распознавания жестового языка с использованием свёрточной нейронной сети и компьютерного зрения // Int. J. Eng. Res. Technol. (IJERT). 2020. Т. 09, вып. 12 (дек.). С. 1–7.
- Аль-Ободи А. Х., Аль-Ханин А. М., Аль-Харби Х. Н., Аль-Давас М. С., Аль-Шаргаби А. А. Система распознавания саудовского жестового языка на основе свёрточных нейронных сетей // Int. J. Eng. Res. Technol. (IJERT). 2020. № 13. С. 3328–3334.
- Байхан А., Алутайби А. И., Альшехри М., Шарма С. К. Распознавание жестового языка с использованием модифицированной глубокой нейронной сети и гибридной оптимизации: подход на основе гибридного оптимизатора (HO) оптимизированной сети CNNSa-LSTM // Sci. Rep. 2024. № 14. С. 1–22.
- Цзян С., Сунь Б., Ван Л., Бай Ю., Ли К., Фу Ю. Мультимодальное распознавание жестового языка с учётом скелета // CVPRW (CVPR Workshop, ChaLearn Workshop). 2021. С. 1–11.
- Тунга А., Нутхалапати С. В., Вакс Х. Распознавание жестового языка на основе поз с использованием GCN и BERT // WACV (Winter Conf. on Applications of Computer Vision). 2021. С. 31–40.
- Ху Х., Чжао В., Чжоу В., Ван Ю., Ли Х. SignBERT: предобучение представления с учётом модели руки для распознавания жестового языка // ICCV (Int. Conf. on Computer Vision). 2021. С. 11087–11096.

