Статья опубликована в рамках: Научного журнала «Студенческий» № 17(187)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7, скачать журнал часть 8, скачать журнал часть 9

Библиографическое описание:

Серкова О.Н., Захаров В.С. МЕТОДЫ РЕШЕНИЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ЧЕЛОВЕКА И ВОЗМОЖНОСТИ ИХ ПРИМЕНЕНИЯ В СОВРЕМЕННОМ МИРЕ // Студенческий: электрон. научн. журн. 2022. № 17(187). URL: https://sibac.info/journal/student/187/250674 (дата обращения: 24.08.2025).

МЕТОДЫ РЕШЕНИЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ЧЕЛОВЕКА И ВОЗМОЖНОСТИ ИХ ПРИМЕНЕНИЯ В СОВРЕМЕННОМ МИРЕ

Серкова Олеся Николаевна

студент, кафедра математической кибернетики и информационных технологий, Московский технический университет связи и информатики,

РФ, г. Москва

Захаров Владимир Сергеевич

РФ, г. Москва

METHODS FOR SOLVING THE PROBLEM OF HUMAN RECOGNITION AND THE POSSIBILITY OF THEIR APPLICATION IN THE MODERN WORLD

Olesya Serkova

student, Mathematical Cybernetics and Information Technology, Moscow Technical University of Communication and Informatics

Russia, Moscow

Vladimir Zakharov

student, Mathematical Cybernetics and Information Technology, Moscow Technical University of Communication and Informatics

Russia, Moscow

АННОТАЦИЯ

В статье проводится обзор современных технологий распознавания человека, основные архитектурные подходы, области применения и перспективы развития систем распознавания в различных сферах.

ABSTRACT

The article provides an overview of modern human pose estimation technologies, the main architectural approaches, areas of application and prospects for the development of recognition systems in various fields.

Ключевые слова: компьютерное зрение, машинное обучение, распознавание образов, распознавание движений, большие данные, искусственный интеллект, нейронные сети, анализ характеристик.

Keywords: computer vision, machine learning, pattern recognition, motion recognition, big data, artificial intelligence, neural networks, feature analysis.

Введение

Компьютерное зрение – это область искусственного интеллекта, связанная с анализом изображений и видео. Она включает в себя набор методов, которые наделяют компьютер способностью «видеть» и извлекать информацию из увиденного. Чтобы научить компьютер «видеть», используются технологии машинного обучения. Собирается множество данных, которые позволяют выделить признаки и комбинации признаков для дальнейшей идентификации похожих объектов.

Оценка и отслеживание позы человека – это задача компьютерного зрения, которая включает в себя обнаружение, связывание и отслеживание семантических ключевых моментов. Примерами семантических ключевых точек являются "правые плечи", "левые колени" или "левые стоп-сигналы транспортных средств".

Производительность семантического отслеживания ключевых точек в видеоматериалах в прямом эфире требует высоких вычислительных ресурсов, что ограничивает точность оценки позы. С последними достижениями становятся возможными новые приложения с возможностями распознавания в режиме реального времени, такие как беспилотные автомобили и роботы доставки последней мили.

Сегодня самые мощные модели обработки изображений основаны на сверточных нейронных сетях (CNN). Следовательно, современные методы, как правило, основаны на разработке архитектуры CNN, специально предназначенной для распознавания человеческой позы.

Оценка позы человека

Оценка позы человека (Human Pose Estimation) – это задача в компьютерном зрении, которая фокусируется на определении положения человеческого тела в конкретной сцене. Большинство методов HPE основаны на записи RGB-изображения с помощью оптического датчика для обнаружения частей тела и общей позы. Это может использоваться в сочетании с другими технологиями компьютерного зрения для фитнеса и реабилитации, приложений дополненной реальности и наблюдения.

Суть технологии заключается в обнаружении точек на конечностях, суставах и даже лице человека. Эти ключевые точки используются для создания 2D- или 3D-представления модели человеческого тела.

Рисунок 1. 2D-представление позы тела

Эти модели в основном представляют собой карту суставов тела, которые отслеживаются во время движения. Это делается компьютером не только для того, чтобы найти разницу между человеком, просто сидящим и сидящим на корточках, но и для того, чтобы рассчитать угол сгибания в конкретном соединении и определить, выполняется ли движение правильно.

Существует три распространенных типа человеческих моделей: модель на основе скелета, на основе контура и на основе объема. Модель на основе скелета является наиболее используемой в оценке позы человека из-за ее гибкости. Это связано с тем, что он состоит из набора суставов, таких как лодыжки, колени, плечи, локти, запястья и ориентации конечностей, составляющие скелетную структуру человеческого тела.

Рисунок 2. Модели тела в оценке позы человека

Скелетная модель используется как для 2D, так и для 3D-представления. Но, как правило, 2D и 3D методы используются в сочетании. 3D-оценка позы человека обеспечивает лучшую точность измерений приложения, так как она учитывает координаты глубины и извлекает эти результаты для расчета.

2D-оценка позы человека

2D-оценка позы человека используется для оценки 2D-положения или пространственного местоположения ключевых точек человеческого тела с помощью визуальных эффектов, таких как изображения и видео. Традиционные методы оценки позы человека 2D используют различные методы извлечения признаков работы для отдельных частей тела.

3D-оценка позы человека

Общий поток системы оценки позы тела начинается с сбора исходных данных и их загрузки для обработки системой. Поскольку мы имеем дело с обнаружением движения, нам нужно проанализировать последовательность изображений, а не неподвижную фотографию. Поскольку нам нужно извлечь, как ключевые точки меняются во время движения.

После загрузки образа система оценки позы человека обнаружит и отследит необходимые ключевые моменты для анализа. Различные программные модули отвечают за отслеживание 2D ключевых точек, создание представления тела и преобразование его в 3D-пространство. Поэтому в целом, когда речь идет о создании модели оценки позы тела, имеется в виду реализация двух разных модулей для 2D и 3D плоскостей.

Рисунок 3. Разница между реконструкциями оценки 2D и 3D-позиционирования

Таким образом, для большинства задач по оценке человеческой позы поток будет разбит на две части:

Обнаружение и извлечение 2D ключевых точек из последовательности изображений. Это предполагает использование горизонтальных и вертикальных координат, которые создают структуру скелета. Преобразование 2D ключевых точек в 3D добавление размера глубины. Во время этого процесса приложение сделает необходимые расчеты для оценки позы.

Многокадровая оценка позы человека в сложных ситуациях сложна и требует высокой вычислительной мощности. В то время как детекторы человеческих суставов показывают хорошую производительность для статических изображений, их производительности часто не хватает, когда модели применяются к видеопоследовательности для отслеживания поз в режиме реального времени.

Самые большие проблемы появляются при обработке размытия движения, расфокусировке видео, окклюзий поз и невозможности зафиксировать временную зависимость между видеокадрами.

Применение обычных рекуррентных нейронных сетей (RNN) сопряжено с эмпирическими трудностями в моделировании пространственных контекстов, особенно для решения проблем с окклюзиями позы. Современные многокадровые рамки оценки позы человека, такие как DCPose, используют обильные временные сигналы между видеокадрами для облегчения обнаружения ключевых точек.

Оценка позы работает путем поиска ключевых точек человека или объекта. Например, принимая человека, ключевыми моментами будут суставы, такие как локоть, колени, запястья и т. д. Существует два типа оценки позы: многопозиционная и одиночная поза. Оценка одной позы используется для оценки поз одного объекта в данной сцене, в то время как многопозиционная оценка используется при обнаружении поз для нескольких объектов.

Сравним работу BlazePose и VideoPose3D. Как видно на рисунке 4 VideoPose3D лучше справляется с поставленной задачей, что видно по расположению точек на модели.

Рисунок 4. Результаты обработки VideoPose3D и BlazePose

Методы обнаружения позы на основе глубокого обучения

С быстрым развитием решений для глубокого обучения в последние годы было показано, что глубокое обучение превосходит классические методы компьютерного зрения в различных задачах, включая сегментацию изображения или обнаружение объектов. Таким образом, методы глубокого обучения принесли значительные успехи и повышение производительности в задачах оценки позы.

Поскольку оценка позы является легко применяемым методом компьютерного зрения, можно реализовать пользовательскую оценку позы, используя существующие архитектуры. Существующие архитектуры для начала разработки пользовательского оценщика позы включают в себя:

1. OpenPose – один из самых популярных подходов для оценки позы человека с участием нескольких человек. Эта архитектура имеет оценку позы нескольких человек в режиме реального времени. OpenPose позволяет обнаруживать нескольких человек в режиме реального времени с высокой точностью обнаружения ключевых точек тела, стопы, рук и лица. Преимущество OpenPose заключается в том, что это API, которое дает пользователям гибкость выбора исходных изображений из полей камер, веб-камер и других, что более важно для встроенных системных приложений (например, интеграции с камерами и системами видеонаблюдения). Он поддерживает различные аппаратные архитектуры, такие как графические процессоры CUDA, графические процессоры OpenCL или устройства только для процессора. Легкая версия достаточно эффективна для приложений вывода Edge с обработкой на устройстве в режиме реального времени с помощью периферийных устройств.

2. Сеть высокого разрешения (HRNet) – это нейронная сеть для оценки позы человека. Это архитектура, используемая в задачах обработки изображений, чтобы найти то, что является ключевыми точками (соединениями) по отношению к конкретному объекту или человеку в изображении. Одним из преимуществ этой архитектуры перед другими архитектурами является то, что большинство существующих методов соответствуют представлениям поз с высоким разрешением из представлений с низким разрешением в отношении использования сетей с высоким и низким разрешением. Вместо этого смещения нейронная сеть поддерживает представления с высоким разрешением при оценке осанок. Например, HRNet полезна для обнаружения осанки человека в телевизионном спорте.

3. DeepCut – это еще один популярный восходящий подход для оценки позы человека с участием нескольких человек. Модель работает, определяя количество людей на изображении, а затем прогнозируя места соединения для каждого изображения. DeepCut может быть применен к видео или изображениям с несколькими людьми/объектами, например, футболом, баскетболом и многим другим.

4. Региональная оценка позы для нескольких человек (AlphaPose) - популярный метод оценки позы сверху вниз. Это полезно для обнаружения поз в присутствии неточных ограничительных рамок человека. То есть, это оптимальная архитектура для оценки поз человека с помощью обнаруженных ограничителей. Архитектура AlphaPose применима для обнаружения как одной, так и нескольких поз в изображениях или видео.

5. DeepPose – это оценка позы человека, которая использует глубокие нейронные сети. Глубокая нейронная сеть (DNN) DeepPose захватывает все соединения, объединя слой объединения, слой свертки и полностью связанный слой, чтобы стать частью этих слоев.

6. PoseNet – это архитектура оценки позы, построенная на tensorflow.js для работы на легких устройствах, таких как браузер или мобильное устройство. Таким образом, PoseNet можно использовать для оценки одной или нескольких поз.

7. DensePose – это техника оценки позы, которая направлена на отображение всех человеческих пикселей RGB-изображения с 3D-поверхностью человеческого тела. DensePose также может использоваться для задач оценки одной или нескольких поз.

8. Tensorflow Lite обеспечивает оценку позы с помощью легкой модели машинного обучения, оптимизированной для маломощных периферийных устройств.

Использование оценки позы человека

Довольно очевидным применением оценки позы является отслеживание и измерение человеческой активности и движения. Такие архитектуры, как DensePose, PoseNet или OpenPose, часто используются для распознавания активности, жестов или походки. Примеры отслеживания человеческой деятельности с помощью оценки позы включают в себя:

Приложение для обнаружения сидячих жестов
Полная коммуникация на языке знаков (например, сигналы ГИБДД)
Приложения для определения состояния человека, например падения или болезни
Приложения для поддержки анализа спортивных мероприятий, например игр (футбол, баскетбол)
Приложения для анализа танцевальных техник (например, в балетных танцах)
Приложения для повышения безопасности и наблюдения
Обучение роботов с отслеживанием позы человека

На сегодняшний день оценка позы в интерфейсе с приложениями дополненной и виртуальной реальности дает пользователям лучший онлайн-опыт. Например, пользователи могут виртуально научиться играть в такие игры, как теннис, через виртуальных репетиторов.

Более того, оценки позы также могут быть сопряжены с приложениями на основе дополненной реальности. Например, экспериментирует с программами дополненной реальности, которые будут использоваться в бою. Эти программы направлены на то, чтобы помочь солдатам различать врагов и дружественных войск, а также улучшить ночное видение.

Другими приложениями оценки позы являются внутриигровые приложения, где люди автоматически генерируют и вводят позы в игровую среду для интерактивного игрового опыта. Например, Kinect от Microsoft использовал оценку 3D-позы (с использованием данных датчика) для отслеживания движения игроков-людей и использования ее для отображения действий персонажей в игровой среде.

Перспективы развития систем распознавания людей на базе методов машинного обучения

Увеличение вычислительных мощностей программно-аппаратных комплексов, широкое распространение камер видеонаблюдения и большой спрос на применение технологий компьютерного зрения дают все новые перспективы развития систем распознавания людей. Размер мирового рынка компьютерного зрения оценивался в 9,45 млрд долларов по состоянию на 2020 год и, по прогнозам, достигнет 41,11 млрд долларов к 2030 году, что означает среднегодовой темп роста в 16,0% в период с 2020 по 2030 год.

Глобальная пандемия оказала значительное экономическое влияние на многие отрасли. Тем не менее, рост применения компьютерного зрения и искусственного интеллекта в непромышленных приложениях, таких как здравоохранение, наблюдение и мониторинг, транспорт, создал огромную прибыль для рынка. Согласно опросу, проведенному AMR, около 50% компаний используют в своей бизнес-модели хотя бы одну бизнес-функцию на основе ИИ. Эта тенденция сохранилась во время пандемии, поскольку многие компании выразили желание увеличить свои инвестиции в ИИ после пандемии. Это создало колоссальный спрос на рынке, и даже после COVID-19 размер мирового рынка компьютерного зрения оценивался в 10,8 миллиардов долларов в 2021 году.

За последние годы системы распознавания проникли во множество сфер нашей жизни, среди которых можно выделить успешное применение в спорте. В этой сфере данные всегда играли ключевую роль. Записи, собираемые тренером, теперь представляют из себя метрики, сканируемые различными устройствами для дальнейшего анализа. Так, футбольный клуб Барселона вложил значительные средства в создание инновационного центра, одной из разработок которого была аналитическая система для футбола, основанная на распознавании людей. В 2019 году футбольным клубом была проведена демонстрация этой системы. В ходе игры она собирала данные о футболистах, используя алгоритмы распознавания, чтобы в дальнейшем составить статистику по каждому игроку. Так удавалось оценить вклад каждого из спортсменов в ходе матча, какие действия он совершал на поле во время активного владения мячом и как вёл себя, когда мяча не было. В дальнейшем все эти данные с большим успехом использовались тренерами в разработке тактик будущих матчей.

Отдельное распространение распознавание получило в сфере безопасности. Повсеместное использование камер видеонаблюдения, особенно в крупных городах, позволяет правоохранительным органам отслеживать нарушения. Наибольшие усилия в развитие таких систем безопасности вносит Китай. Именно с помощью распознавания действий человека им удалось разработать ПО «для распознавания походки». Такая система использует формы тела людей и паттерны их походки для идентификации, даже если лица скрыты от камер. Распознавание походки», уже используемое полицией на улицах Пекина и Шанхая, является частью усилий Китая по развитию искусственного интеллекта и наблюдения на основе данных. Главный исполнительный директор Watrix Хуан Юнчжэнь сказал, что его система распознавания походки может идентифицировать людей на расстоянии до 50 метров, даже если они повернуты спиной или закрыты лицом. Он говорит: «Анализ походки нельзя обмануть, просто прихрамывая, ходя с расставленными ногами или сгорбившись, потому что мы анализируем все особенности всего тела». Технология еще не способна идентифицировать людей в режиме реального времени, однако со временем она улучшится с постоянно растущими компьютерными мощностями. Предполагается, что распознавание походки в дальнейшем будет использоваться вместе с программным обеспечением для распознавания лиц для достижения наилучших результатов в сфере безопасности.

Заключение

Оценка позы человека — очень обширная и сложная область для изучения. В этой статье мы смогли рассмотреть различные архитектурные подходы, которые можно использовать для оценки позы человеческого тела. Список, однако, не является исчерпывающим, поскольку в этой области продолжают появляться новые улучшения и достижения.

Наше исследование началось с обсуждения того, как CNN предназначена для создания карт, указывающих расположение суставов в определенных местах. Мы также разобрали способы детектирования точек в двумерном и трехмерном пространстве. Позже мы изучили нормализацию, которая уменьшает распределение относительного расположения суставов и упрощает оценку позы.

Были рассмотрены наиболее популярные архитектурные подходы в решении задач распознавания и проведено их сравнение и выявление ключевых преимуществ при решении задач.

Все это позволяет создавать системы распознавания человека и применять их в различных сферах, будь то спорт, безопасность или виртуальные развлечения. И хотя некоторые такие системы еще находятся в разработке, уже сейчас можно говорить о потребности рынка в таких системах, большом влиянии на индустрию и дальнейших перспективах развития.

Список литературы:

С. Е. Штехин, Д. К. Карачев, Ю. А. Иванова, “Разработка алгоритма распознавания движений человека методами компьютерного зрения в задаче нормирования рабочего времени”, Труды ИСП РАН, 32:1 (2020), 121–136
Алексеева, В. А. Использование методов машинного обучения в задачах бинарной классификации//Автоматизация процессов управления. – 2015. – № 3 (41). – С. 58-63.
Коротеев, М. В. Обзор некоторых современных тенденций в технологии машинного обучения//E-Management. – 2018. – № 1. – С. 26-35.
Peter Harrington «Machine Learning in Action» Released April 2012 Publisher(s): Manning Publications ISBN: 9781617290183
Machine Learning, IBM Limited Edition by Judith Hurwitz and Daniel Kirsch Published by John Wiley & Sons, Inc., 2018

МЕТОДЫ РЕШЕНИЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ЧЕЛОВЕКА И ВОЗМОЖНОСТИ ИХ ПРИМЕНЕНИЯ В СОВРЕМЕННОМ МИРЕ

Оставить комментарий