Статья опубликована в рамках: LXXXII Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 23 декабря 2024 г.)
Наука: Информационные технологии
Секция: Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
Скачать книгу(-и): Сборник статей конференции
дипломов
ПРИМЕНЕНИЕ НЕЙРОСЕТЕВОГО МЕТОДА ТЕПЛОВЫХ КАРТ ДЛЯ ОЦЕНКИ ЧЕЛОВЕЧЕСКИХ ПОЗ
APPLICATION OF NEURAL NETWORK HEAT MAPS METHOD FOR HUMAN POSE ESTIMATION
Maxim Potenko
Graduate student, Moscow Aviation Institute (national research university),
Russia, Moscow
АННОТАЦИЯ
Оценка человеческого тела одна из важнейших задач компьютерного зрения. В данной работе делается упор на поиск ключевых точек человеческого тела: плечи, локти, кисти, колени, стопы и т.д. Благодаря этим точкам мы будем иметь виртуальную модель человека, которую в дальнейшем можно использовать для анализа движений в спорте или безопасности, применять в VR/AR технологиях, в сфере развлечений, а также мультипликации, анимации, кинематографе. Для решения данной задачи в работе предлагается использование метода на основе тепловых карт: карт достоверностей (вероятностная матрица расположения каждой ключевой точки) и карт ориентаций (матрица с направлением к следующей ключевой точке) в сочетании со стандартными нейросетевыми подходами. С помощью поэтапного и параллельного вычисления достигается высокая скорость и точность работы на наборе данных COCO. Таким образом, интегрируя тепловые карты в свёрточные нейронные сети, можно быстро и точно обнаруживать суставы человеческого тела.
ABSTRACT
Human body estimation is one of the most important tasks in computer vision. This work focuses on the detection of key points on the human body: shoulders, elbows, wrists, knees, feet, etc. By identifying these points, we will create a virtual model of a person that can be used for motion analysis in sports or safety, applied in VR/AR technologies, in the entertainment industry, as well as in animation and cinematography. To address this task, the work proposes the use of a method based on heatmaps: confidence maps (a probabilistic matrix of the location of each key point) and orientation maps (a matrix indicating the direction to the next key point) in conjunction with standard neural network approaches. By utilizing stepwise and parallel computation, high speed and accuracy are achieved on the COCO dataset. Thus, by integrating heatmaps into convolutional neural networks, it is possible to quickly and accurately detect the joints of the human body.
Ключевые слова: ключевые точки; нейронные сети; свёрточные нейронные сети; распознавание объектов; компьютерное зрение.
Keywords: keypoints; neural networks; convolutional neural networks; object recognition; computer vision.
ТОПОЛОГИЯ
От выбора способа представления человеческого тела завит как реализация нейронной сети, так и область возможных применений, на данный момент распространены три вида таких моделей:
- Скелетная модель. Содержит определённый набор точек представляющие отдельные суставы. Данная модель напоминает граф, где вершинами графа являются суставы, а ребрами связи между ними. Обычно количество таких точек лежит в диапазоне от 10 до 30. Это самая популярная модель ввиду её относительно простоты как распознавания, так и использования. В данной работе была выбрана именно такая модель.
- Контурная модель. Такие модели содержат небольшую информацию о ширине и длине отдельных частей тела. Фактически каждый человек представляется в виде набора прямоугольников. Такая модель использовалась в ранних работах, но не нашла широкого применения из-за сложности реализации и неточности контуров, что не давало никаких преимуществ перед скелетной моделью.
- Объемные модели. Схоже с тем, как представлены люди в 3d моделях. Ранние работы представляли человека в виде набора геометрических фигур: конусов, сфер, цилиндров и т.д. Сейчас чаще используются различные сетки. Такая модель самая сложная для вычисления и не подходит для слабых устройств, а иногда и требует специального оборудования, но при этом и содержит максимум полезной информации.
Данные схемы демонстрируются на Рисунке 1.
Рисунок 1. Модели человеческого тела
Для представления человеческого тела в данной работе используется топология COCO, состоящая из 18 точек. Эта топология относится к скелетной модели, что даёт возможность вычислять её даже на слабых устройствах, включая мобильные.
Каждая из точек представляет собой массив координат x и y, обозначающие положение сустава на исходном изображении. К данным координатам можно добавить еще одну - псевдоглубину, для приблизительной оценки положения сустава в трёхмерном пространстве, но это значительно усложняет задачу разметки обучающих данных.
Демонстрация этих точек представлена на Рисунке 2.
Рисунок 2. Схема представления человека по топологии COCO
ТЕПЛОВЫЕ КАРТЫ
Тепловые карты в данной работе включают в себя карты достоверности и карты ориентаций. Такое название у них из-за сходства визуального представления с обычными тепловыми картами.
Карта достоверностей – матрица, которая строится для каждого из суставов и содержит в каждой ячейке вероятность нахождения в советующем пикселе исходного изображения этого сустава. В данной работе карта достоверностей меньше исходного изображения в целях оптимизации, но отдельные участки соответствуют друг другу с определённым масштабированием. Всего создаётся 18 карт и одна дополнительная карта для фона. Демонстрация карты достоверности для левого плеча на Рисунке 3.
Рисунок 3. Визуализация матрицы достоверности
Карта ориентаций – матрица, элементами которой являются вектора с направлением к следующему связанному суставу. Такая матрица строится для каждой связи между суставами, например между плечом и локтем, между локтем и кистью. Всего таких матриц и связей – 19. Ориентир представляет из себя двумерный вектор, либо трёхмерный, если учитываем глубину и строится как для пикселя с предполагаемым суставом, так и в области с вероятностью его нахождения. Демонстрация такой карты представлена на Рисунке 4.
Рисунок 4. Визуализация матрицы ориентиров
Сами по себе тепловые карты не получают ключевые точки из изображения, а работают с извлечёнными признаками. Для получения таких признаков проще всего использовать предварительно обученную свёрточную нейронную сеть, например MobilNetV3 или ResNet. В данной работе выбор пал на MobilNetV3 из-за её высокой скорости и удобства при портировании на мобильные устройства.
При прохождении череды свёрточных слоёв было определено, что вместо стандартных крупных свёрток 7×7, лучше использовать три свёртки 3×3, а вместо свёрток 5×5, две свёртки 2×2. Несмотря на увеличение количества слоёв, общее количество операций при этом падает, что улучшает производительность нейронной сети. Также были использованы шаги сокращения со свёртками 1×1.
В целях оптимизации размеры тепловых карт были выбраны как 64×64, чего достаточно для определения положения ключевой точки. При размере изображения с человеком 256×256, каждый пиксель тепловой карт превратится в 4x4 пикселя исходного изображения, что при визуальной оценке находится в рамках допустимой погрешности.
Вычисление тепловой карты зачастую бывает неточным, и она даёт много ложноположительных результатов – например сеть можно вместо одного левого плеча, найти сразу три, перепутав их с другими частями тела. Для обучения нейронной сети, используется поэтапное вычисление каждой из тепловых карт, что с каждой итерацией улучшает результат. Так при вычислении карты достоверности определённого используется карта достоверности с предыдущего этапа, а также карта ориентиров, чтобы точно знать какой из суставов должен располагаться в данной области. Аналогично при вычислении карты ориентиров используется предыдущая карта ориентиров и карта достоверностей. Экспериментальным путём было установлено, что хватает 7 таких этапов. Пример поэтапного вычисления карт достоверностей представлен на Рис. 4.
Рисунок 4. Поэтапное предсказание матрицы достоверностей
Вычисление нескольких этапов слишком долгая операция, поэтому перед запуском нейронной сети в рабочих задачах, число этапов можно сократить вплоть до одного/двух.
Внутри одного этапа карты достоверностей и ориентаций можно вычислять параллельно, ценой увеличения потребления видеопамяти, что значительно улучшает производительность нейронной сети.
Схема представлена на Рисунке 5.
Рисунок 5. Схема работы
В качестве функции потерь (Loss функция) используется стандартная L2(наименьшая квадратичная ошибка) функция.
ЗАКЛЮЧЕНИЕ
Таким образом в данной работе демонстрируется схема нейронной сети, позволяющая быстро и точно определять ключевые точки человеческого тела и строить её скелетную модель. Это достигается с помощью последовательного и параллельного вычисления карт ориентаций и достоверностей, использующих информацию друг друга для уточнения прогнозов. Определённая настройка свёрток и размеров слоев позволяет избавиться от лишних операций, а также сэкономить потребление памяти. Работа демонстрируется на наборе COCO, но при этом не ограничивается ею и может быть адаптирована под любую другую скелетную модель, в том числе и не связанную с распознаванием человека.
Список литературы:
- Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, C Lawrence ´ Zitnick, — Microsoft coco: Common objects in context. — European conference on computer vision — Springer, 2014 — P. 740–755.
- Felzenszwalb, P.F., Huttenlocher, D.P. — Pictorial structures for object recognition. International journal of computer vision 61 —2005 — 55–79.
- Cootes, T.F., Taylor, C.J., Cooper, D.H., Graham, J. — Active shape models-their training and application. Computer Vision and Image Under-standing 61— 1995 — 38–59.
- Sidenbladh, H., De la Torre, F., Black, M.J. — 2000 — A framework for modeling the appearance of 3d articulated figures — IEEE Conference on Automatic Face and Gesture Recognition, IEEE — pp. 368–375.
- Tompson, J.J., Jain, A., LeCun, Y., Bregler, C. — "Joint training of a convolutional network and a graphical model for human pose estimation. — Advances in Neural Information Processing Systems." — 2014 — 1799–1807
- Andrew G. Howard, Mark Sandler, Huiyu Wang, et al. — "Searching for MobileNetV3" — 2019
- Karen Simonyan, Andrew Zisserman — "Very Deep Convolutional Networks for Large-Scale Image Recognition" — International Conference on Learning Representations (ICLR) — 2015.
- Alexander G. Schwing, Abhinav Gupta, "Keypoint R-CNN» — IEEE Conference on Computer Vision and Pattern Recognition (CVPR) — 2018.
- Catalin Ionescu, Dragos Papava, Vlad Olaru and Cristian Sminchisescu, Human3.6M: Large Scale Datasets and Predictive Methods for 3D Human Sensing in Natural Environments — IEEE Transactions on Pattern Analysis and Machine Intelligenc — vol. 36, no. 7 — July 2014
- Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. "Deep Residual Learning for Image Recognition" — IEEE Conference on Computer Vision and Pattern Recognition (CVPR) — 2016.
- Yash Goyal, Abhinav Gupta, et al. "AlphaPose: Real-Time and Accurate Multi-Person Pose Estimation" — IEEE Conference on Computer Vision and Pattern Recognition (CVPR) — 2018.
- Zhe Cao, Tomas Simon — "OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields" — IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) — 2019.
дипломов
Оставить комментарий