Статья опубликована в рамках: XLV Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 21 мая 2018 г.)
Наука: Математика
Скачать книгу(-и): Сборник статей конференции
ОПРЕДЕЛЕНИЕ ПОЛОЖЕНИЯ ЧЕЛОВЕКА С ПОМОЩЬЮ НЕЙРОСЕТЕЙ
В современном мире, с учетом роста беспилотных технологий, технологий виртуальной реальности и дополненной реальности, возникает вопрос об определении положения вещей в пространстве, а именно об определении и предсказании положения тела человека. Один из вариантов решения данной проблемы был представлен еще в 1973 году - Pictorial Structures Model. Основой для данного фреймворка выступала идея о создании некоторой математической модели и скелета человека в виде графа, где кости – ребра, а суставы – вершины данного графа.
В качестве одного из методов решения данной проблемы в 2014 году Александром Тошевым и Кристианом Сжегеди был предложен способ определения позы (pose estimation), в котором математической моделью стала нейронная сеть. В данной статье обсуждается способ построения модели, варианты повышения точности прогнозирования поз и создания генерируемой базы обучающих примеров, при работе с малым количеством обрабатываемой информации.
На основе их метода, мы разработали алгоритм, который определяет позу человека на фотографии. Общая идея алгоритма заключается в создании координатной сетки на фотографии, к которой привязывается граф вершины, которого с помощью нейронной сети и тренировочных датасетов обозначат истинное положение суставов и частей тела человека.
Рисунок 1. Обозначения переменных
Графом из k вершин обозначим скелет человека. Фото обозначим x, а вектор позы y = (y1, y2, … , yn, …), n ∈ (1,… , k), yn - координаты сустава человека.
Рисунок 2. Начальный этап
Из-за того, что нейросеть получает картинку только определённого размера (200х200 пикселей), информация может теряться, если картинка была в большем разрешении. Нейросеть может построить позу только приближённо. Если увеличить разрешение на входе, построение позы будет затрачивать слишком большое количество ресурсов и времени. Для этого мы будем использовать глубокую нейросеть, которая представляет собой последовательность нейросетей. По изначальному изображению выделяются примерные координаты суставов, после чего следующая сеть уточняет их по новому изображению, взятому из изначального, обрезанного вокруг координат первой и приведённая к размеру 200х200.
Такой способ позволяет более точно угадывать позу, при этом не затрачивая огромное количество ресурсов.
Будем использовать одинаковые нейросети на всех этапах, но обучать их будем по-разному. Обозначим параметры сети на этапе s ∈ {1,…,S} за θs, а саму модель, предсказывающую координаты суставов, за ψ(x; θs).
На первоначальном этапе (s=1) мы используем область b0, которая является исходным изображением, для нахождения приблизительных координат суставов (рис. 2).
Этап 1: y1←N−1(ψ(N(x; b0);θ1);b0)
Рисунок 3.Этап S
После этого на каждом этапе (s = 2,…, S) и для всех суставов i∈{1,…,k} мы уточняем координаты yis−1 с помощью модели ψ(x;θs) (рис. 3).
Этап S : ← + N−1 (ψi(N(x;);θs); )
← (, σ diam(ys), σ diam(ys))
И теперь можно приступить к обучению нашей модели. Для нашей задачи есть два открытых датасетов:
- Frames Labeled in Cinema. В нём около 5000 кадров из фильмов.
- Leeds Sports Pose. Это набор данных из фото людей, которые занимаются спортом. В нём 12000 изображений.
В нашей модели мы решили взять 3 этапа: по начальному изображению мы получаем первое приближение позы, а после этого координаты уточняются два раза.
Начальная нейронная сеть обучалась около 14 часов на трех компьютерах. Последующие нейросети обучались уже два дня, так как количество изображений для них увеличивалось многократно.
Результаты работы нейронной сети:
Рисунок 4. Примеры выполнения
Вывод
С помощью использования не одной нейросети, а их последовательности, нам удалось увеличить точность и скорость распознавания позы. Эта технология может использоваться также для трекинга людей в пространстве в реальном времени, что может использоваться в фильмах, или в играх виртуальной реальности, но для этого потребуются большие мощности, чем мы можем себе позволить.
Список литературы:
- M. Andriluka, S. Roth, and B. Schiele. Pictorial structures revisited: People detection and articulated pose estimation. In CVPR, 2009.
- M. Dantone, J. Gall, C. Leistner, and L. Van Gool. Human pose estimation using body parts dependent joint regressors. In CVPR, 2013.
- S. Li, W. Zhang and A. B. Chan. Maximum-Margin Structured Learning with Deep Networks for 3D Human Pose Estimation. In CVF, 2015.
Комментарии (1)
Оставить комментарий