Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 1(213)

Рубрика журнала: Технические науки

Секция: Энергетика

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6, скачать журнал часть 7

Библиографическое описание:
Величко В.А., Ефремова С.А. СРАВНЕНИЕ ПРИНЦИПОВ РАБОТЫ АЛГОРИТМОВ ОБНАРУЖЕНИЯ ОБЪЕКТОВ: FASTER R-CNN И YOLOV3 // Студенческий: электрон. научн. журн. 2023. № 1(213). URL: https://sibac.info/journal/student/213/277026 (дата обращения: 07.05.2024).

СРАВНЕНИЕ ПРИНЦИПОВ РАБОТЫ АЛГОРИТМОВ ОБНАРУЖЕНИЯ ОБЪЕКТОВ: FASTER R-CNN И YOLOV3

Величко Владислав Алексеевич

магистрант, кафедра электро- и теплоэнергетики, Оренбургский государственный университет,

РФ, г. Оренбург

Ефремова Светлана Александровна

магистрант, кафедра электро- и теплоэнергетики, Оренбургский государственный университет,

РФ, г. Оренбург

COMPARISON OF THE OPERATING PRINCIPLES OF THE OBJECT DETECTION ALGORITHMS: FASTER R-CNN AND YOLOV3

 

Vladislav Velichko

master's student, Department of Electric and Thermal Power Engineering, Orenburg State University,

Russia, Orenburg

Svetlana Efremova

master's student, Department of Electric and Thermal Power Engineering, Orenburg State University,

Russia, Orenburg

 

АННОТАЦИЯ

В статье представлена информация об основных принципах работы сверточных нейронных сетей для обнаружения объектов в реальном времени: Faster R-CNN и YOLOv3. Представлены достоинства и недостатки каждой из архитектур.

ABSTRACT

The article provides information on the basic principles of operation of convolutional neural networks for real-time object detection: Faster R-CNN and YOLOv3. The advantages and disadvantages of each of the architectures are presented.

 

Ключевые слова: сверточная нейронная сеть, область интереса, сеть предложений региона, Faster R-CNN, YOLOv3.

Keywords: convolutional neural network, region of interest, region proposal network, Faster R-CNN, YOLOv3.

 

Полносвязная нейронная сеть на основе слоев упорядочивает данные RGB-изображения в одном измерении. Измерение — это количество параметров (весов, смещений) в модели. Исходные координаты из данных изображения RGB удаляются во время преобразования измерения. Координаты предоставляют информацию об объекте алгоритму нейронной сети, поэтому удаление координат приводит к тому, что алгоритм не распознает объект.

Тем не менее свёрточная нейронная сеть (англ. convolutional neural network, CNN) сохраняет координаты в процессе преобразования измерения, используя фильтр, который сжимает пространственную информацию исходного изображения. Фильтр передает сжатую информацию каждому измерению. Таким образом, алгоритм может извлекать признаки из поступающего на вход изображения, интегрируя информацию из всех измерений — это процесс свертки слоя. Номер и размер фильтра определяют номер и размер преобразованных измерений соответственно. Пользователь CNN выбирает размер фильтра как 3 × 3 или 5 × 5 (эмпирическое правило в области CNN). Для каждой точки на изображении рассчитывается оценка распознавания для извлечения признаков с помощью операции свертки фильтра. Для того чтобы уточнить признак, CNN интегрирует каждый сверточный слой в карту признаков.

Для автоматического обнаружения объекта используются алгоритмы глубокого обучения на основе CNN. Модель обнаружения объектов использует модели CNN для указания конкретных целей на картах признаков. CNN, используемый для обнаружения объектов, называется «базовой CNN» или «совместно используемой CNN». Модель обнаружения объектов изучает карты признаков (выходные данные базовой CNN), классифицируя каждый объект и прогнозируя координаты объектов с помощью регрессионных моделей.

В настоящее время Faster R-CNN показывает лучшую производительность по сравнению с алгоритмом-предшественником Fast R - CNN. Fast R-CNN использует выборочный поиск для создания областей интереса (англ. regions of interest, ROI) из входных изображений. Выборочный поиск показывает высокую точность выделения области-кандидата, но требует больших вычислительных мощностей. На этапе создания ROI Faster R-CNN обеспечивает параллельную обработку, состоящую из сети предложений региона (англ. region proposal network, RPN) и сверточной карты CNN. RPN получает карту признаков CNN. Сетевая операция выполняется методом скользящего окна над этими картами признаков. В каждом окне генерируется k якорей разных форм и размеров. Якоря — это ограничивающие рамки заданных изображений, состоящие из трех разных форм и размеров (k ≤ 9). Для каждого якоря RPN предсказывает две вещи. Первая — это вероятность того, что якорь является объектом, а вторая — координата ограничивающей рамки. Структура Faster R-CNN показана на рисунке 1.

Faster R-CNN извлекает ROI быстрее, чем архитектура-предшественник Fast R-CNN, заменяя выборочный поиск RPN [1].

 

Рисунок 1. Графическое представление Faster Region-based Convolutional Neural Network (Faster R-CNN)

 

YOLOv3 обнаруживает объекты, исследуя их с помощью одноступенчатой нейронной сети. В то же время модели R-CNN представляют собой двухступенчатые нейронные сети — они медленнее обрабатывают изображения, по сравнению с YOLOv3. Эта модель обнаружения объекта использует логистический классификатор для вычисления вероятности того, что объект имеет определенную метку [2]. Для определения функции потерь классификации YOLOv3 использует двоичную функцию потерь перекрестной энтропии для каждой метки вместо функции общей среднеквадратичной ошибки, используемой в предыдущих версиях (YOLOv1, YOLOv2) [3,4]. YOLOv3 разделяет входное изображение на сетку и использует подходы к прогнозированию с применением ограничивающих рамок для извлечения ROI. Этот алгоритм связывает одну оценку объектности с якорем, который перекрывает истинный объект больше, чем другие якоря. Модель игнорирует привязки, которые перекрывают истинный объект более чем на выбранный порог. Таким образом, эта модель присваивает один якорь каждому истинному объекту. YOLOv3 генерирует прямоугольники в трех разных масштабах, а затем извлекает объекты каждого масштаба. Результат предсказания нейросети — это трехмерный тензор, который кодирует ограничивающую рамку, оценку объектности и прогнозирование принадлежности классу. Вот почему размеры тензора на последнем шаге отличаются от соответствующих размеров в предыдущих версиях нейросети. Наконец, YOLOv3 использует новый экстрактор функций CNN под названием Darknet-53. Это 53-уровневая CNN, которая использует сеть пропускных соединений, вдохновленную ResNet. Она также использует сверточные слои 3 × 3 и 1 × 1. Данная нейросеть продемонстрировала более высокую точность, по сравнению с предыдущими версиями, при снижении количества операций с плавающей запятой и увеличении скорости обработки изображений [1].

 

Список литературы:

  1. Du, J. Understanding of Object Detection Based on CNN Family and YOLO. J. Phys. Conf. Ser. 2018, 1004, 012029.
  2. Redmon, J.; Farhadi, A. YOLOv3: An Incremental Improvement. arXiv 2018, arXiv:1804.02767.
  3. Redmon, J.; Divvala, S.; Girshick, R.; Farhadi, A. You Only Look Once: Unified, Real-Time Object Detection. In Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 27–30 June 2016; pp. 779–788.
  4. Redmon, J.; Farhadi, A. YOLO9000: Better, Faster, Stronger. In Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 21–26 July 2017; pp. 6517–6525.

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.