Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: XC Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 08 июня 2020 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Папроцкий Э.В. ОЦЕНКА ВЛИЯНИЯ ПОЗИЦИОНИРОВАНИЯ ИЗОБРАЖЕНИЙ В СВЁРТОЧНЫХ НЕЙРОННЫХ СЕТЯХ ДЛЯ РЕШЕНИЯ ЗАДАЧ СЕГМЕНТАЦИИ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. XC междунар. студ. науч.-практ. конф. № 6(89). URL: https://sibac.info/archive/technic/6(89).pdf (дата обращения: 23.12.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
Диплом Выбор редакционной коллегии

ОЦЕНКА ВЛИЯНИЯ ПОЗИЦИОНИРОВАНИЯ ИЗОБРАЖЕНИЙ В СВЁРТОЧНЫХ НЕЙРОННЫХ СЕТЯХ ДЛЯ РЕШЕНИЯ ЗАДАЧ СЕГМЕНТАЦИИ

Папроцкий Эдуард Варерьевич

студент, факультет компьютерных систем и сетей, Белорусский Государственный Университет Информатики и Радиоэлектроники,

Республика Беларусь, г. Минск

IMAGE POSITIONING IMPACT ASSESSMENT IN CONVOLUTION NEURAL NETWORKS TO SOLVE SEGMENTATION PROBLEMS

 

Eduard Paprotski

student, faculty of computer systems and networks, Belarusian State University of Informatics and Radioelectronics,

Belarus, Minsk

 

АННОТАЦИЯ

Было доказано, что сверточные нейронные сети (CNN) очень эффективны в анализе и задачах, связанных с изображениями, таких как: сегментация, классификация, генерация и так далее. В последнее время было предложено много сложных архитектур CNN на основе для сегментации изображений. Идея CNN заключается в использовании операции свёртки для изображений для: разреженности взаимодействия нейронов, уменьшение исходных размеров и разделения параметров. Операция свёртка является эквивариантной операцией и положение изображения не влияет на результат. Недавнее исследование показывает что операция дополнения изображения нулями предоставляет информацию о его местоположении, что является очень полезным для задач распознавания объектов, сегментации и других. Однако на практике часто возникают проблемы. В этом исследовании мы исследуем, как позиционная информация может использоваться для задач сегментации.

ABSTRACT

It has been proven that convolution neural networks (CNN) are very effective in analysis and image related tasks such as: segmentation, classification, generation, etc. Recently, many complex CNN based architectures have been proposed for image segmentation. The idea of CNN is to use a convolution operation for images for: the sparse interaction of neurons, reducing the original size and separation of parameters. The convolution operation is an equilateral operation and the position of the image does not affect the result. Recent research shows that the image augmentation operation with zeros provides information about its location, which is very useful for tasks of object recognition, segmentation and others. In practice, however, problems often arise. In this study, we explore how position information can be used for segmentation tasks.

 

Ключевые слова: свёрточные нейронные сети; сегментация изображений; позиционирование изображений.

Keywords: convolution neural network; image segmentation; image positioning.

 

Операция свёртки является эквивариантной [1] как и свёрточная сеть, состоящая исключительно из свёрточных слоёв. При перемещении изображения в пространстве выходные данные свёртки будут смещены соответственно. В этом случае абсолютное положение изображения не влияет на результат свёртки. Однако, если же применить операцию отступа (англ. padding), которая заключается в дополнения изображения нулям по всему контуру, то можно делать предположения о неявном положении [2].  Эта идея довольно стандартна в области обработки естественного языка, которая называется позиционное кодирование; при вводе последовательности слов относительная позиция каждого слова кодируется и добавляется к характеристике слова. В этом исследовании рассматривается аналогичный метод, предназначенный для задач с изображениями, который добавляет дополнительные каналы к входному изображению, которое кодирует координаты изображения. Также существует ряд исследований подобных методов [3], в которых авторы исследований пытаются использовать информацию о месторасположения более сложным способом, таким как: применение рекуррентных сетей [4] или капсулы [5] или же шумоподавляющие автокодировщики [6]. Однако все эти исследование не дают однозначного ответа о влиянии позиционирования изображения для сегментации.

В архитектурах сети VGG-16 [7] можно использовать информацию об абсолютном положении для задач распознавания и сегментации объектов. Поскольку удаление отступов из сети значительно уменьшит размер карт объектов высокого уровня, что ухудшит его производительность. Влияние отступа может быть намного больше, чем информация о местоположении. С другой стороны, мы должны быть осторожны, чтобы судить, насколько важна информация о положении для решения данной задачи. В случае естественных изображений важность информации о местоположении должна в значительной степени зависеть от того, как они были получены. Например, если камера может указывать во всех направлениях в пространстве, где объекты появляются на изображении, они должны быть полностью случайными. В этом случае абсолютная позиция не должна использоваться для вывода. Таким образом, даже когда информация о местоположении вносит вклад в вывод, осуществляемый для некоторых наборов данных (как в ImageNet [8]), может быть справедливым сказать, что это происходит из-за смещения, существующего в этих наборах данных. На самом деле, как указывалось в нескольких исследованиях [9], изображения, содержащиеся в ImageNet, имеют сильные смещения, например, целевой объекты будет появляться вблизи центра с большим размером - что неудивительно для снимков.

Воспользуемся способом встраивания (англ. embedding) абсолютных положений изображений в дополнительные каналы входов свёрточной сети. Для входного изображения используется только один цветовой канал, то есть изображение по умолчанию серого цвета. К нему добавляется ещё 2 канала для кодирования c координатами  для пикселей. К каждому изображению с размерами  добавляется 3 канала , где – координаты пикселей, ,  – хранит изначальную интенсивность пикселя, а икодированные через координаты  следующим способом:

где:  – параметр управления; каналы хранят значения , можно использовать для изменения относительной интенсивности пикселей, которая влияет на информацию позиционирования изображений.

В качестве набора данных для сегментации изображений был выбран набор данных:

1) COCO 2019 – это крупномасштабный набор данных изображений для обнаружения, сегментации и создания субтитров. Включает в себя 91 класс и около 330 тысяч изображений [10].

2) ADE20K – который содержит более 20 тысяч сцено-ориентированных изображений, полностью снабженных объектами и частями объекта. В частности, эталонный тест делится на 20 тысяч изображений для обучения, 2 тысячи изображений для проверки и еще одну серию отложенных изображений для тестирования. Всего для оценки включено 150 семантических категорий [11].

Для тестирования каждое из изображений будет подготовлено на основе метода, описанного ранее. Выбранный размер изображения 256 x 256 пикселей. Набор данных разделён на 3 группы 95:3:2, соответственно тренировочный набор, тестовый и валидационный.

Для сравнения используется стандартную модель U-net с периодической нормализацией [12]. Также используются варианты с тремя входными каналами при использовании позиционного кодирования. Для обучения и оценки используются стандартные методы для сегментации изображений: базовую кросс-энтропии [13] и оптимизатор Адама [14] для 100 эпох. Скорость обучения 0,001 и размер партии (англ. batch size) – 20.

Результаты тестирования приведены в таблице 1.

Таблица 1.

Результаты тестирования

Модель

Параметр управления

COCO 2019

ADE20K

U-net / с позиционным кодированием

 

1

0,8582

0,9649

10

0.8557

0.9637

256

0.8347

0.9599

U-net / без позиционного кодирования

 

1

0,8431

0,9621

10

0.8420

0.9612

256

0.8412

0.9591

 

Когда данные обучения и тестирования собираются из разных дистрибутивов, модели машинного обучения, обученные на первом, будут достигать только оптимальных результатов логического вывода на втором. Эта проблема, также известная как сдвиг области, недавно была признана критической проблемой, особенно в области глубокого обучения. Производительность при таком сдвиге домена не может быть должным образом оценена путем разделения данных, собранных одним методом, на разделы обучения и тестирования. Решение, которое эффективно для задач компьютерного зрения, заключается в синтетическом ухудшении качества входных изображений. Снижая качество только изображений для тестирования, мы можем смоделировать некоторые типы сдвига доменов. Для решения можно синтезировать различные типы ухудшения изображения в реалистичной манере. Это один из немногих возможных методов, которые могут оценить реальную производительность моделей глубокого обучения.

Резюмируя, в этой статье, как в CNN сетях могут использовать абсолютное положение изображения для задач сегментации посредством серии экспериментальных анализов. С одной стороны, позиционное кодирование, которое добавляет дополнительные каналы, кодирующие абсолютные положения изображения, к входному изображению, так что CNN будет иметь прямой доступ к информации о положении, эффективно, без сомнения. Таким образом, CNN могут запоминать форму масок сегментации, привязанных к абсолютному положению изображения, что приводит к повышению устойчивости к ухудшению изображения. Также было обнаружено, что путем картирования  координаты в диапазоне , можно контролировать относительную важность абсолютного положения для интенсивности пикселей с. С другой стороны, полезность абсолютного положения изображения зависит от каждой задачи и набора данных. Положение изображения может быть эффективным только в ограниченных ситуациях. На самом деле, использование абсолютной позиции для вывода является обоюдоострым мечом. Слишком сильная зависимость от этого поставит под угрозу присущую CNN инвариантность к пространственному сдвигу входных изображений, что приведет к снижению устойчивости к сдвигу изображения. Экспериментальные результаты показывают, что информация об абсолютном местоположении не является существенной для точного вывода, даже для двух наборов данных (то есть, COCO 2019 и ADE20K), для которых информация о местоположении, естественно, должна быть существенной для лучшего вывода. Это справедливо, если имеется достаточное количество обучающих данных, и модель обладает достаточной емкостью, и нет статистической разницы между обучающими и тестовыми данными.

 

Список литературы:

  1. Steven R. Costenoble, Stefan Waner, Equivariant Ordinary Homology and Cohomology, 2010.
  2. Umberto Michelucci, Advanced Applied Deep Learning: Convolutional Neural Networks and Object, 2019.
  3. Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla. Segnet: A deep convolutional encoderdecoder architecture for scene segmentation, с 110-117, 2017.
  4. Clement Zotti, Zhiming Luo, Alain Lalande, and Pierre-Marc Jodoin. Convolutional neural network with shape prior applied to cardiac MRI segmentation. IEEE journal of biomedical and health informatics, c 1119-1128, 2018.
  5. Sara Sabour, Nicholas Frosst, and Geoffrey E Hinton. Dynamic routing between capsules, с 3856-3866, 2017.
  6. Agostina J Larrazabal, Cesar Martinez, and Enzo Ferrante. Anatomical priors for image segmentation via post-processing with denoising autoencoders. In MICCAI, с 585-593, 2019.
  7. Kumari Indu BhattEffi, cacy of Deep Learning in Image Classification, c 136, 2018.
  8. What is ImageNet? [Электронный ресурс] – Режим доступа: http://www.image-net.org/.
  9. Robert Geirhos, Patricia Rubisch, Claudio Michaelis, Matthias Bethge, Felix A. Wichmann, and Wieland Brendel. Imagenet-trained cnns are biased towards texture; increasing shape bias improves accuracy and robustness. In ICLR. OpenReview.net, 2019.
  10. Описание набор данных СOCO 2019 [Электронный доступ] – Режим доступа: http://cocodataset.org/#overview.
  11. Описание набор данных ADE20K [Электронный доступ] – Режим: https://groups.csail.mit.edu/vision/datasets/ADE20K/.
  12. Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation, с 234-241, 2015.
  13. What is Сross entropy? [Электронный доступ] – Режим: https://en.wikipedia.org/wiki/Cross_entropy.
  14. Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization, 2014.
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
Диплом Выбор редакционной коллегии

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.