Статья опубликована в рамках: CXII Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 30 апреля 2025 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
КОМПЛЕКСНЫЙ ОБЗОР МЕТОДОВ АУГМЕНТАЦИИ ИЗОБРАЖЕНИЙ ДЛЯ ГЛУБОКОГО ОБУЧЕНИЯ
COMPREHENSIVE REVIEW OF IMAGE AUGMENTATION METHODS FOR DEEP LEARNING
Alexandr Lunkin
Student, Institute of Cybersecurity and Digital Technologies, Russian Technological University MIREA,
Russia, Moscow
Valeriy Akishkin
Student, Institute of Cybersecurity and Digital Technologies, Russian Technological University MIREA,
Russia, Moscow
АННОТАЦИЯ
В данной статье рассмотрены современные подходы к аугментации изображений для глубокого обучения (Deep Learning). Описаны традиционные операции (геометрические, интенсивностные), а также новейшие методы на основе генеративно-состязательных сетей (GAN) и автоматизированных стратегий (AutoAugment, RandAugment). Приведены примеры схем и иллюстраций, демонстрирующих процесс аугментации и результаты её применения. Показано, что аугментация изображений остаётся одним из ключевых факторов успешного обучения нейронных сетей, особенно в условиях ограниченных объёмов данных и сильного дисбаланса классов.
ABSTRACT
This article provides an extensive overview of modern image augmentation methods used in deep learning. We discuss both conventional operations (geometric, intensity-based) and advanced approaches employing generative adversarial networks (GAN) and automated strategies (AutoAugment, RandAugment). Illustrative figures and diagrams are provided to demonstrate the augmentation pipeline and its outcomes. We show that image augmentation remains a pivotal component of training neural networks, particularly when dealing with limited datasets and imbalanced classes.
Ключевые слова: аугментация изображений, глубокое обучение, генеративные модели, AutoAugment, компьютерное зрение, Mixup.
Keywords: image augmentation, deep learning, generative models, AutoAugment, computer vision, Mixup.
ВВЕДЕНИЕ
Активное развитие глубоких нейронных сетей для компьютерного зрения обусловило революционные изменения в таких прикладных областях, как автономные транспортные системы, медицинская диагностика, видеонаблюдение, промышленный контроль качества, робототехника и многие другие. Однако эффективность обучения таких сетей прямо пропорциональна качеству и объему обучающих данных. В реальности же сбор достаточного количества аннотированных изображений нередко сопряжен с трудностями: затратами времени и ресурсов, ограничениями на доступ к специализированным данным и необходимостью обеспечить сбалансированность классов. Более того, существующие датасеты часто страдают от ограниченной репрезентативности, что делает модель уязвимой к доменному сдвигу и снижает её применимость в условиях, отличных от обучающих.
Одним из эффективных способов решения этой проблемы является аугментация изображений — искусственное увеличение объема данных за счет генерации модифицированных версий исходных изображений. Этот подход обеспечивает не только количественное расширение обучающей выборки, но и качественное повышение её разнообразия, что, в свою очередь, приводит к лучшей обобщающей способности модели. Методы аугментации варьируются от простых геометрических и цветовых преобразований до сложных алгоритмов, основанных на генеративных моделях и поиске оптимальных стратегий трансформаций. В данной работе рассматриваются ключевые категории методов аугментации, их принципы, достоинства и недостатки, а также практические области применения и возможные направления дальнейшего развития.
На рисунке 1 представлена упрощённая схема пайплайна аугментации изображений, включающая базовые операции, такие как поворот, отражение и добавление шума. Эта последовательность показывает, как исходное изображение подвергается множеству трансформаций перед подачей в нейросеть.
Рисунок 1. Упрощённая схема пайплайна аугментации изображений
КЛАССИЧЕСКИЕ ПРЕОБРАЗОВАНИЯ
Наиболее доступные и традиционные операции аугментации не требуют дополнительного обучения: повороты, отражения, эластические деформации, масштабирование и регулировка яркости/контраста. Обычно эти изменения помогают избежать переобучения к конкретному ракурсу или освещению. Другим классическим приёмом является «закрытие» некоторых пикселей/участков изображения. Hide-and-Seek случайным образом блокирует части снимка, чтобы модель училась более целостным признакам.
На рисунке 2 продемонстрирован принцип работы метода Hide-and-Seek: случайное закрытие частей изображения вынуждает модель анализировать менее очевидные признаки, тем самым повышая её устойчивость.
Рисунок 2. Принцип работы метода Hide-and-Seek
Источник: Mingle Xu, Sook Yoon, Alvaro Fuentes, Dong Sun Park. A Comprehensive Survey of Image Augmentation Techniques for Deep Learning // arXiv preprint arXiv:2205.01491v2, 2022.
Random Erasing выбирает случайный прямоугольник и заполняет его шумом (или серым цветом), тем самым имитируя окклюзию.
На рисунке 3 показан пример работы Random Erasing. Видно, как случайные области изображения заменяются шумом, что имитирует реальные искажения и помогает обучить более устойчивую модель.
Рисунок 3. Пример работы метода Random erasing
Источник: Mingle Xu, Sook Yoon, Alvaro Fuentes, Dong Sun Park. A Comprehensive Survey of Image Augmentation Techniques for Deep Learning // arXiv preprint arXiv:2205.01491v2, 2022.
GridMask создаёт регулярную сетку, блокирующую некоторые её клетки, достигая баланса между «скрытием» и «сохранением» областей объекта.
На рисунке 4 представлена маска GridMask, которая блокирует регулярные области изображения, позволяя модели воспринимать объекты в различных вариациях и усиливая её генерализационные свойства.
Рисунок 4. Маска Grid
Источник: Mingle Xu, Sook Yoon, Alvaro Fuentes, Dong Sun Park. A Comprehensive Survey of Image Augmentation Techniques for Deep Learning // arXiv preprint arXiv:2205.01491v2, 2022.
МИКШИРОВАНИЕ НЕСКОЛЬКИХ ИЗОБРАЖЕНИЙ
Mixup линейно комбинирует изображения (с коэффициентом λ), CutMix «вырезает» патч из одного снимка и вставляет в другой, а Mosaic объединяет четыре сразу. В итоге сеть видит гораздо больше промежуточных вариантов. CutMix, в отличие от Mixup, порождает «более читаемые» для человека изображения, поскольку часть исходной картинки остаётся нетронутой, а другая часть заменяется патчем из другого снимка.
На рисунке 5 приведено сравнение трёх методов микширования изображений — Cutout, Mixup и CutMix. Это позволяет визуально оценить различия между техниками и их влияние на структуру изображения.
Рисунок 5. Сравнение трёх методов микширования изображений
Источник: Mingle Xu, Sook Yoon, Alvaro Fuentes, Dong Sun Park. A Comprehensive Survey of Image Augmentation Techniques for Deep Learning // arXiv preprint arXiv:2205.01491v2, 2022.
Mosaic (часто используемый в современных версиях YOLO) сочетает четыре изображения на одном кадре, позволяя увеличить число объектов без увеличения размеров batch. Такие техники становятся особенно полезными в условиях ограниченных данных, при дисбалансе классов или при необходимости расширения разнообразия обучающих образцов.
ГЕНЕРАТИВНЫЕ (GAN) ПОДХОДЫ
Если классические преобразования не способны восполнить нужные варианты (например, редкие классы, специфические сценарии), стоит обратиться к генеративно-состязательным сетям (GAN). Генератор порождает новые примеры, а дискриминатор учится отличать их от реальных. При хорошем обучении генератор «охватывает» распределение набора данных, создавая фотореалистичные (или стилизованные) варианты.
Существуют безусловные (unconditional) GAN, когда сеть генерирует общие варианты, а также условные (conditional), где учитывается класс или признак, что полезно при дисбалансе классов — редкие категории можно «дорисовать». С помощью Image-to-Image Translation (CycleGAN, Pix2Pix) картинка из одного домена (ночь) переводится в другой (день).
В медицине такой генеративный подход особенно ценен, так как бывает крайне мало данных патологий, и GAN способны синтезировать дополнительные (хотя и виртуальные) примеры, повышая точность диагностики. Недостаток — сложное обучение, которое может «обваливаться» при неправильных гиперпараметрах или приводить к mode collapse.
АВТОМАТИЗАЦИЯ СТРАТЕГИЙ (AUTOAUGMENT И ДРУГИЕ)
AutoAugment использует обучение с подкреплением: «контроллер» генерирует очередную «политику» (набор операций, вероятности, интенсивности), обучается «child network» и оценивается результат. Такой подход позволяет подобрать наилучшую комбинацию трансформаций без участия человека.
RandAugment упрощает задачу, оставляя всего два гиперпараметра: число искажений и их уровень. Такие методы избавляют от ручного подбора, но требуют немалых ресурсов на этапе поиска, особенно на крупных наборах (ImageNet). В некоторых случаях, однако, прирост точности оказывается существенно выше, чем при ручных экспериментах.
МЕТРИКИ ЭФФЕКТИВНОСТИ АУГМЕНТАЦИИ
Оценка полезности той или иной стратегии аугментации может быть выполнена с использованием различных метрик. Помимо стандартного прироста точности (accuracy), важно учитывать стабильность обучения (convergence stability), устойчивость к шуму (robustness), устойчивость к переобучению (overfitting resilience), а также метрики устойчивости к атакующим воздействиям (adversarial robustness).
Дополнительные подходы к оценке эффективности включают визуализацию распределения признаков с помощью t-SNE и PCA, анализ внутриклассового и межклассового расстояния, а также сравнение качества модели при обучении с разными наборами аугментаций. Исследования показывают, что даже незначительное увеличение разнообразия входных данных может существенно повлиять на итоговую точность, особенно в задачах с ограниченным количеством обучающих примеров.
Также применяются метрики, отражающие устойчивость модели к изменению фоновых объектов, углу съёмки, типу освещения. Например, в задачах автономного вождения важно проверять, как поведение модели изменяется при смене погодных условий, что можно измерить с помощью robustness score в симулированной среде.
Кроме того, используются метрики генеративных моделей, такие как FID (Fréchet Inception Distance) и IS (Inception Score), позволяющие оценить качество синтезированных изображений в задачах с применением GAN. Высокие значения этих метрик свидетельствуют о приближённости распределения синтетических изображений к распределению реальных данных, что говорит о качестве аугментации. Использование таких метрик особенно актуально при создании медицинских синтетических изображений, где визуальная достоверность напрямую влияет на возможность практического применения.
СРАВНИТЕЛЬНЫЙ АНАЛИЗ ПОДХОДОВ
Каждая из групп методов аугментации имеет свои сильные и слабые стороны. Их выбор должен основываться на характере задачи, объёме доступных данных и специфике модели.
Классические методы — Flip, Rotate, Crop, Color Jitter — обладают наименьшей ресурсоёмкостью и просты в реализации. Они идеально подходят для задач, в которых нет необходимости в сложной генерации новых семантических признаков. Однако при обучении на данных с ограниченным разнообразием или выраженным дисбалансом классов они могут оказаться недостаточно эффективными.
Микширование изображений, особенно CutMix и Mosaic, демонстрирует высокую результативность при обучении моделей, работающих с множественными объектами на изображении. Они повышают устойчивость к перекрытиям и шуму, а также улучшают способность модели различать сложные сцены. Например, YOLOv5 и другие модели обнаружения объектов часто обучаются с использованием Mosaic, что позволяет добиться более высокого mAP. Mixup, в свою очередь, хорошо подходит для задач классификации, где важна генерализация на линейные комбинации признаков.
Генеративные методы актуальны, когда речь идёт о редких классах или синтезе нестандартных ситуаций, не встречающихся в обучающей выборке. Их применение в медицине, беспилотных системах и научной визуализации позволяет компенсировать нехватку данных. Однако такие подходы требуют вычислительных ресурсов и тонкой настройки. Не все генераторы обеспечивают нужное качество, и часто приходится балансировать между разнообразием и реалистичностью.
Автоматические методы, такие как AutoAugment и его производные, становятся стандартом при работе с большими наборами данных. Они позволяют подобрать наилучшую комбинацию операций с учётом специфики архитектуры и задачи. Однако стоит учитывать, что поиск оптимальной политики может занимать десятки GPU-часов. В некоторых случаях он компенсируется универсальностью найденной политики, которую можно применять повторно.
Сравнение этих подходов позволяет выработать гибридные стратегии, сочетающие, например, микширование и автоматическую настройку, либо генерацию новых образов с последующей фильтрацией по FID. Такие комбинации показывают максимальную эффективность в задачах с ограниченным количеством примеров.
ПРИМЕНЕНИЕ В РАЗЛИЧНЫХ ОТРАСЛЯХ
В медицине аугментация помогает справиться с дефицитом данных, особенно в задачах классификации снимков патологий (рентген, КТ, МРТ). Генеративные методы позволяют синтезировать изображения с редкими проявлениями заболеваний. Это особенно актуально при обучении моделей для ранней диагностики, где каждая добавленная аномалия увеличивает способность модели выявлять сложные случаи. Также активно применяются методы локального искажения (Deformation, Elastic transformation), которые моделируют поведение тканей при съёмке, особенно в задачах сегментации.
В беспилотном транспорте важную роль играют методы, моделирующие различные погодные условия, освещение, шум, размытость. CycleGAN позволяет преобразовывать изображения между доменами, например, из дневного в ночной, из ясной погоды в туманную. Это помогает модели адаптироваться к изменяющейся среде, не требуя ручной разметки для каждой новой ситуации. Кроме того, активно применяются синтетические датасеты, сгенерированные в движках Unreal Engine и Unity, которые затем «приближаются» к реальности с помощью domain adaptation.
В промышленной автоматике аугментация применяется для распознавания дефектов. Нередко используется CutMix для симуляции редких дефектов, которые сложно получить в реальной среде. Добавление синтетических патчей позволяет улучшить обобщающую способность модели, делая её более чувствительной к визуально неочевидным отклонениям от нормы. Особенно это актуально в производстве микросхем, текстиля и компонентов аэрокосмической техники.
В агросекторе аугментация используется при анализе изображений посевов, растений, животных. Трансформации позволяют учесть сезонные изменения, различия между сортами и условиями съёмки. Это критично для моделей, применяемых в системах мониторинга и управления урожайностью. Например, моделирование разного угла освещения помогает обучить модель, работающую с дронами.
ПЕРСПЕКТИВЫ РАЗВИТИЯ
Ожидается развитие методов, ориентированных на более глубокое понимание структуры данных. Так, feature-level augmentation предполагает проведение трансформаций не над изображениями, а над признаковыми картами, полученными внутри нейросети. Это снижает вычислительную нагрузку и позволяет учитывать структуру внутренних представлений. Такие методы уже применяются в современных Transformer-архитектурах и системах, построенных на self-attention механизмах.
Контрастное обучение и самообучающиеся подходы будут активно использовать аугментацию как центральный элемент архитектуры. Уже сейчас методы вроде SimCLR и BYOL строятся вокруг разнообразных трансформаций одного и того же изображения, рассматривая их как положительную пару для обучения. Это позволяет обойтись без разметки и строить полезные представления только на основе различий между аугментированными вариантами.
Большое внимание уделяется адаптивным стратегиям аугментации, способным изменяться в зависимости от стадии обучения, архитектуры или текущей сложности задачи. Это приведёт к появлению систем, автоматически подбирающих аугментации в реальном времени, на лету реагируя на поведение модели и её ошибки. Такие системы особенно перспективны в онлайн-обучении, где данные поступают потоками.
Наконец, формализованное описание трансформаций через теорию групп и симметрий поможет математически обосновывать выбор тех или иных операций, а также разрабатывать методы, устойчивые к произвольным искажениям. Всё это делает аугментацию не просто этапом подготовки данных, а неотъемлемой частью архитектуры будущих моделей, особенно в гибридных и мультиагентных системах.
ВЫВОДЫ
Аугментация изображений — это мощный инструмент, который позволяет улучшить обучаемость моделей, особенно в условиях ограниченности данных. Классические методы, методы микширования, генеративные подходы и автоматизированные алгоритмы — всё это формирует обширный инструментарий, способный адаптироваться к задачам любой сложности. Их сочетание позволяет реализовать как простые классификаторы, так и сложные архитектуры для сегментации, детекции и трекинга.
Выбор стратегии аугментации зависит от объема доступных данных, сложности задачи, архитектуры модели и требований к точности. В большинстве случаев комбинирование нескольких подходов даёт наилучшие результаты. Аугментация должна рассматриваться не как вспомогательный этап, а как полноценная часть архитектурного дизайна модели. Всё больше фреймворков (Albumentations, AugLy, Kornia) включают поддержку сложных стратегий и интеграцию с AutoML-платформами.
Развитие автоматизированных систем, адаптивных стратегий, генеративных архитектур и методов, работающих на уровне признаков, делает аугментацию ключевым направлением современного глубокого обучения.
Таким образом, глубокое понимание методов аугментации и их осмысленное применение способствуют построению устойчивых, точных и масштабируемых решений в самых разных областях науки, техники и бизнеса.
Список литературы:
- Goodfellow I., Bengio Y., Courville A. Deep Learning. — Cambridge: MIT Press, 2016. — 775 p.
- Shorten C., Khoshgoftaar T.M. A survey on image data augmentation for deep learning // Journal of Big Data. — 2019. — Vol. 6, №1. — P. 60.
- Perez L., Wang J. The effectiveness of data augmentation in image classification using deep learning // arXiv preprint arXiv:1712.04621. — 2017. — URL: https://arxiv.org/abs/1712.04621 (дата обращения: 29.03.2025).
- Yun S. et al. CutMix: Regularization strategy to train strong classifiers with localizable features // Proc. IEEE/CVF Int. Conf. on Computer Vision. — 2019. — P. 6023–6032.
- Zhang H. et al. mixup: Beyond Empirical Risk Minimization // arXiv preprint arXiv:1710.09412. — 2017. — URL: https://arxiv.org/abs/1710.09412 (дата обращения: 29.03.2025).
- Cubuk E.D. et al. AutoAugment: Learning augmentation policies from data // Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition. — 2019. — P. 113–123.
- Tan M., Le Q. EfficientNet: Rethinking model scaling for convolutional neural networks // Int. Conf. on Machine Learning. — 2019.
- He K. et al. Deep residual learning for image recognition // Proc. IEEE Conf. on Computer Vision and Pattern Recognition. — 2016. — P. 770–778.
- Dosovitskiy A. et al. An image is worth 16x16 words: Transformers for image recognition at scale // arXiv preprint arXiv:2010.11929. — 2021. — URL: https://arxiv.org/abs/2010.11929 (дата обращения: 29.03.2025).
- Zhao H. et al. Loss functions for image restoration with neural networks // IEEE Trans. Comput. Imaging. — 2017. — Vol. 3, №1. — P. 47–57.
- Wang T. et al. A comprehensive survey on contrastive self-supervised learning // IEEE Trans. Pattern Anal. Mach. Intell. — 2023.
- Wang Z. et al. Image quality assessment: From error visibility to structural similarity // IEEE Trans. Image Process. — 2004. — Vol. 13, №4. — P. 600–612.
- Chen T. et al. A simple framework for contrastive learning of visual representations // ICML. — 2020.
- Grill J.-B. et al. Bootstrap your own latent: A new approach to self-supervised learning // Adv. Neural Inf. Process. Syst. — 2020.
- Zhang Y. et al. Understanding image augmentations for training deep neural networks // arXiv:2209.04652. — 2022. — URL: https://arxiv.org/abs/2209.04652 (дата обращения: 29.03.2025).
- Бурцев А.А., Горбунов А.А. Использование CycleGAN для преобразования доменов изображений // Труды ИСП РАН. — 2020. — Т. 32, №6. — С. 57–70.
- Kumar V., Singh A. A Comprehensive Survey on Image Preprocessing Techniques in Deep Learning // Appl. Comput. Inform. — 2022.
- Wang K. et al. Generative adversarial networks: introduction and outlook // IEEE/CAA J. Automatica Sinica. — 2021. — Vol. 7, №3. — P. 365–388.
- Xu Y. et al. Deep learning of feature representation with multiple instance learning for medical image analysis // IEEE Trans. Neural Netw. Learn. Syst. — 2021.
- Vaswani A. et al. Attention is all you need // NeurIPS. — 2017.
- Howard J., Gugger S. Fastai: A layered API for deep learning // Information. — 2020. — Vol. 11, №2.
- Buslaev A. et al. Albumentations: Fast and flexible image augmentations // Information. — 2020. — Vol. 11, №2.
- Zoph B. et al. Learning Data Augmentation Strategies for Object Detection // Eur. Conf. Comput. Vis. — 2020.
- Mikołajczyk A., Grochowski M. Data augmentation for improving deep learning in image classification // Int. Interdisciplinary PhD Workshop. — 2018.
- Chen W. et al. A Comprehensive Survey on Vision Transformers // IEEE Trans. Pattern Anal. Mach. Intell. — 2023.
- Zhao B. et al. Data augmentation with improved mixup for image classification // Neurocomputing. — 2022. — Vol. 510. — P. 256–270.
- Mingle Xu, Sook Yoon, Alvaro Fuentes, Dong Sun Park. A Comprehensive Survey of Image Augmentation Techniques for Deep Learning // arXiv preprint arXiv:2205.01491v2, 2022.
дипломов
Оставить комментарий