Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: LXXXVII Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 26 мая 2025 г.)

Наука: Информационные технологии

Секция: Автоматизация и управление технологическими процессами и производствами

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Шалимов А.С., Васильев М.Е. МЕТОДЫ АКТИВНОГО ОБУЧЕНИЯ: ОБЗОР И ПРОБЛЕМЫ ПРИМЕНЕНИЯ В ЗАДАЧАХ КОМПЬЮТЕРНОГО ЗРЕНИЯ // Вопросы технических и физико-математических наук в свете современных исследований: сб. ст. по матер. LXXXVII междунар. науч.-практ. конф. № 5(78). – Новосибирск: СибАК, 2025. – С. 23-34.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

МЕТОДЫ АКТИВНОГО ОБУЧЕНИЯ: ОБЗОР И ПРОБЛЕМЫ ПРИМЕНЕНИЯ В ЗАДАЧАХ КОМПЬЮТЕРНОГО ЗРЕНИЯ

Шалимов Александр Сергеевич

аспирант, кафедра информационных систем и цифровых технологий, Орловский государственный университет имени И.С. Тургенева,

РФ, г. Орёл

Васильев Максим Евгеньевич

аспирант, кафедра информационных систем и цифровых технологий, Орловский государственный университет имени И.С. Тургенева,

РФ, г. Орёл

Савина Ольга Александровна

научный руководитель,

д-р экон. наук, канд. техн. наук, проф., Орловский государственный университет имени И.С. Тургенева,

РФ, г. Орёл

ACTIVE LEARNING METHODS: A REVIEW AND APPLICATION CHALLENGES IN COMPUTER VISION TASKS

 

Alexander Shalimov

Graduate student, Department of Information Systems and Digital Technologies, Oryol State University named after I. S. Turgenev,

Russia, Orel

Maksim Vasilev

Graduate student, Department of Information Systems and Digital Technologies, Oryol State University named after I. S. Turgenev,

Russia, Orel

Olga Savina

Scientific supervisor, dr. sc. in economics., cand. sc. in engineering., professor, Oryol State University named after I. S. Turgenev,

Russia, Orel

 

АННОТАЦИЯ

В статье проводится системный анализ парадигмы активного обучения (АО) применительно к задачам компьютерного зрения (CV), решаемым с использованием глубоких нейронных сетей. Осуществляется обзор фундаментальных методов выборки данных, включая подходы, основанные на оценке неопределенности модели и разнообразии данных. Анализируется современная практика применения АО для автоматизации процесса разметки изображений в рамках концепции Human-in-the-Loop (HITL). На примере детекторов объектов семейства YOLO рассматриваются существующие подходы к интеграции АО в промышленные конвейеры разработки моделей. В статье также обобщаются ключевые методологические, архитектурные и системные вызовы, с которыми сталкивается данная область, и обсуждаются перспективные направления исследований, отмеченные в научной литературе.

ABSTRACT

The article provides a systematic analysis of the active learning (AL) paradigm as applied to computer vision (CV) tasks based on deep neural networks. A review of fundamental data sampling strategies is carried out, including uncertainty-based and diversity-based approaches. The current practice of applying AL for annotation automation within the Human-in-the-Loop (HITL) concept is analyzed. Using the example of YOLO object detectors, existing approaches for integrating AL into industrial model development pipelines are examined. The paper also summarizes the key methodological, architectural, and systemic challenges facing the field and discusses promising research directions noted in the scientific literature.

 

Ключевые слова: активное обучение, компьютерное зрение, глубокое обучение, разметка данных, Human-in-the-Loop, YOLO, стратегии выборки, MLOps.

Keywords: active learning, computer vision, deep learning, data annotation, Human-in-the-Loop, YOLO, sampling strategies, MLOps.

 

ВВЕДЕНИЕ

Эффективность современных систем компьютерного зрения, основанных на глубоком обучении, критически зависит от наличия масштабных, качественно размеченных наборов данных. Процесс ручного аннотирования изображений является одним из наиболее трудоемких и дорогостоящих этапов в жизненном цикле разработки моделей машинного обучения, что существенно ограничивает их применение, особенно в узкоспециализированных областях с дефицитом размеченных данных.

Для решения этой проблемы в научной и инженерной среде активно развивается парадигма активного обучения (Active Learning, АО). Суть АО заключается в итеративном процессе, где обучаемая модель сама участвует в формировании обучающей выборки, запрашивая у эксперта-аннотатора (человека-в-цикле, Human-in-the-Loop) разметку только тех данных, которые являются для нее наиболее информативными и полезными для дальнейшего обучения [1, 2]. Такой подход позволяет существенно сократить объем ручного труда и связанные с ним затраты, без значительной потери в качестве итоговой модели [3, 4].

Целью данной обзорной статьи является проведение системного анализа существующих методов активного обучения, а также обобщение практического опыта их применения и связанных с этим проблем в современных задачах компьютерного зрения.

МАТЕРИАЛЫ И МЕТОДЫ

Настоящая работа носит обзорный характер и основана на анализе и синтезе актуальных научных публикаций, посвященных теории и практике активного обучения в области компьютерного зрения. Методологическая база исследования включает системный подход к классификации существующих стратегий и сценариев АО. Анализ сфокусирован на публикациях, описывающих применение данных методов к глубоким сверточным нейронным сетям (Convolutional Neural Networks, CNN) [5, 6], и на обобщении практик, реализуемых в современных платформах для разметки данных и в рамках концепции MLOps (Machine Learning Operations).

В качестве источников использованы статьи из рецензируемых научных журналов, материалы ведущих конференций по машинному обучению и компьютерному зрению, а также технические отчеты исследовательских групп. Особое внимание уделялось работам, опубликованным в последние пять лет, для отражения современного состояния и наиболее актуальных тенденций в данной области [7, 8, 9].

ОСНОВЫ АКТИВНОГО ОБУЧЕНИЯ

Активное обучение представляет собой область машинного обучения, в которой алгоритм обладает возможностью интерактивно запрашивать новую информацию (обычно в виде меток для неразмеченных данных) у источника знаний (например, эксперта-человека) [3]. Основная цель — достижение высокой точности модели при минимизации объема требуемой ручной разметки.

Ключевая идея АО заключается в итеративном процессе, представленном на рисунке 1.

Рисунок 1. Классический алгоритм активного обучения

Источник: [3]

 

МЕТОДЫ АКТИВНОГО ОБУЧЕНИЯ

В зависимости от способа взаимодействия с набором неразмеченных данных, выделяют три основных сценария активного обучения [3, 7].

  1. Выборка на основе пула (Pool-Based Sampling). Это наиболее распространенный сценарий, при котором алгоритм имеет доступ ко всему пулу неразмеченных данных. На каждой итерации он анализирует весь пул, ранжирует примеры по степени информативности и отбирает для разметки наилучший батч.
  2. Выборка на основе потока (Stream-Based Selective Sampling). В данном сценарии данные поступают последовательно, и для каждого нового примера система должна мгновенно принять решение: разметить его или пропустить. Этот подход актуален для задач, где данные генерируются в реальном времени.
  3. Синтез запросов на членство (Membership Query Synthesis). Вместо выбора из существующих данных, алгоритм сам генерирует (синтезирует) новые примеры в тех областях пространства признаков, где неопределенность максимальна.

Эффективность этих сценариев определяется стратегией выборки (query strategy). В научной литературе выделяют две фундаментальные группы стратегий [3].

Выборка по неопределенности (Uncertainty Sampling). Наиболее исследованная категория методов, которая объединяет подходы, основанные на выборе примеров с максимальной неопределенностью для текущей модели. Предполагается, что такие данные лежат вблизи границы принятия решений, и их разметка наиболее эффективна для ее уточнения. Схема работы данной выборки представлена на рисунке 2.

 

Рисунок 2. Выборка на основе неопределенности

Источник: [1]

 

Основные метрики неопределенности включают:

  • Наименьшая уверенность (Least Confidence): выбираются примеры, для которых максимальная апостериорная вероятность принадлежности к какому-либо классу минимальна.
  • Отступ (Margin Sampling): выбираются примеры, где разница между вероятностями двух наиболее вероятных классов минимальна.
  • Энтропия (Entropy-based Sampling): выбираются примеры с максимальной энтропией распределения вероятностей по классам, что соответствует наибольшей «случайности» предсказания [3, 6].

Выборка по разнообразию (Diversity Sampling). Данная стратегия нацелена на обеспечение репрезентативности обучающего набора. Алгоритм стремится выбирать примеры, которые максимально не похожи на уже размеченные, чтобы покрыть все пространство признаков и улучшить обобщающую способность модели. Часто для оценки разнообразия используются методы кластеризации. На рисунке 3 представлена схема работы данной стратегии.

 

Рисунок 3. Выборка на основе разнообразия

Источник: [1]

 

Методы выборки по разнообразию часто включают:

  • Кластерный анализ: Данные группируются в кластеры, и для разметки выбираются представители из разных кластеров или наименее уверенно классифицированные примеры внутри каждого кластера.
  • Репрезентативная выборка: Отбор примеров, которые наилучшим образом представляют распределение всего неразмеченного пула данных.
  • Выборка на основе ядерных множеств: Поиск минимального подмножества данных, которое хорошо аппроксимирует весь набор данных [5, 7].

В современных системах, как правило, применяются гибридные стратегии, которые стремятся найти баланс между исследованием наиболее сложных областей и обеспечением разнообразия выборки.

Таблица 1.

Сравнительный анализ основных стратегий активного обучения

№ п\п

Стратегия

Принцип работы

Преимущества

Недостатки

1

Выборка по неопределенности

Выбираются примеры, для которых модель демонстрирует наименьшую уверенность в предсказании.

Быстрое улучшение точности на сложных участках границы классов.

Риск выбора избыточных, похожих друг на друга примеров и выбросов.

2

Выборка по разнообразию

Выбираются примеры, которые максимально не похожи друг на друга и покрывают все пространство признаков.

Обеспечивает хорошую обобщающую способность модели, решает проблему «холодного старта».

Может игнорировать сложные для классификации области, если они уже представлены в выборке.

3

Композитные стратегии

Комбинирование критериев неопределенности и разнообразия для сбалансированного отбора данных.

Сочетают преимущества обоих подходов, обеспечивая как точность, так и обобщение.

Более сложны в реализации и настройке.

 

ПРОБЛЕМЫ ПРИМЕНЕНИЯ МЕТОДОВ АКТИВНОГО ОБУЧЕНИЯ В КОМПЬЮТЕРНОМ ЗРЕНИИ

Несмотря на теоретическую привлекательность, практическая интеграция активного обучения (АО) в конвейеры разработки систем компьютерного зрения на основе глубоких нейронных сетей сопряжена с рядом специфических и взаимосвязанных проблем. Их можно систематизировать по трем уровням: от алгоритмических до инфраструктурных.

I. Проблемы на уровне стратегий запроса

Это вызовы, связанные с ядром любого алгоритма АО — функцией выбора данных для аннотирования.

1) Проблема «холодного старта». На начальных этапах, при малом количестве размеченных данных, модель не способна генерировать надежные оценки собственной неопределенности [3]. В контексте YOLO, который является одноэтапным детектором объектов, проблема «холодного старта» особенно заметна. На начальных этапах, когда имеется мало размеченных данных, модель YOLO может демонстрировать высокую уверенность в своих предсказаниях даже когда они неверны, особенно для мелких или частично перекрывающихся объектов. Это делает сложным определение наиболее информативных примеров для разметки.

2) Неадекватность традиционных метрик неопределенности для глубоких нейронных сетей. Классические метрики часто оказываются плохо откалиброванными для современных глубоких архитектур. Нейронные сети могут демонстрировать высокую уверенность даже при неверных предсказаниях. Важно различать два типа неопределенности: эпистемическую (неопределенность самой модели, которую АО стремится снизить путем получения новых данных) и алеаторную (неопределенность, присущая самим данным, например, из-за шума или внутренней неоднозначности, которую снизить невозможно). Продвинутые методы оценки эпистемической неопределенности более надежны, но при этом вычислительно затратны [6, 8].

3) Специфика понятия «информативности» для различных задач компьютерного зрения. Критерии выбора наиболее ценных данных кардинально различаются в зависимости от конкретной CV-задачи:

а) Классификация изображений: Основной фокус на неопределенности в принадлежности изображения к тому или иному классу [10].

б) Детекция объектов (например, с использованием YOLO [11], Faster R-CNN [12]): Информативность становится многокомпонентной. Она включает как неопределенность в классификации обнаруженного объекта, так и неопределенность в точности его локализации [9].

в) Сегментация изображений: Ключевой становится неопределенность на границах сегментируемых объектов [13].

II. Проблемы на уровне данных и процесса аннотирования

Эти проблемы связаны с источником разметки (человеком-аннотатором) и самим процессом получения меток.

  1. Реалистичная оценка стоимости аннотирования. Стоимость разметки определяется не только количеством изображений, но и количеством и сложностью аннотируемых объектов на них. Стратегии АО, которые выбирают изображения с высокой плотностью объектов или сложными для разметки элементами, могут непреднамеренно значительно увеличивать реальные временные и финансовые затраты. Эффективные подходы должны стремиться к нахождению баланса между информационной ценностью изображения и предполагаемой стоимостью его аннотирования.
  2. Проблема классового дисбаланса. Наборы данных в задачах компьютерного зрения часто сильно несбалансированы по классам. Наивные стратегии АО, ориентированные только на общую неопределенность, могут усугублять эту проблему, преимущественно выбирая для разметки объекты доминирующих классов, в то время как редкие классы будут оставаться недостаточно представленными [8]. При обучении YOLO для детекции дефектов на производственной линии, где 97% изображений содержат нормальные изделия и только 3% - дефектные, система АО может постоянно выбирать примеры с нормальными изделиями, если не учитывать классовый баланс в стратегии выборки.
  3. Шум и несогласованность разметки. По своей природе активное обучение часто выбирает наиболее сложные, неоднозначные или пограничные примеры. Именно на таких примерах возрастает вероятность ошибок со стороны аннотатора, а также расхождений во мнениях между разными экспертами. Это может вносить «шум» в обучающую выборку, что негативно сказывается на качестве итоговой модели, если не предусмотрены механизмы контроля качества и разрешения конфликтов разметки.

III. Системные и инфраструктурные проблемы

Это проблемы, связанные с внедрением и поддержкой процессов активного обучения в реальных промышленных или исследовательских условиях.

  1. Интеграция с MLOps-конвейерами. Активное обучение — это итеративный, циклический процесс. Его эффективное внедрение требует тесной интеграции с системами версионирования данных и моделей, платформами для разметки, инструментами для отслеживания экспериментов и автоматизации всего цикла машинного обучения.
  2. Оценка эффективности АО и определение критериев остановки. Оценить реальную пользу от применения активного обучения и сравнить различные стратегии АО достаточно сложно. Определение оптимального момента, когда итерации АО следует прекратить, также является нетривиальной задачей и часто требует эмпирических подходов.
  3. Масштабируемость и вычислительные затраты. Применение сложных стратегий АО к очень большим пулам неразмеченных данных (миллионы изображений) может столкнуться с серьезными проблемами производительности. Это касается как этапа оценки информативности каждого примера, так и этапа управления данными (хранение, передача, версионирование). Требуются эффективные алгоритмы и инфраструктурные решения для обеспечения масштабируемости процессов АО.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Проведенный анализ проблем применения активного обучения в компьютерном зрении выявляет многоуровневый характер вызовов, стоящих перед исследователями и практиками. На уровне стратегий запроса ключевыми остаются задачи разработки метрик неопределенности, адекватных для глубоких нейронных сетей, и эффективного решения проблемы «холодного старта». Важность учета специфики конкретных CV-задач (классификация, детекция, сегментация) при формировании понятия «информативности» также неоспорима.

На уровне данных и процесса аннотирования критически важными аспектами являются реалистичная оценка и минимизация стоимости разметки, борьба с классовым дисбалансом, который может усугубляться наивными стратегиями АО, и управление качеством аннотаций, особенно для сложных примеров, выбираемых системой.

Системные и инфраструктурные вызовы подчеркивают, что успешное внедрение АО – это не только вопрос выбора правильного алгоритма, но и построения комплексного MLOps-конвейера. Интеграция с платформами разметки, версионирование артефактов, стандартизация метрик оценки и определение критериев остановки являются необходимыми компонентами для промышленного применения АО.

ЗАКЛЮЧЕНИЕ

Активное обучение представляет собой мощный инструмент для оптимизации процесса разработки моделей машинного обучения, позволяющий существенно сократить затраты на ручную разметку данных и ускорить получение высококачественных результатов. Однако, как показал анализ, его практическая реализация в области компьютерного зрения сопряжена с комплексом методологических, алгоритмических, операционных и инфраструктурных проблем.

Ключевые вызовы включают разработку эффективных и вычислительно приемлемых стратегий запроса, адаптированных к специфике глубоких нейронных сетей и различных задач компьютерного зрения, решение проблемы «холодного старта», управление стоимостью и качеством процесса аннотирования, а также создание масштабируемых и воспроизводимых MLOps-конвейеров для поддержки итеративных циклов АО.

 

Список литературы:

  1. Монарх (Манро) Р. Машинное обучение с участием человека / пер. с англ. В. И. Бахура. – М.: ДМК Пресс, 2022. – 498 с.: ил.
  2. Гилязев Р.А., Турдаков Д.Ю. Активное обучение и краудсорсинг: обзор методов оптимизации разметки данных // Труды ИСП РАН. – 2018. – Т. 30. – № 4. – c. 49-70.
  3. Settles, B. Active Learning Literature Survey // University of Wisconsin-Madison, Department of Computer Sciences. – 2009. – (Computer Sciences Technical Report 1648). – 67 c.
  4. Aggarwal C.C., Kong X., Gu Q., et al. Active learning: a survey // Data classification: algorithms and applications. – Boca Raton: Chapman and Hall/CRC, 2014. – c. 599–634.
  5. Gal Y., Islam R., Ghahramani Z. Deep Bayesian active learning with image data // Proceedings of the 34th International Conference on Machine Learning. – PMLR, 2017. – c. 1183-1192.
  6. Sener O., Savarese S. Active learning for convolutional neural networks: A core-set approach // International Conference on Learning Representations (ICLR). – 2018.
  7. Kumar P., Gupta A. Active learning query strategies for classification, regression, and clustering: a survey // Journal of Computer Science and Technology. – 2020. – Т. 35. – c. 913-945.
  8. Yoo D., Kweon I. S. Learning Loss for Active Learning // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). – 2019. – c. 93-102.
  9. Jiwoong Choi, Ismail Elezi, Hyuk-Jae Lee, Clement Farabet, and Jose M Alvarez. Active learning for deep object detection via probabilistic modeling. In Proceedings of the IEEE/CVF International Conference on Computer Vision, c. 10264–10273, 2021.
  10. L. Bruzzone and C. Persello, “Active learning for classification of remote sensing images,” in International Geoscience and Remote Sensing Symposium. IEEE, 2009, c. 689–693.
  11. Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. You only look once: Unified, real-time object detection // Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR). – 2016. – с. 779-788.
  12. Ren, S., He, K., Girshick, R., & Sun, J. Faster R-CNN: Towards real-time object detection with region proposal networks // Advances in neural information processing systems (NIPS). – 2015. – Vol. 28. – с. 91-99.
  13.  J. Guo, X. Zhou, J. Li, A. Plaza, and S. Prasad, «Superpixel-based active learning and online feature importance learning for hyperspectral image analysis» Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 10, no. 1, c. 347–359, 2016.
  14. Pelleg D., Moore A. Active Learning for Anomaly and Rare Category Detection // Advances in Neural Information Processing Systems 17 (NIPS 2004). – 2004.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий