Статья опубликована в рамках: Научного журнала «Студенческий» № 20(358)

Рубрика журнала: Информационные технологии

Библиографическое описание:

Климов А.А., Львов И.В. АРХИТЕКТУРА ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ КОНТРОЛЯ ИСПОЛЬЗОВАНИЯ СИЗ НА ПРЕДПРИЯТИИ // Студенческий: электрон. научн. журн. 2026. № 20(358). URL: https://sibac.info/journal/student/358/420637 (дата обращения: 23.07.2026).

АРХИТЕКТУРА ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ КОНТРОЛЯ ИСПОЛЬЗОВАНИЯ СИЗ НА ПРЕДПРИЯТИИ

Климов Артур Алексеевич

студент, кафедра инженерии искусственного интеллекта, Поволжский государственный университет телекоммуникаций и информатики,

РФ, г. Самара

Львов Иван Вячеславович

РФ, г. Самара

АННОТАЦИЯ

В статье рассматривается архитектура интеллектуальной системы компьютерного зрения для выявления нарушений использования средств индивидуальной защиты на предприятии. Описаны постановка задачи, двухмодельный подход на базе YOLOv8, rule-based анализ нарушений, стабилизация детекций на видео и веб-интерфейс демонстрации результатов.

Ключевые слова: компьютерное зрение; средства индивидуальной защиты; YOLOv8; обнаружение объектов; промышленная безопасность.

Введение. Контроль использования средств индивидуальной защиты является важной частью промышленной безопасности, поскольку СИЗ предназначены для предотвращения или уменьшения воздействия опасных и вредных производственных факторов [2]. В проекте, положенном в основу статьи, разработана end-to-end система компьютерного зрения для детекции работников и элементов СИЗ на изображениях и видео, а также для формирования вывода о нарушениях [1]. Автоматизация такого контроля практически значима: она снижает зависимость от ручного наблюдения, позволяет быстрее фиксировать нарушения и создаёт основу для объективной статистики. Цель работы - обосновать архитектуру интеллектуальной системы компьютерного зрения, пригодной для демонстрации и дальнейшей адаптации к производственным условиям.

Постановка задачи. Система должна находить на кадре четыре целевых класса: person, helmet, vest и gloves, то есть работника, каску, сигнальный жилет и защитные перчатки. После детекции требуется определить, какие элементы СИЗ связаны с конкретным человеком. Нарушением считается отсутствие каски в верхней зоне bounding box работника, отсутствие жилета в средней зоне, а также отсутствие перчаток в области, соответствующей положению рук. Важным ограничением является отсутствие реальных видеоданных конкретного предприятия; поэтому в проекте используются открытые датасеты, доменная адаптация через аугментации и осторожная интерпретация качества на новых видео.

Архитектура системы. Итоговое решение построено как последовательный pipeline: входное изображение или видеокадр поступает в модуль детекции, затем результаты передаются в блок анализа нарушений, после чего формируются визуальная разметка, сводка и статистика. Основная PPE-модель на базе YOLOv8s обнаруживает helmet, vest, gloves и person. Для видео дополнительно используется отдельная person-only модель, поскольку класс person оказался менее стабильным, чем каски и жилеты. Поэтому PPE-модель отвечает прежде всего за элементы защиты, person-only модель уточняет работников, а затем результаты объединяются.

После объединения детекций работает rule-based модуль. Он использует пространственные эвристики: пересечение рамок, близость объектов и проверку характерных зон внутри bbox человека. Такой подход целесообразен, потому что нейросетевая модель object detection сообщает классы и координаты объектов, но не формирует прикладное заключение о нарушении. Бизнес-логика системы переводит набор рамок в понятный результат: есть ли у работника каска, жилет и перчатки.

Для видео предусмотрена стабилизация. Независимая обработка кадров может вызывать дрожание рамок и кратковременное пропадание объектов, поэтому применяются ByteTrack, temporal smoothing и short retention [1]. ByteTrack связывает детекции между кадрами и уменьшает фрагментацию траекторий [6]. Temporal smoothing сглаживает координаты, а short retention удерживает трек при краткой потере детекции. Финальный результат передаётся в локальное веб-приложение FastAPI для загрузки изображений и видео, выбора порогов confidence, просмотра аннотированного результата, сырых детекций, сводки нарушений и покадровой статистики [1].

Обоснование выбора технологий. Выбор компьютерного зрения обусловлен самой природой задачи: необходимо извлекать информацию из изображений и локализовать объекты на сцене [3]. Глубокое обучение подходит для таких условий, поскольку позволяет моделям самостоятельно формировать признаки объектов при изменении освещённости, масштаба, ракурса, наличии шума и частичных перекрытий [4]. В проекте используется YOLOv8s как модель обнаружения объектов. Документация Ultralytics описывает единый контур обучения, валидации, предсказания и трекинга, что соответствует практическому pipeline проекта [5]. Размер YOLOv8s можно рассматривать как инженерный компромисс между скоростью и качеством.

Данные готовятся воспроизводимыми скриптами: выполняются загрузка и объединение датасетов, конвертация разметки в формат YOLO, унификация классов, удаление лишних объектов, проверка валидности bbox, очистка дефектных файлов и формирование train, val и test. Итоговый enhanced-набор содержит 12 985 изображений для обучения, 2 118 для валидации и 1 286 для тестирования; распределение объектов включает 27 232 каски, 7 857 жилетов, 6 441 перчатку и 12 122 работников. Для приближения к условиям промышленного видеонаблюдения применяются изменение яркости и контраста, шум, motion blur, компрессионные артефакты, небольшие повороты, масштабирование, перекрытия, mosaic и mixup-аугментации [1].

Практическая значимость. Система может использоваться как прототип промышленной видеоаналитики: она помогает снижать объём ручного контроля, быстрее выявлять отсутствие СИЗ, повышать дисциплину работников и формировать статистику нарушений. Важным преимуществом является наличие интерфейса, через который результат представлен не только в виде рамок, но и в виде сводки по нарушениям. Это делает систему понятной для пользователя, не являющегося специалистом по машинному обучению.

Заключение. Предложенная архитектура целесообразна, поскольку объединяет нейросетевое обнаружение объектов, специализированную детекцию работников, правило-ориентированную интерпретацию и стабилизацию видео. Основная PPE-модель достигла precision = 0,880, recall = 0,824, F1-score = 0,851 и mAP@0,5 = 0,880. Наиболее сложным классом остаются перчатки. Дальнейшее развитие связано со сбором реальных кадров предприятия, расширением классов СИЗ, интеграцией с системами мониторинга и обработкой видеопотока в реальном времени.

Список литературы:

Smith, R. An Overview of the Tesseract OCR Engine [Text] / R. Smith // Ninth International Conference on Document Analysis and Recognition (ICDAR 2007). - Washington, DC: IEEE Computer Society, 2007. - Vol. 2. - P. 629-633.
ГОСТ 12.4.011-89. ССБТ. Средства защиты работающих. Общие требования и классификация [Электронный ресурс]. — URL: https://docs.cntd.ru/document/1200000277 (дата обращения: 12.05.2026).
Gonzalez R.C., Woods R.E. Digital Image Processing. — 4th ed. — New York: Pearson, 2018. — 1168 p.
Goodfellow I., Bengio Y., Courville A. Deep Learning. — Cambridge: MIT Press, 2016. — 800 p. [Electronic resource]. — URL: https://www.deeplearningbook.org/ (дата обращения: 12.05.2026).
Ultralytics YOLO Docs [Electronic resource]. — URL: https://docs.ultralytics.com/ (дата обращения: 12.05.2026).
Zhang Y., Sun P., Jiang Y. et al. ByteTrack: Multi-Object Tracking by Associating Every Detection Box // ECCV 2022. — Cham: Springer, 2022. — P. 1-21. — DOI: 10.1007/978-3-031-20047-2_1.