Статья опубликована в рамках: Научного журнала «Студенческий» № 23(319)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6
ПРИМЕНЕНИЕ КОНТУРНОГО АНАЛИЗА И OCR ДЛЯ СЕГМЕНТАЦИИ ТЕКСТА И ДЕФЕКТОВ ПЕЧАТНОЙ ПРОДУКЦИИ
APPLICATION OF CONTOUR ANALYSIS AND OCR FOR TEXT AND DEFECT SEGMENTATION IN PRINTED MATERIALS
Edward Matorin
Master's student, Artificial Intelligence Systems, Department of Information Systems in Economics and Management, Institute of Information Systems and Engineering Computer Technologies, Russian New University,
Russia, Moscow
АННОТАЦИЯ
Статья посвящена использованию технологий оптического распознавания символов (OCR) с интеграцией методов компьютерного зрения (CV) для обнаружения дефектов печати. В работе рассмотрены ключевые параметры предобработки изображений, включая методы шумоподавления, бинаризации и масштабирования, а также особенности настройки OCR-системы PaddleOCR для работы с искажёнными и наклонёнными текстами. Применение алгоритмов для выделения контуров с использованием библиотек OpenCV способствует точному разделению текстовых и дефектных областей, что улучшает результаты распознавания. Рассматриваемая методология подходит для автоматизации контроля качества в производственных линиях, обеспечивая высокую точность при минимальных вычислительных затратах.
ABSTRACT
This paper focuses on the application of Optical Character Recognition (OCR) technology integrated with Computer Vision (CV) methods for print defect detection. The study explores key image preprocessing parameters, including noise reduction, binarization, and scaling techniques, as well as the configuration of the PaddleOCR system for handling skewed and distorted text. The use of contour detection algorithms with OpenCV facilitates the precise separation of text and defect regions, enhancing recognition results. The methodology presented is suitable for automating quality control in manufacturing lines, offering high accuracy with minimal computational overhead.
Ключевые слова: оптическое распознавание символов (OCR), компьютерное зрение (CV), предобработка изображений, дефекты печати, контурный анализ, PaddleOCR, OpenCV, шумоподавление, бинаризация, автоматизация контроля качества.
Keywords: Optical Character Recognition (OCR), Computer Vision (CV), image preprocessing, print defects, contour analysis, PaddleOCR, OpenCV, noise reduction, binarization, automated quality control.
Введение
Современные методы анализа печатных материалов с использованием технологий оптического распознавания символов (OCR) играют ключевую роль в автоматизированном извлечении текста из изображений. Основная цель таких методов — точное выделение текстовых областей и их разделение от других элементов, таких как дефекты печати, что является важной частью процессов контроля качества в печатных и производственных линиях. Однако при наличии дефектов печати, таких как полосы или шум, задача сегментации текста и дефектов на изображении становится гораздо более сложной.
Существующие OCR-системы, включая Tesseract и PP-OCR (Practical Ultra Lightweight OCR System), часто сталкиваются с проблемами при распознавании текста, особенно в случаях его искажений, наклона или других визуальных дефектов. Эти проблемы могут привести к ошибкам, когда текстовые элементы и дефекты могут быть ошибочно распознаны как другие объекты, что снижает точность анализа. Важно отметить, что решение таких проблем требует интеграции методов OCR и компьютерного зрения (CV), которые используются для анализа контуров и обработки изображений с помощью таких инструментов, как OpenCV [1; 4].
Проблемы и вызовы в задачах дефектного анализа
В задачах обнаружения дефектов печати и обработки изображений одной из основных проблем является высокая вероятность ложных срабатываний: элементы, не относящиеся к тексту, могут ошибочно распознаваться как текстовые области, а дефекты — как несущественные элементы фона. Эта проблема особенно актуальна при использовании стандартных OCR-инструментов, таких как Tesseract или DBNet, которые не всегда могут точно различить текстовые области от дефектов, особенно при наличии шумов или искажений на изображении. Для эффективного решения этой проблемы необходимо использовать более продвинутые методы, включая сегментацию и контурный анализ [2; 5].
Современные методы компьютерного зрения предлагают такие решения, как адаптивные методы бинаризации и морфологические операции, которые могут значительно повысить точность выделения дефектов даже в условиях низкого контраста и слабой видимости. Эти методы помогают улучшить сегментацию изображения и выделение различных областей (текста и дефектов), что повышает общую точность OCR [7].
Алгоритмы и методы для обнаружения дефектов
Для повышения эффективности распознавания дефектов в производственных материалах и сканированных документах, целесообразно использовать гибридные подходы, сочетая OCR и методы компьютерного зрения. Модели, такие как U-Net для сегментации и SegFormer для обработки сложных изображений, позволяют не только точно сегментировать дефекты, но и уменьшить вычислительные затраты, сохраняя высокую точность. Эти подходы особенно эффективны при работе с изображениями, где дефекты могут быть маленькими или слабовыраженными [3].
Кроме того, важным шагом для повышения точности дефектной диагностики является использование attention-модулей и специализированных методов, таких как CBAM (Convolutional Block Attention Module), который помогает выделять важные элементы изображения, исключая зоны текста. Применение таких технологий значительно снижает вероятность ложных срабатываний в тех областях, где текст и дефекты могут перекрывать друг друга, что делает распознавание более точным и надежным. Пример успешного применения таких методов можно найти в работе по распознаванию дефектов печати на 3D-печатных продуктах с использованием искусственного интеллекта [6].
Применение гибридных подходов
Использование гибридных моделей, таких как сочетание OCR и компьютерного зрения, является эффективным решением для задач автоматического контроля качества на производственных линиях. Например, PP-OCR, система, обеспечивающая эффективное распознавание текста при минимальных вычислительных затратах, может быть использована в комбинации с методами обработки изображений для достижения высокой точности даже при наличии дефектов. Эта система позволяет работать в реальном времени, обеспечивая быструю обработку изображений и точное распознавание текста [5].
Кроме того, для повышения точности распознавания дефектов и уменьшения ложных срабатываний рекомендуется использовать многослойные нейронные сети, обученные на конкретных типах дефектов, такие как модель AI-Driven Multi-Stage Computer Vision System. Это решение эффективно использует несколько этапов анализа изображений, что значительно улучшает результаты классификации и уменьшает вычислительные затраты. Такие подходы могут быть адаптированы для работы с различными типами изображений и дефектов [8].
Сложности при обнаружении слабовыраженных дефектов
Несмотря на значительные успехи в области OCR и компьютерного зрения, задачей, требующей дальнейшей проработки, является распознавание слабовыраженных дефектов, таких как едва заметные полосы или пятна. Такие дефекты могут занимать менее 1% от общего изображения и быть плохо различимыми на стандартных изображениях с низким контрастом. Для эффективного выявления таких дефектов необходимо применять методы адаптивного контраста и дифференцируемой бинаризации, что позволяет повысить видимость дефектов и улучшить результат распознавания.
Многие существующие подходы в области OCR не обеспечивают достаточную точность при таких дефектах, и использование методов, которые позволяют улучшить качество изображения перед применением OCR, становится важной частью решения данной проблемы [6].
Метод решения задачи с применением OCR-маски
Разрабатываемый подход включает использование гибридной модели, сочетающей методы OCR с алгоритмами компьютерного зрения для эффективного обнаружения дефектов на сканированных документах и печатных материалах. В данной работе интегрированконтурный анализ с использованием OpenCV для выделения текстовых областей и дефектов на изображении, что позволяет минимизировать ложные срабатывания в текстовых областях и улучшить точность сегментации.
Архитектура модели состоит из нескольких этапов:
- Предобработка изображения с применением методов бинаризации и контурного анализа.
- Выделение текстовых областей с использованием OCR (Pytesseract) и фильтрация текстовых объектов с помощью контурных масок.
- Обработка дефектов с использованием маскирования и алгоритмов компьютерного зрения для выделения минимальных дефектов, таких как точки или полосы.
- Интеграция в систему визуального контроля качества, что позволяет достичь высокой точности в реальном времени при сравнительно низких вычислительных затратах.
Данная модель, включая все компоненты, представлена на рисунке 1.
Рисунок 1. Алгоритм выделения текстовых и дефектных областей изображения с применением OCR
На первом этапе происходит предобработка изображения, включая бинаризацию и контурный анализ. Затем применяется OCR-система (например, Tesseract) для извлечения текстовых областей с последующим анализом дефектов с помощью методов компьютерного зрения, таких как морфологические операции и поиск контуров с использованием OpenCV. Дефекты классифицируются, и результаты выводятся в виде двух масок: маски текста и маски дефектов. Маска текста выделяет только те области, где присутствует текст, в то время как маска дефектов выделяет все остальные элементы, которые были классифицированы как дефекты.
На изображении 2 показаны результаты работы алгоритма, включая оригинальное изображение с дефектом, маску OCR и маску дефектов.
Рисунок 2. Визуализация работы алгоритма
Оригинальное изображение с дефектом — здесь на документе видны дефекты, такие как полосы или точки, которые могут быть ошибочно классифицированы как части текста или фон.
Маска OCR — выделенные области текста, которые были правильно распознаны системой OCR. Однако, возможно, маска не охватывает участки текста с наклоном или слабым контрастом.
Маска дефектов — области, которые были классифицированы как дефекты на изображении. Некоторые дефекты могут быть слишком мелкими или слабовыраженными, что делает их трудными для точного обнаружения.
На изображении видно, что маска OCR выделяет текстовые области, однако могут быть ложные срабатывания, когда дефекты ошибочно классифицируются как текст. Маска дефектов также показывает значительную часть изображения, но некоторые дефекты, особенно слабовыраженные, могут быть не выявлены. Это подчёркивает важность улучшения алгоритмов для работы с низкоконтрастными или маленькими дефектами.
Для реализации OCR с использованием OpenCV и PaddleOCR важно правильно настроить параметры предобработки изображений и алгоритмов распознавания для достижения высокой точности. На этапе предобработки применяются методы уменьшения шума с помощью fastNlMeansDenoising() (OpenCV), адаптивной бинаризации с cv2.adaptiveThreshold() и масштабирования изображения с помощью cv2.resize() для улучшения качества текста. Эти шаги минимизируют влияние шума и улучшат контрастность между текстом и фоном.
Для повышения точности распознавания PaddleOCR использует параметры, такие как use_angle_cls для классификации углов наклона текста, use_textline_orientation для работы с наклонным текстом и det_db_thresh для регулировки уверенности детектора текста. Эти параметры обеспечивают высокую точность на изображениях с искажениями или наклонным текстом.
Кроме того, методы OpenCV для выделения контуров, такие как cv2.findContours(), позволяют точно разделить текст и дефекты, что существенно улучшает результаты распознавания и анализа дефектов. В комбинации с гибридными моделями OCR и CV эти подходы обеспечивают эффективное решение для автоматизированного контроля качества на производственных линиях.
Заключение
Использование OCR в сочетании с методами компьютерного зрения для обнаружения дефектов печати на документах и производственных материалах представляет собой мощную технологию, обеспечивающую высокий уровень точности при низких вычислительных затратах. Однако для достижения наилучших результатов в условиях реальных приложений необходимо интегрировать новые методы, такие как адаптивное улучшение контраста и морфологические операции, которые могут решить проблему слабовыраженных дефектов. Современные разработки в области AI и CV, такие как PP-OCR и AI-Driven Multi-Stage Systems, показывают отличные результаты в задачах автоматического контроля качества и могут быть успешно адаптированы для применения в производственных линиях, где требуется высокая точность в реальном времени.
Список литературы:
- Du Y., Li C., Guo R. et al. PP-OCR: A Practical Ultra Lightweight OCR System // arXiv:2009.09941v3 [cs.CV]. – 2020. [Электронный ресурс]. URL: https://arxiv.org/abs/2009.09941 (дата обращения: 04.06.2025).
- Liao M. et al. Real-time scene text detection with differentiable binarization // Proc. AAAI Conf. on Artificial Intelligence. – 2020. – P. 11474–11481. [Электронный ресурс]. URL: https://arxiv.org/abs/1911.08947 (дата обращения: 06.06.2025).
- Nguyen M. Q., Allebach J. P. Feature ranking and selection used in a machine learning framework for predicting uniformity of printed pages // Journal of Imaging Science and Technology. – 2020. – Vol. 64, №5. – P. 050401. [Электронный ресурс]. URL: https://www.sciencedirect.com/science/article/abs/pii/S0925231218302911 (дата обращения: 07.06.2025).
- Koponen J., Haataja K., Toivanen P. Recent advancements in machine vision methods for product code recognition: A systematic review // PMC. [Электронный ресурс]. URL: https://pmc.ncbi.nlm.nih.gov/articles/PMC10521108/ (дата обращения: 09.06.2025).
- Paraskevoudis K., Karayannis P., Koumoulos E. P. Real-time 3D printing remote defect detection (stringing) with computer vision and artificial intelligence // MDPI. – 2020. [Электронный ресурс]. URL: https://www.mdpi.com/2227-9717/8/11/1464 (дата обращения: 10.06.2025).
- Villalba-Diez J., Schmidt D., Gevers R., Ordieres-Meré J. Deep learning for industrial computer vision quality control in the printing industry 4.0 // MDPI. – 2019. [Электронный ресурс]. URL: https://www.mdpi.com/1424-8220/19/18/3987 (дата обращения: 11.06.2025).
- Zhang E., Chen Y., Gao M. et al. Automatic defect detection for web offset printing based on machine vision // MDPI. – 2019. [Электронный ресурс]. URL: https://www.mdpi.com/2076-3417/9/17/3598 (дата обращения: 12.06.2025).
- Hsu C. C., Lee C. M., Sun C. H., Wu K. M. OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System // arXiv. – 2024. [Электронный ресурс]. URL: https://app.scholarai.io/paper?paper_id=DOI:10.48550/arXiv.2403.11536&original_url=https%3A%2F%2Farxiv.org%2Fabs%2F2403.11536 (дата обращения: 13.06.2025).
- Francois M., Eglin V., Biou M. Text detection and post-OCR correction in engineering documents // Springer. – 2022. [Электронный ресурс]. URL: https://link.springer.com/chapter/10.1007/978-3-031-06555-2_49 (дата обращения: 14.06.2025).
- Vilasan A. A., Jäger S., Klarmann N. AI-Driven Multi-Stage Computer Vision System for Defect Detection in Laser-Engraved Industrial Nameplates // arXiv. – 2024. [Электронный ресурс]. URL: arxiv.org/pdf/2503.03395 (дата обращения: 15.06.2025).
- Villena Toro J., Wiberg A., Tarkian M. Optical character recognition on engineering drawings to achieve automation in production quality control // Frontiers. – 2023. [Электронный ресурс]. URL: https://www.frontiersin.org/articles/10.3389/fmtec.2023.1154132/full (дата обращения: 16.06.2025).
- Oni O. J., Asahiah F. O. Computational modelling of an optical character recognition system for Yorùbá printed text images // ScienceDirect. – 2020. [Электронный ресурс]. URL: https://www.sciencedirect.com/science/article/pii/S2468227620301538 (дата обращения: 17.06.2025).
- Wang H., Pan C., Guo X., Ji C. From object detection to text detection and recognition: A brief evolution history of optical character recognition // Wiley. – 2021. [Электронный ресурс]. URL: https://doi.org/10.1002/wics.1547 (дата обращения: 18.06.2025).
- Репозиторий с кодом модели и описанием. [Электронный ресурс]. URL: https://github.com/MneNeVidno/TextMaskOCR
Оставить комментарий