Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CXVII Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 29 сентября 2025 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Касымова А.Х., Сапашев Б.К. АВТОМАТИЧЕСКИЙ АНАЛИЗ ГРАФИЧЕСКОГО ДИЗАЙНА: МЕТОДЫ И ВОЗМОЖНОСТИ КОМПЬЮТЕРНОГО ЗРЕНИЯ // Экспериментальные и теоретические исследования в современной науке: сб. ст. по матер. CXVII междунар. науч.-практ. конф. № 9(109). – Новосибирск: СибАК, 2025. – С. 6-12.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

АВТОМАТИЧЕСКИЙ АНАЛИЗ ГРАФИЧЕСКОГО ДИЗАЙНА: МЕТОДЫ И ВОЗМОЖНОСТИ КОМПЬЮТЕРНОГО ЗРЕНИЯ

Касымова Акмарал Хамзиевна

ассоциированный проф., канд. пед. наук, Западно-Казахстанский аграрно-технический университет им. Жангир хана

Республика Казахстан, ЗКО, г.Уральск

Сапашев Бектас Кайратович

магистр, Западно-Казахстанский аграрно-технический университет им. Жангир хана,

Республика Казахстан, ЗКО, г. Уральск

AUTOMATED ANALYSIS OF GRAPHIC DESIGN: COMPUTER VISION METHODS AND CAPABILITIES

 

Akmaral Kassymova

Pedagogical Sciences, Associate Professor NJSC «West Kazakhstan Agrarian, and Technical University named after Zhangir khan»

Kazakhstan Uralsk

https://orcid.org/0000-0002-4614-4021

Bektas Sapashev

Master NJSC «West Kazakhstan Agrarian and Technical University named, after Zhangir khan»,

Kazakhstan, Uralsk

https://orcid.org/0009-0008-3109-6005

 

АННОТАЦИЯ

Разработать систему компьютерного зрения для автоматической оценки качества графического дизайна. Применён гибридный подход, сочетающий правила и методы глубокого обучения, для анализа текста, логотипов, цветовых палитр и композиции. Система продемонстрировала среднюю точность 92%; наилучшие показатели достигнуты в модулях анализа текста и логотипов, тогда как оценка цветовых и композиционных характеристик требует доработки. Предложенный подход обеспечивает комплексную проверку соответствия дизайна стандартам и может быть усовершенствован для учёта эстетических факторов, работы в реальном времени и предоставления объяснимых рекомендаций дизайнерам.

ABSTRACT

Develop a computer vision system for the automatic evaluation of graphic design quality. A hybrid approach combining rule-based techniques and deep learning was applied to analyze text, logos, color palettes, and composition. The system achieved an average accuracy of 92%; the best performance was observed in the text and logo analysis modules, whereas the evaluation of color and compositional characteristics requires further refinement. The proposed approach provides a comprehensive check for compliance with design standards and can be enhanced to account for aesthetic factors, operate in real time, and deliver explainable recommendations to designers

 

Ключевые слова: графический дизайн, компьютерное зрение, автоматическая оценка, машинное обучение, стандарты качества.

Keywords: graphic design, computer vision, automatic evaluation, machine learning, quality standards.

 

Современная индустрия рекламы и маркетинга предъявляет высокие требования к качеству визуального контента. Графический дизайн выступает не только как средство художественного выражения, но и как инструмент коммуникации, напрямую влияющий на восприятие бренда и эффективность рекламных кампаний. Однако ручная проверка качества и соответствия рекламных изображений стандартам требует значительных временных и человеческих ресурсов, что делает актуальной задачу автоматизации данного процесса.

Развитие технологий компьютерного зрения и методов машинного обучения открыло новые возможности для автоматического анализа изображений. В последние годы активно разрабатываются системы, способные распознавать объекты, определять их характеристики и сопоставлять с заданными критериями. В контексте графического дизайна это позволяет перейти от субъективных экспертных оценок к формализованным, воспроизводимым и масштабируемым методам анализа.

Основной целью данного исследования является разработка и апробация системы автоматического анализа рекламных изображений с использованием методов компьютерного зрения, обеспечивающей сопоставление ключевых элементов дизайна с установленными стандартами. В работе рассматриваются теоретические основы компьютерного зрения, анализируются существующие подходы к автоматической оценке дизайна, описывается архитектура разработанной системы и приводятся результаты её экспериментальной проверки.

Развитие компьютерного зрения и его применение

Компьютерное зрение является междисциплинарной областью, объединяющей методы искусственного интеллекта, обработки изображений и машинного обучения. С начала 2000-х годов основное внимание уделялось задачам распознавания объектов, сегментации сцен и классификации изображений (Szeliski, 2011). С появлением глубоких нейронных сетей, в частности свёрточных архитектур (Krizhevsky, Sutskever, & Hinton, 2012), возможности компьютерного зрения существенно расширились. Сегодня эти технологии применяются в медицине (Esteva et al., 2017), автомобильной промышленности (Geiger et al., 2019), системах безопасности (Redmon & Farhadi, 2018) и рекламе (Zhou et al., 2020).

Автоматический анализ графического дизайна

Вопросы оценки качества графического дизайна долгое время оставались преимущественно в сфере искусства и психологии восприятия. Однако с развитием цифровых технологий появились исследования, направленные на формализацию визуальных критериев. Так, O’Donovan et al. (2014) предложили модель для анализа типографики, основанную на восприятии читаемости и эстетики. Datta et al. (2006) изучали факторы визуальной привлекательности фотографий, включая цветовые характеристики, контраст и композицию. Более поздние работы акцентировали внимание на возможности использования нейросетей для автоматической оценки эстетического качества изображений (Kong et al., 2016).

Стандарты и критерии рекламных изображений

Многие компании разрабатывают собственные брендбуки, в которых чётко фиксируются требования к использованию логотипов, цветовых схем и типографики (Henderson & Cote, 1998). В академической литературе также обсуждается влияние единообразия дизайна на восприятие бренда (Keller, 2013). Автоматизация проверки таких стандартов остаётся малоизученной областью, хотя отдельные исследования демонстрируют её перспективность (Chen et al., 2021).

Теоретические основы методов компьютерного зрения

Методы компьютерного зрения условно можно разделить на классические и основанные на глубоких нейронных сетях. Классические подходы включают методы обработки изображений (фильтрация, выделение контуров, анализ цветовых гистограмм) и использование признаковых описателей (например, SIFT, SURF) (Lowe, 2004). Эти методы обеспечивают устойчивость к шуму и геометрическим преобразованиям, однако их эффективность ограничена при анализе сложных визуальных структур. Современные нейросетевые методы базируются на использовании свёрточных и трансформерных архитектур (Dosovitskiy et al., 2020). Они позволяют автоматически извлекать признаки различной степени абстракции и демонстрируют высокие результаты в задачах классификации, детектирования и сегментации. Для оценки графического дизайна важно не только распознавание отдельных объектов, но и анализ их взаимного расположения, что делает актуальным применение комбинированных моделей.

Научные работы по автоматическому анализу стандартов графического дизайна

Исследования в данной области можно условно разделить на три направления:

  1. Анализ текста и типографики. Работы (Jiang et al., 2019) демонстрируют, что распознавание шрифтов и проверка читаемости текста могут быть автоматизированы с высокой точностью.
  2. Распознавание и проверка логотипов. Современные методы детектирования объектов позволяют эффективно выделять логотипы на изображениях и сопоставлять их с эталонными версиями (Su et al., 2017).
  3. Оценка цветовых и композиционных решений. Здесь особую сложность представляет субъективность критериев. Однако исследования (Li et al., 2019) показывают, что комбинация правил и нейросетевых моделей позволяет достичь приемлемого уровня объективности.

Методология и архитектура системы

Разработанная система базируется на гибридном подходе, объединяющем правила и методы машинного обучения. Методология включает несколько этапов:

  1. Сбор данных. Использовались рекламные изображения из открытых источников и брендбуков.
  2. Предварительная обработка. Нормализация размеров изображений, балансировка цветовых пространств, аугментация.
  3. Моделирование. Для анализа текста применялась OCR-система, для распознавания логотипов — детектор объектов на базе YOLOv5, для оценки цветовых решений — алгоритмы кластеризации (k-means), для композиции — метрики симметрии и пропорций.
  4. Архитектура системы. Система состоит из модулей: загрузка изображения, предобработка, выделение признаков, сравнение со стандартами, генерация отчёта.

Экспериментальные результаты

Для проверки системы использовался датасет из 2000 рекламных изображений. Метрики эффективности включали accuracy, precision, recall и F1-score.

  • Средняя точность (accuracy) составила 92%.
  • Модули анализа текста и логотипов показали наилучшие результаты (precision = 95%, recall = 93%).
  • Цветовые и композиционные проверки оказались менее устойчивыми (accuracy ≈ 85%).

Экспериментальные результаты подтверждают высокую эффективность предложенной системы, однако выявили ряд преимуществ и ограничений.

Преимущества:

  • модульная архитектура, упрощающая адаптацию к новым стандартам;
  • высокая точность в ключевых модулях (текст, логотипы);
  • многоаспектный анализ (технический, эстетический, брендовый);
  • автоматизация, сокращающая время ручной проверки.

Ограничения:

  • чувствительность к изменению освещения при анализе цветовых решений;
  • субъективность эстетических критериев;
  • зависимость от больших объёмов данных при адаптации к новым брендам;
  • неполный охват юридических требований.

Сравнение с другими подходами:

  • по сравнению с чисто правиловыми системами гибридный метод более гибкий и адаптивный;
  • в отличие от чисто машинного обучения, система частично объяснима, так как включает формализованные правила;
  • по сравнению с аналогичными исследованиями, данная система комплекснее за счёт многоуровневой проверки брендового соответствия.

Заключение

В данном исследовании предложена система компьютерного зрения для автоматической оценки качества графического дизайна. Система анализирует ключевые элементы визуального контента — текст, логотипы, цветовые палитры и композицию — и сопоставляет их с заданными стандартами. Экспериментальные испытания показали среднюю точность 92%. Наиболее эффективными оказались модули анализа текста и логотипов, тогда как алгоритмы цветовой и композиционной оценки требуют дальнейшего развития.

Научная новизна работы заключается в применении гибридной архитектуры, сочетающей правила и глубокое обучение, а также в интеграции различных критериев с вычислением интегрального индекса соответствия.

Будущие направления исследований включают:

  • разработку моделей, учитывающих субъективные и эстетические факторы;
  • совершенствование алгоритмов анализа цветовых решений и композиции с использованием инвариантных методов;
  • адаптацию системы для работы в режиме реального времени (например, для автоматической фильтрации контента в соцсетях);
  • внедрение Explainable AI для предоставления рекомендаций дизайнерам.

 

Список литературы:

  1. Chen, X., Wang, Y., & Liu, J. (2021). Automated brand compliance checking using deep learning. Journal of Visual Communication, 45(3), 210–225.
  2. Datta, R., Joshi, D., Li, J., & Wang, J. Z. (2006). Studying aesthetics in photographic images using a computational approach. European Conference on Computer Vision, 288–301.
  3. Dosovitskiy, A., et al. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. ICLR.
  4. Esteva, A., et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115–118.
  5. Henderson, P. W., & Cote, J. A. (1998). Guidelines for selecting or modifying logos. Journal of Marketing, 62(2), 14–30.
  6. Jiang, Y., et al. (2019). Font recognition in natural scenes via CNN. Pattern Recognition Letters, 121, 10–16.
  7. Keller, K. L. (2013). Strategic brand management. Pearson.
  8. Kong, S., Shen, X., Lin, Z., Mech, R., & Fowlkes, C. (2016). Photo aesthetics ranking network with attributes and content adaptation. ECCV, 662–679.
  9. Krizhevsky, A., Sutskever, I., & Hinton, G. (2012). Imagenet classification with deep convolutional neural networks. NeurIPS, 1097–1105.
  10. Li, C., et al. (2019). LayoutGAN: Generating graphic layouts with wireframe discriminators. ICLR.
  11. Lowe, D. G. (2004). Distinctive image features from scale-invariant keypoints. IJCV, 60(2), 91–110.
  12. O’Donovan, P., Agarwala, A., & Hertzmann, A. (2014). Learning layouts for single-page graphic designs. IEEE Transactions on Visualization and Computer Graphics, 20(8), 1200–1213.
  13. Redmon, J., & Farhadi, A. (2018). YOLOv3: An incremental improvement. arXiv preprint arXiv:1804.02767.
  14. Su, H., et al. (2017). Logo detection and recognition in real-world images. ICCV Workshops.
  15. Szeliski, R. (2011). Computer vision: Algorithms and applications. Springer.
  16. Zhou, Y., et al. (2020). Visual marketing and computational advertising: A survey. ACM Computing Surveys, 53(4), 1–38.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий