Статья опубликована в рамках: Научного журнала «Студенческий» № 42(338)
Рубрика журнала: Информационные технологии
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5, скачать журнал часть 6
РАЗРАБОТКА БИНАРНОГО КЛАССИФИКАТОРА ИИ-СГЕНЕРИРОВАННЫХ ИЗОБРАЖЕНИЙ
АННОТАЦИЯ
В работе рассматривается задача автоматического распознавания ИИ‑сгенерированных изображений и отделения их от реальных фотографий на основе методов глубокого обучения. В качестве основных подходов анализируются архитектуры CNN (ResNet) и Vision Transformer (ViT), а также описывается практическая реализация детектора в среде Python/PyTorch. Экспериментальная часть включает обучение модели на размеченном наборе данных с классами «ai» и «real» и оценку качества по метрикам precision, recall и F1‑score с использованием матрицы ошибок. Полученные результаты подтверждают применимость выбранного подхода для задач фильтрации и верификации визуального контента в системах модерации.
Ключевые слова: искусственный интеллект, глубокое обучение, свёрточные нейронные сети, функция потерь, трансформер.
Введение
Рост качества генеративных моделей приводит к увеличению объёма фотореалистичных изображений, созданных ИИ, что осложняет проверку подлинности визуального контента и повышает потребность в автоматических методах детекции [1–3]. В связи с этим в работе рассматривается задача бинарной классификации изображений на классы «ai» и «real» и проводится сравнение подходов на базе CNN (ResNet) и Vision Transformer (ViT) [5–6]. Архитектурной основой исследования выбран трансформерный подход, опирающийся на механизм self-attention и адаптированный для компьютерного зрения в модели ViT.
Используемые термины
Задача классификации — это тип задачи обучения с учителем, где целью является присвоение входным данным метки из заранее определённого набора категорий (классов). Алгоритм учится на основе помеченных данных, чтобы потом предсказывать класс для новых, немаркированных объектов, основываясь на их признаках [4].
Машинное обучение — это раздел теории искусственного интеллекта, в котором используются статистические методы для имитации формальной системы некоторых когнитивных функций человека, в первую очередь функция «обучения», т.е. получения знаний, необходимых для решения неформальных поставленных задач с использованием имеющихся данных.
Обучение с учителем — вид обучения модели машинного обучения, отвечающий следующей постановке: пусть
— множество описаний объектов,
— множество допустимых ответов. Существует неизвестная целевая зависимость — отображение
, значнения которой известны только на объектах конечной обучающей выборки
. Требуется построить алгоритм
, который приближал бы неизвестную целевую зависимость как на элементах выборки, так и на всём множестве
.
Генеративная модель — это тип модели машинного обучения, используемой в вероятностной классификации и других задачах, который описывает способ формирования наблюдаемых данных.
ИИ‑сгенерированное изображение — изображение, полученное генеративной моделью, а не снятое камерой/сканером или являющееся продуктом компьютерной графики.
Функция потерь — в типичной постановке обучения по выборке
есть
, которая сопоставляет паре (предсказание, истинное значение) неотрицательное число — величину ошибки.
Набор данных — это организованная совокупность данных, собранных и подготовленных для решения конкретной задачи (например, обучения, валидации и тестирования модели машинного обучения). Речь может идти о таблицах, текстах, изображениях, аудио/видео и метаданных; в задачах с учителем обычно включает также разметку (метки/целевые значения).
Выбор метода классификации
Рассматриваются два основных подхода к анализу изображений в задачах классификации: свёрточные нейронные сети (CNN) и трансформеры для компьютерного зрения (Vision Transformer, ViT) [5–6]. CNN‑архитектуры, в частности ResNet, широко применяются как базовый вариант благодаря устойчивому извлечению локальных признаков (текстур, контуров) и эффективной обработке изображений при ограниченных вычислительных ресурсах. Трансформерный подход основан на механизме self-attention, изначально предложенном для обработки последовательностей, и позволяет моделировать глобальные зависимости между фрагментами изображения, что реализовано в ViT через разбиение изображения на патчи и последующую обработку токенов трансформерными блоками. Для разработки детектора ИИ‑сгенерированных изображений выбор этих архитектур обусловлен тем, что артефакты генерации могут проявляться как на локальном уровне (детали, текстуры), так и на уровне глобальной согласованности/несогласованности сцены, что позволяет выявлять более сложные признаки.

Рисунок 1. Архитектура модели ViT
ViT изначально оперирует патчами и механизмом внимания по всей карте признаков, что позволяет модели сразу учитывать долгосрочные пространственные зависимости по всему изображению. Это критично для детекции ИИ‑изображений, где отличия могут проявляться не в локальных артефактах, а в неестественных глобальных согласованностях/несогласованностях (освещение, структура сцены, статистика текстур по всему кадру).
Патч‑представления и многоголовое внимание позволяют ViT улавливать аномалии в статистике высокочастотных деталей, текстур и шумов, которые часто отличаются у генераторов от природных изображений. Для детекции ИИ‑изображений важно видеть именно эти отличия, а не только семантическое содержимое.
Благодаря отсутствию инвариантности к сдвигу, как в классических свёрточных сетях, модель может подстраиваться под специфическую статистику разных типов ИИ‑изображений, не пытаясь чрезмерно сгладить эти различия.
Составление набора данных
В открытом доступе подходящих готовых наборов данных найдено не было. Наборы в открытом доступе зачастую состоят из устаревших синтетических изображений, если речь идёт о готовых наборах данных для рассматриваемой задачи. В связи с этим было принято решение составить собственный набор данных на основе готовых изображений (реальных и сгенерированных).
Набор данных составлялся из двух частей: набор изображений Gemini 2.5 Flash Image объемом ~10000 изображений [7] и подмножество набора ImageNet, состоящее из изображений 1000 разных объектов в 10 вариантах [8]. Таким образом был получен набор данных объемом 20 тысяч изображений с соотношение классов близким к единице.
Выбор в качестве исходной модели генератора синтетических изображений Gemini 2.5 Flash Image обусловлен актуальностью модели на момент написания работы и высоким качеством изображений, которые трудноотличимы от реальных.
Выбор гиперпараметров сети
При определении модели трансформера были выбранные следующие параметры:
Таблица 1.
Параметры модели
|
Параметр |
Описание |
Значение |
|
Размер изображения (img_size) |
Высота/ширина входного изображения в пикселях, соотношение сторон 1:1 |
224 |
|
Размер патча (patch_size, P) |
Высота/ширина квадратов, на которые разбивается изображение. Патч считается отдельным токеном. |
16 |
|
Количество классов (num_classes) |
Количество классов для классификации. В нашем случае бинарная классификация (ИИ-изображение, реальное изображение) |
2 |
|
Размерность (dim) |
Длина вектора, в который разворачивается исходный патч. Исходный патч разворачивается в вектор длины P*P*C, где C=3 (количество каналов в изображении). Данный вектор через линейный слой преобразуется в вектор размерность dim |
512 |
|
Глубина (depth) |
Количество слоёв кодировщика трансформера (внимание + линейный слой) |
6 |
|
Количество голов внимания (heads) |
Каждая голова внимания — это отдельный параллельный канал внимания, который смотрит на связи между патчами (токенами) по‑своему, со своими матрицами весов |
8 |
|
Размерность MLP (mlp_dim) |
Размер скрытого слоя в MLP-части каждого Transformer-блока ViT |
2048 |
|
Доля дропаута (dropout) |
Доля нейронов, которые не будут активироваться во время обучения случайным образом. |
0,1 |
|
Доля дропаута на эмбеддингах (emb_dropout) |
Доля случайно зануляемых частей компонентов векторов токенов на входе во время обучения |
0,1 |
Параметры модели подбирались таким образом, чтобы обеспечить достаточную производительность для обучения на используемой машине.
Обучение модели
Обучение было произведено за 6 эпох.
Чтобы обучить модель нужна функция потерь, которая будет определять качество ответов нейросети. В данной работе в качестве критерия используется метод перекрёстной энтропии (Cross Entropy Method, CEM).
Перекрёстная энтропия — это функция потерь для классификации, которая оценивает, насколько хорошо модель назначает вероятность правильному классу. Чем выше вероятность, которую модель дала правильному классу, тем меньше кросс-энтропия; чем меньше эта вероятность (особенно если модель уверенно выбрала неправильный класс), тем больше штраф.
Для минимизации функции ошибки во время обучения используется оптимизатор. Из библиотеки поставки PyTorch был выбран оптимизатор на основе стохастического градиентного спуска.
Стохастический градиентный спуск — это базовый метод обновления весов нейросети, который изменяет параметры с целью минимизации функции потерь, используя градиент, посчитанный не по всему набору данных, а по одному объекту или небольшой части данных.
Достигнутые результаты
В ходе обучения модели на выборке обучения (объем 13229 изображении) удалось достигнуть следующих результатов на выборке валидации (объем 5675 изображений):
Таблица 2.
Метрики точности
|
|
Точность (precision) |
Полнота (recall) |
F1-мера |
|
Класс ai |
0.8349 |
0.8576 |
0.8461 |
|
Класс real |
0.8514 |
0.8278 |
0.8394 |
|
Общий |
0.8431 |
0.8427 |
0.8427 |
Матрица ошибок для выборки валидации:
Таблица 3.
Матрица ошибок
|
|
Ai (предсказание) |
Real (предсказание) |
|
Ai (истина) |
2452 |
407 |
|
Real (истина |
485 |
2331 |
Общая точность модели на выборке валидации показывает работоспособность и применимость технологии к задаче бинарной классификации ИИ-сгенерированных изображений.
Заключение
В ходе работы был разработан бинарный классификатор ИИ-сгенерированных изображений. При разработке учитывались актуальные тенденции в развитии моделей машинного обучения, в частности популярность и эффективность архитектуры трансформер. Выбор архитектуры ViT показал свою эффективность на собранном наборе данных. Достигнутая точность при описанных ограничениях даёт понять перспективность данной технологии и применимость её к рассматриваемой задаче.
Для улучшения показателей модели рекомендуется увеличить вычислительные мощности рабочей станции (с наличием аппаратного ускорения). Это позволит увеличить значения параметров при определении модели, что по предположениям может положительно сказаться на метриках.
Также, к перспективным идеям можно отнести комбинацию моделей свёрточных сетей и ViT. Это можно объяснить тем, что одной из слабостей ViT является выявление локальных признаков (мелкие текстуры, высокочастотные артефакты), которые могут быть нивелированы свёрточной сетью.
Список литературы:
- Adobe introduces Firefly Image 3 Foundation Model to take creative exploration and ideation to new heights Электронный ресурс. — Adobe Newsroom. — 2024. — URL: https://news.adobe.com/news/news-details/2024/adobe-introduces-firefly-image-3-foundation-model-to-take-creative-exploration-and-ideation-to-new-heights (дата обращения: 17.12.2025).
- Can consumers distinguish between real and AI images in 2025? Электронный ресурс. — Conjointly. — 2025. — URL: https://conjointly.com/blog/real-vs-ai-images-2025/ (дата обращения: 17.12.2025).
- Deepfake Statistics & Trends 2025: Growth, Risks, and Future Insights Электронный ресурс. — Keepnet Labs. — 2025-09-24. — URL: https://keepnetlabs.com/blog/deepfake-statistics-and-trends#deepfake-phishing-statistics-on-detection-and-accuracy-challenges (дата обращения: 17.12.2025).
- Обучение с учителем Электронный ресурс. — MachineLearning.ru: энциклопедия анализа данных. — URL: http://www.machinelearning.ru/wiki/index.php?title=Обучение_с_учителем (дата обращения: 18.12.2025).
- Vaswani A., Shazeer N., Parmar N., et al. Attention Is All You Need Электронный ресурс. — arXiv:1706.03762. — 2017. — URL: https://arxiv.org/pdf/1706.03762 (дата обращения: 17.12.2025).
- Dosovitskiy A., Beyer L., Kolesnikov A., et al. An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale Электронный ресурс. — arXiv:2010.11929. — 2020. — URL: https://arxiv.org/pdf/2010.11929 (дата обращения: 17.12.2025).
- bitmind/nano-banana: dataset Электронный ресурс. — Hugging Face. — URL: https://huggingface.co/datasets/bitmind/nano-banana (дата обращения: 17.12.2025).
- priyerana/imagenet-10k: dataset Электронный ресурс. — Kaggle. — URL: https://www.kaggle.com/datasets/priyerana/imagenet-10k (дата обращения: 17.12.2025).
- LeCun Y., Boser B., Denker J. S., et al. Backpropagation applied to handwritten zip code recognition Электронный ресурс. — 1989. — URL: http://yann.lecun.com/exdb/publis/pdf/lecun-89e.pdf (дата обращения: 17.12.2025).
- PyTorch documentation Электронный ресурс. — PyTorch.org. — URL: https://docs.pytorch.org/docs/stable/index.html (дата обращения: 10.11.2025).


Оставить комментарий