Статья опубликована в рамках: CXIII Международной научно-практической конференции «Экспериментальные и теоретические исследования в современной науке» (Россия, г. Новосибирск, 28 мая 2025 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
СРАВНЕНИЕ РАЗЛИЧНЫХ НЕЙРОСЕТЕЙ ДЛЯ ЗАДАЧИ УЛУЧШЕНИЯ КАЧЕСТВА ФОТОГРАФИИ
АННОТАЦИЯ
Цель данного исследования заключается в сравнении нескольких моделей для улучшения качества фотографий. Рассматриваются GFPGAN (v1.2, v.1.3, v1.4, RestoreFormer), Real-ESRGAN (x4plus, x2plus) и Real-ESRNet (x4plus). Проводится сравнительная оценка с помощью метрик PSNR, SSIM.
Ключевые слова: улучшение качества изображений, GFPGAN, Real-ESRGAN, Real-ESRNet, PSNR, SSIM.
Введение. Современные технологии активно развиваются, предлагая новые методы обработки и улучшения изображений. Особый интерес представляют модели, способные улучшать качество фотографий путем устранения шумов, артефактов сжатия, повышения разрешения и восстановления деталей. В данной работе будут сравниваться следующие модели:
- GFPGAN – это нейросетевая модель, предназначенная для восстановления лиц на изображениях. Она использует генеративно-состязательные сети (GAN) для реконструкции деталей лица, устраняя артефакты и улучшая качество изображения [5].
- Real-ESRGAN – это улучшенная версия ESRGAN, предназначенная для повышения разрешения изображений в реальных условиях. Она обучена на синтетических данных и способна восстанавливать изображения с шумами и артефактами. [4].
- Real-ESRNet – это нейросеть, схожая с Real-ESRGAN, но без использования GAN. Она применяется для повышения разрешения изображений, сохраняя их естественные текстуры и детали [4].
Цель данного исследования заключается в сравнении нескольких вариаций, выбранных нейронных сетей с целью выявления лучшей для задачи улучшения качества фотографий.
Для достижения цели были поставлены следующие задачи:
- Проанализировать имеющиеся реализации выбранных нейронных сетей.
- Подобрать метрики для оценки качества работы моделей.
- Собрать датасет.
- Провести сравнительный анализ выбранных реализаций нейронных сетей.
Метрики. Для оценки качества работы моделей были выбраны следующие метрики:
PSNR (пиковое отношение сигнала к шуму) – это классическая метрика, используемая для количественной оценки различий между исходным (эталонным) и обработанным (искажённым) изображением. Она измеряет степень искажения на основе пиксельных различий. Вычисляется по следующей формуле:
где: MAXI – максимальное значение, принимаемое пикселем изображения; |
где: I, K – изображение; m, n – размер изображения [1]. |
Результат данной метрики можно интерпретировать следующим образом:
- >40 – отличное качество, максимально приближенное к оригиналу;
- 30–40 – хорошее качество, имеются небольшие искажения;
- 20–30 – удовлетворительное качество, присутствуют заметные дефекты;
- <20 – плохое качество, присутствует сильное искажение, потеря деталей.
SSIM (Измерение индекса структурного сходства) – оценивает структурное сходство между восстановленным и оригинальным изображением. SSIM учитывает яркость, контраст и структуру изображения. Вычисляется по следующей формуле:
где: μx, μy – среднее значение для первого и второго изображения; σx, σy – среднеквадратичное отклонение для первого и второго изображения; C1, C2 – две переменные для стабилизации деления со слабым знаменателем [1]. |
Диапазон значений находится в пределах от -1 до 1, где
- 1 – идеальное совпадение;
- 0 – нет корреляции,
- -1 – полная инверсия.
Оценка качества. Для оценки качества был собран датасет, включающий 500 изображений различных категорий. Структура датасета:
- 300 изображений из набора данных openimages с применением синтетического искажения;
- 200 реальных фотографий с различными дефектами.
Пример данных из датасета изображён на рисунке 1.
Рисунок 1. Пример данных из датасета
Для сравнения были выбраны следующие варианты моделей:
- GFPGAN:
- v1.2 – версия без цветокоррекции, не требует CUDA-расширений. Обучена на большем количестве данных с предварительной обработкой.
- v1.3 – обеспечивает более естественные результаты восстановления, особенно на изображениях низкого и высокого качества.
- v1.4 – добавляет больше деталей и лучше сохраняет идентичность лица.
- RestoreFormer (RF) – модель для восстановления лиц, использующая механизм ключевых значений для повышения качества изображений [2].
- Real-ESRGAN:
- x4plus – версия модели, предназначенная для повышения разрешения изображений в 4 раза.
- x2plus – аналогичная модель, но с увеличением разрешения в 2 раза [3].
- Real-ESRNet:
- x4plus – версия без использования GAN, ориентированная на достижение высокого PSNR [3].
Теперь перейдём к самой оценке, она производилась в Google Colaboratory, имеющим следующие характеристики: процессор Intel(R) Xeon(R) CPU @ 2.20GHz и видеокарта NVIDIA Tesla T4.
Рисунок 2. Улучшение качества фотографии 1
Таблица 1.
Оценки по метрикам для фотографии 1
|
GFPGAN |
RealESRGAN |
RealESRNet |
||||
RF |
v1.2 |
v1.3 |
v1.4 |
x2plus |
x4plus |
x4plus |
|
PSNR |
34.4 |
35.72 |
35.5 |
36.58 |
34 |
34.42 |
34.72 |
SSIM |
0.86 |
0.93 |
0.92 |
0.94 |
0.88 |
0.9 |
0.91 |
В данном примере GFPGAN v1.4 лучше всего справился с улучшением качества фотографии. В целом, модели GFPGAN показали себя эффективнее остальных.
Рисунок 3. Улучшение качества фотографии 2
В данном случае различные версии GFPGAN показали одинаковый результат, это можно заметить и по результатам метрик из таблице ниже.
Таблица 2.
Оценки по метрикам для фотографии 2
|
GFPGAN |
RealESRGAN |
||||
RF |
v1.2 |
v1.3 |
v1.4 |
x2plus |
x4plus |
|
PSNR |
34.55 |
34.55 |
34.55 |
34.55 |
32.78 |
31.14 |
SSIM |
0.89 |
0.89 |
0.89 |
0.89 |
0.83 |
0.71 |
По результатам метрик из таблицы выше видно, что GFPGAN сети справились с улучшением фотографии лучше всего.
Таблица 3.
Оценка моделей по всему датасету
|
GFPGAN |
RealESRGAN |
RealESRNet |
||||
RF |
v1.2 |
v1.3 |
v1.4 |
x2plus |
x4plus |
x4plus |
|
PSNR |
33.42 |
34.34 |
34.98 |
34.59 |
34.62 |
34.88 |
34.97 |
SSIM |
0.84 |
0.91 |
0.92 |
0.91 |
0.91 |
0.91 |
0.92 |
В таблице 3 приведена оценка моделей по всему датасету. Все протестированные модели продемонстрировали исключительно высокие результаты обработки изображений. Значения PSNR варьируются в узком диапазоне 33.42–34.98, что свидетельствует о минимальных различиях в пиксельной точности между моделями. Показатели SSIM находятся на уровне 0.84–0.92, подтверждая хорошее сохранение структурной информации во всех случаях. Также стоит выделить, что шесть из семи тестируемых конфигураций превысили пороговое значение SSIM в 0.9, считающееся отличным результатом.
Несмотря на то, что все современные модели демонстрируют исключительно высокое качество обработки для задачи улучшения качества фотографии, GFPGAN v1.3 занимает первое место по совокупности характеристик и рекомендуется к использованию в качестве основного инструмента для улучшения качества фотографий.
Заключение. По результатам проведённой оценки моделей, применяемых для задачи улучшения фотографий, выяснилось, что лучше использовать модель GFPGAN версии 1.3.
В перспективе планируется расширение базы данных с реальными и синтетическими изображениями, проверить возможность применения алгоритмов к видеофайлам, исследование возможностей объединения нескольких моделей для получения еще более точного и детального восстановления изображений.
Список литературы:
- Шубников В.Г., Беляев С.Ю. Подавление шума и оценка различий в изображениях // Информатика, телекоммуникации и управление. –2013. – № 3 (174). [Электронный ресурс]. – Режим доступа: https://cyberleninka.ru/article/n/podavlenie-shuma-i-otsenka-razlichiy-v-izobrazheniyah (дата обращения: 06.03.2025).
- GFPGAN // GitHub [Электронный ресурс]. – Режим доступа: https://github.com/TencentARC/GFPGAN (дата обращения: 08.03.2025).
- Real-ESRGAN // GitHub [Электронный ресурс]. – Режим доступа: https://github.com/xinntao/Real-ESRGAN (дата обращения: 08.03.2025).
- Xintao Wang, Liangbin Xie, Chao Dong, Ying Shan. Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data // arXiv. – 2021. [Электронный ресурс]. – Режим доступа: https://arxiv.org/pdf/2107.10833 (дата обращения: 05.03.2025).
- Xintao Wang, Yu Li, Honglun Zhang, Ying Shan. Towards Real-World Blind Face Restoration with Generative Facial Prior // arXiv. – 2021. [Электронный ресурс]. – Режим доступа: https://arxiv.org/pdf/2101.04061 (дата обращения: 01.03.2025).
дипломов
Оставить комментарий