Статья опубликована в рамках: XCIX Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 25 мая 2026 г.)
Наука: Информационные технологии
Секция: Системный анализ, управление и обработка информации
Скачать книгу(-и): Сборник статей конференции
дипломов
CОВРЕМЕННЫЕ МЕТОДЫ ДОЛГОСРОЧНОГО РАСПОЗНАВАНИЯ ЛИЦ С УЧЁТОМ ВОЗРАСТНЫХ ИЗМЕНЕНИЙ: СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ
АННОТАЦИЯ
В работе проведён систематический сравнительный анализ современных алгоритмов распознавания лиц, инвариантного к возрастным изменениям, и сопряжённой задачи возрастного синтеза лица. Рассмотрены четыре класса методов: дискриминативные свёрточные нейронные сети, генеративно-состязательные модели, трансформерные и гибридные архитектуры, а также диффузионные модели. Для каждого класса приведены математические формулировки целевых функций и точностные показатели на эталонных наборах данных MORPH Album 2, CACD-VS, AgeDB-30, CALFW и FG-NET. Установлено, что декомпозиция признаков лица на возрастной и идентификационный компоненты с угловыми маржинальными функциями потерь обеспечивает наибольшую точность идентификации, а трансформерные подходы пока не дают радикального прироста точности над свёрточными аналогами. Сформулированы открытые проблемы долгосрочной биометрической идентификации.
ABSTRACT
The paper presents a systematic comparative analysis of state-of-the-art algorithms for age-invariant face recognition and the associated task of face age synthesis. Four classes of methods are considered: discriminative convolutional neural networks, generative adversarial models, transformer-based and hybrid architectures, and diffusion models. For each class the mathematical formulations of objective functions and accuracy metrics on benchmark datasets MORPH Album 2, CACD-VS, AgeDB-30, CALFW and FG-NET are provided. It is established that the decomposition of facial representations into age and identity components combined with angular margin loss functions provides the highest identification accuracy, while transformer-based approaches do not yet yield substantial gains over convolutional counterparts. Open problems of long-term biometric identification are formulated.
Ключевые слова: распознавание лиц; возрастная инвариантность; долгосрочная идентификация; свёрточные нейронные сети; генеративные состязательные сети; трансформер; диффузионные модели; биометрия.
Keywords: face recognition; age invariance; long-term identification; convolutional neural networks; generative adversarial networks; transformer; diffusion models; biometrics.
Введение
Биометрическая идентификация по изображениям лица представляет собой одну из наиболее востребованных задач компьютерного зрения, имеющую критическое значение в системах общественной безопасности, криминалистике, контроле доступа и поиске пропавших лиц. На стандартных проверках без значимого возрастного разрыва (Labeled Faces in the Wild, LFW) современные модели достигают точности 99,83 % (ArcFace, ResNet-100, обучение на MS1MV2) [3, с. 4695]. Однако в реальных приложениях, связанных с долгосрочной идентификацией - установлением личности по фотографиям, разделённым интервалом 20–40 лет, точность распознавания падает на 10–17 % [5, с. 3530; 14, с. 1999]. Возрастной фактор остаётся одним из основных источников внутриклассовой вариативности признаков лица наряду с позой и освещением.
Биологический процесс старения сопровождается необратимыми морфологическими изменениями: преобразованием костной структуры черепа, перераспределением подкожно - жировой клетчатки, потерей эластичности кожи, формированием стойких морщин и пигментных нарушений. Эти изменения затрагивают как локальные текстурные признаки, так и геометрию лица, что приводит к существенному смещению в пространстве признаков предобученной модели и снижению косинусного сходства между парами «молодое - пожилое» лиц одной идентичности.
Проблематика распознавания лиц с учётом возрастных изменений активно разрабатывается с 2006 г. (выпуск базы MORPH [13, с. 341]) и претерпела значительную эволюцию: от обработки локальных дескрипторов через свёрточные архитектуры с маржинальными функциями потерь к мультизадачным фреймворкам, генеративным моделям возрастной трансформации и, в последние годы, к трансформерным и диффузионным подходам [4, с. 740; 6, с. 7283; 8, с. 7940]. Несмотря на интенсивное развитие, ни одно из существующих решений не обеспечивает удовлетворительной точности при возрастном разрыве свыше 30 лет, особенно для задач «детство - взрослый возраст».
Цель работы - провести сравнительный анализ современных алгоритмов долгосрочного распознавания лиц с учётом возрастных изменений и сформулировать направления дальнейших исследований, ориентированные на учёт биологических процессов старения.
Поставленная цель достигается решением следующих задач: формализация задачи распознавания лиц с учётом возраста; классификация и сопоставительный анализ четырёх групп методов; количественное сравнение методов на эталонных наборах MORPH, CACD-VS, AgeDB-30, CALFW и FG-NET; систематизация открытых проблем долгосрочной биометрической идентификации.
Научная новизна обзора состоит в интеграции методов 2024 - 2025 гг. (AT-GAN [11], DEFOG [12], MyTimeMachine, AgeBooth) в единую сопоставительную систему с акцентом на проблему учёта биологических аспектов старения, что закладывает методологическую основу для дальнейшего синтеза алгоритмов долгосрочного распознавания.
Постановка задачи распознавания лиц с учётом возрастных изменений
Пусть X = {xᵢ}, i = 1, …, N - выборка изображений лиц, каждому из которых сопоставлена пара меток (yᵢ, aᵢ), где yᵢ ∈ {1, …, K} - идентификатор личности, aᵢ ∈ ℝ₊ - биологический возраст в момент съёмки. Задача состоит в построении отображения f_θ: ℝ^(H×W×3) → ℝ^d (d - размерность эмбеддинга, обычно d = 128 для FaceNet и d = 512 для современных архитектур), такого, что для любых двух изображений xₚ, x_q одной идентичности (yₚ = y_q) и произвольных значений aₚ, a_q обеспечивается выполнение порогового условия по косинусной мере:
s_cos(f_θ(xₚ), f_θ(x_q)) = ⟨f_θ(xₚ), f_θ(x_q)⟩ / (‖f_θ(xₚ)‖ · ‖f_θ(x_q)‖) ≥ τ, (1)
тогда как для пар yₚ ≠ y_q выполняется s_cos < τ, при заранее заданном пороге τ (для эмбеддингов, обученных на ArcFace, типичное значение τ ∈ [0,28; 0,50]).
Принципиальная трудность задачи заключается в том, что эмбеддинг f_θ(x), полученный универсальной моделью распознавания, имеет смешанную природу: f_θ(x) = g(x_id, x_age, ε), где x_id - компонент, инвариантный к возрасту, x_age - возрастной компонент, ε - остаточные факторы (поза, освещение, окклюзии). Чем больше возрастной разрыв Δa = |aₚ − a_q|, тем больше вклад x_age в общее представление, что приводит к снижению s_cos между парами одной идентичности.
Современные методы распознавания лиц с учётом возраста ставят целью построение представления x̂_id, максимально независимого от x_age. Формально требуется минимизация взаимной информации I(x̂_id; x_age) → min или каноническая корреляция ρ(x̂_id, x_age) → 0 при сохранении дискриминативной способности по идентичности. Это достигается тремя основными способами: ортогональная факторизация (OE-CNN [4]), линейная остаточная декомпозиция с состязательным обучением (DAL [5]) и attention-based разделение карт признаков (MTLFace [6]).
Двойственная задача -возрастной синтез лица -формулируется как поиск отображения G: (x, a_t) → x̃_(a_t), генерирующего изображение x̃_(a_t) той же идентичности с целевым возрастом a_t, при условии сохранения идентификационной согласованности:
‖R(x) − R(x̃_(a_t))‖ → min, |A(x̃_(a_t)) − a_t| → min, (2)
где R(·) - заранее обученный идентификационный экстрактор (ArcFace), A(·) - оценщик возраста. Существует фундаментальный компромисс между точностью идентификации (L_id) и качеством возрастной трансформации (L_age): усиление первого слагаемого ограничивает выразительность синтеза, тогда как доминирование второго приводит к «утечке» идентичности при больших Δa [9, с. 8625; 10, с. 742].
Эталонные метрики оценки включают точность верификации Acc = (TP + TN)/(TP + TN + FP + FN), ранжированную идентификацию Rank-1, истинно-положительную ставку при фиксированной ложно-положительной (TAR@FAR), косинусное сходство и площадь под ROC-кривой. Для генеративных методов дополнительно применяются Fréchet Inception Distance FID = ‖μ_r − μ_g‖² + Tr(Σ_r + Σ_g − 2(Σ_r Σ_g)^(1/2)) и средняя абсолютная ошибка возраста MAE.
Классификация и сравнительный анализ методов
Дискриминативные методы на основе свёрточных нейронных сетей
Первый класс алгоритмов основывается на свёрточных архитектурах с метрическим обучением и маржинальными функциями потерь. Родоначальником метрического подхода является FaceNet (Schroff et al., 2015) [1, с. 816], предложивший единое 128-мерное эмбеддинговое представление с L2-нормализацией и оптимизацией триплетной функции потерь:
L_triplet = Σᵢ [‖f(xᵢᵃ) − f(xᵢᵖ)‖² − ‖f(xᵢᵃ) − f(xᵢⁿ)‖² + α]₊, (3)
где xᵢᵃ - якорное изображение, xᵢᵖ - положительный пример той же идентичности, xᵢⁿ - отрицательный, α = 0,2 -маржа. Архитектура NN1 содержит 22 слоя (≈ 140 млн параметров, ≈ 1,6 млрд FLOPS), модель достигает 99,63 % верификации на LFW при обучении на ≈ 200 млн изображений. Однако триплетная функция требует тщательного отбора жёстких троек (hard mining) и плохо масштабируется при росте числа классов, что мотивировало переход к softmax-маржинальным вариантам.
CosFace (LMCL) (Wang et al., 2018) [2, с. 5267] предложил аддитивную косинусную маржу в нормализованном пространстве признаков и весов:
L_LMCL = −(1/N) Σᵢ log[ e^(s(cos θ_(yᵢ,i) − m)) / (e^(s(cos θ_(yᵢ,i) − m)) + Σ_(j≠yᵢ) e^(s cos θ_(j,i))) ], (4)
с оптимальной маржой m = 0,35 и масштабом s = 64. На MegaFace Challenge 1 достигнута точность Rank-1 идентификации 82,72 %, на LFW -99,73 %.
ArcFace (Deng et al., 2019) [3, с. 4692] заменил аддитивную косинусную маржу на аддитивную угловую, имеющую более чёткую геометрическую интерпретацию на гиперсфере:
L_ArcFace = −(1/N) Σᵢ log[ e^(s cos(θ_(yᵢ) + m)) / (e^(s cos(θ_(yᵢ) + m)) + Σ_(j≠yᵢ) e^(s cos θⱼ)) ], (5)
при m = 0,5 рад, s = 64. На ResNet-100, обученной на MS1MV2 (≈ 5,8 млн изображений), модель достигает 99,83 % на LFW, 98,28 % на AgeDB-30, 95,45 % на CALFW и 95,6 % TAR@FAR = 10⁻⁴ на IJB-C. ArcFace стал де-факто стандартом базовой идентификационной функции потерь для современных фреймворков распознавания лиц с учётом возраста.
Перечисленные методы не учитывают возрастной фактор явно. Специализированные архитектуры базируются на идее декомпозиции признаков на возрастной и идентификационный компоненты. OE-CNN (Wang et al., 2018) [4, с. 742] реализует ортогональную мультипликативную декомпозицию в сферических координатах:
x = x_age · x_id, x_age = ‖x‖₂, x_id = x / ‖x‖₂, (6)
где радиальная компонента x_age кодирует возраст и регрессируется через MSE, а угловая x_id супервизируется A-Softmax. Общая функция потерь L = L_id + λL_age с λ = 0,01. Модель достигает 98,55 % Rank-1 на MORPH Album 2 (протокол 10 000 субъектов), 99,20 % на CACD-VS и 52,67 % на FG-NET MF1.
DAL (Wang et al., 2019) [5, с. 3528] предложил линейную остаточную декомпозицию x = x_id + x_age с модулем Residual Factorization, дополненную состязательной декорреляцией через минимизацию мини-батчевой канонической корреляции (BCCA):
ρ = [ (1/m) Σᵢ (v_id^i − μ_id)(v_age^i − μ_age) ] / [ √(σ²_id + ε) · √(σ²_age + ε) ], (7)
L_DAL = min_(F,R) max_C |ρ|. (8)
Идентификационная супервизия осуществляется CosFace-функцией (m = 0,35, s = 64). DAL достигает 98,93 % Rank-1 на MORPH Album 2, 99,40 % на CACD-VS, 94,50 % Rank-1 на FG-NET в режиме leave-one-out.
MTLFace (Huang et al., 2021) [6, с. 7285] объединяет распознавание лиц с учётом возраста и возрастной синтез в единый мультизадачный фреймворк с attention-based декомпозицией карт признаков:
X = X ∘ σ(X) [= X_age] + X ∘ (1 − σ(X)) [= X_id], (9)
где σ(·) - комбинированный модуль внимания (Channel + Spatial Attention), ∘ - поэлементное умножение. Введён модуль Identity Conditional с гранулярным управлением возрастной группой и слой обратного градиента (Gradient Reversal Layer) для непрерывной доменной адаптации. Идентификационная часть супервизируется CosFace. MTLFace на ResNet-50 достигает 96,23 % на AgeDB-30, 95,62 % на CALFW, 99,55 % на CACD-VS, 94,78 % Rank-1 на FG-NET и 99,78 % Rank-1 на MORPH Album 2. Метод Identity-Age Shared Features (Zhang et al., 2024) [15, с. 5467] выделяет дополнительно общую компоненту и достигает 97,53 % на AgeDB-30.
Таким образом, эволюция методов на основе свёрточных нейронных сетей следует траектории: метрическое обучение (FaceNet) → softmax-маржинальные функции (CosFace, ArcFace) → декомпозиция признаков на ортогональные / некоррелированные / attention-разделённые компоненты (OE-CNN → DAL → MTLFace). Каждое поколение прирастает на 0,3 - 0,8 % точности на стандартных бенчмарках, и архитектурная сложность увеличивается за счёт многозадачного обучения и состязательных регуляризаторов.
Генеративные методы на основе генеративно-состязательных сетей
Параллельно с дискриминативным направлением развивался класс генеративных моделей возрастной трансформации, предназначенных как для повышения интерпретируемости методов идентификации, так и для расширения обучающих выборок и решения прикладных задач (поиск пропавших, криминалистика).
CAAE (Zhang et al., 2017) [7, с. 5811] - пионерская модель условного состязательного автоэнкодера. Лицо проецируется энкодером E в латентный персональный вектор z ∈ ℝ⁵⁰, конкатенируется с one-hot вектором возраста l (10 классов) и подаётся в генератор G. Используются два дискриминатора: D_z принудительно делает распределение z равномерным, D_img выполняет conditional GAN-супервизию. Целевая функция включает L2-реконструкцию, состязательные потери и регуляризатор полной вариации:
L_CAAE = λ ‖x − G(E(x), l)‖² + γ · TV(x̂) + L_adv_z + L_adv_img. (10)
Модель обучается на UTKFace (23 708 изображений 128×128, диапазон 0 - 116 лет), достигая верификационной точности 91,53 % по пользовательской оценке. Основные ограничения - низкое разрешение, размытость и ослабление выраженности возрастных трансформаций при больших разрывах.
IPCGAN (Wang et al., 2018) [8, с. 7942] добавил две ключевые компоненты: identity-preservation loss через перцептивные признаки предобученной AlexNet (слой conv5) и age classification loss на основе классификатора, дообученного на CACD:
L_id = Σ_x ‖h(x) − h(G(x|C_t))‖², L_age = Σ_x ℓ_CE(G(x|C_t), C_t), (11)
G_loss = λ₁ L_G + λ₂ L_id + λ₃ L_age, (λ₁, λ₂, λ₃) = (75; 5·10⁻⁵; 30). (12)
IPCGAN обучен на 163 104 изображениях CACD, разбитых на 5 возрастных групп. Верификационная точность 96,90 %, время инференса 0,28 с/изображение. Сохранение идентичности существенно превосходит CAAE (98,15 % → 99,07 % при включении identity-loss).
HRFAE (Yao et al., 2020) [9, с. 8626] поднял разрешение синтеза до 1024×1024 благодаря энкодер-декодерной архитектуре с возрастным модулятором в латентном пространстве. Принципиальное отличие -дискриминатор не conditional на возрасте, что снижает артефакты. Модель обучена на FFHQ (70 000 изображений) с возрастными метками от DEX-классификатора. Однако трансформация ограничена косметическими изменениями (морщины, пигментация); форма головы и пропорции лица практически не меняются, что делает HRFAE непригодной для задач «ребёнок–взрослый».
Lifespan Age Transformation Synthesis (Or-El et al., 2020) [10, с. 740] - первая модель, охватывающая весь диапазон жизни (0–70+ лет) с одновременным изменением текстуры и формы. Использовано 10 возрастных кластеров, архитектура с многодоменной cycle-консистентной трансформацией:
L_cyc = E_(x, a_s, a_t) ‖G(G(x, a_t), a_s) − x‖₁, (13)
с раздельными моделями для мужского и женского лица, что компенсирует гендерный перекос FFHQ-Aging. По пользовательскому тесту LATS предпочитается IPCGAN в 95 % случаев.
SAM (Alaluf et al., 2021) использует pSp-энкодер в латентное пространство W+ предобученной StyleGAN2 с регрессионным управлением возрастом и комбинированной целью:
L = λ_pix ‖x − G(E(x,α))‖² + λ_LPIPS L_LPIPS + λ_id (1 − ⟨R(x), R(x̂)⟩) + λ_age ‖A(x̂) − α_t‖², (14)
обеспечивая разрешение 1024×1024 и identity-similarity ≈ 0,60 при средней ошибке возраста ≈ 5 лет.
AT-GAN (Chen et al., 2025) [11] - недавнее развитие, ориентированное на криминалистическое применение (поиск пропавших детей). Архитектура трёхстадийная: реставрация старых фотографий через GAN-deblurring и полу-сопоставленный модуль Semi-MSFA для устранения царапин и колоризации; предсказание возрастных трансформаций через self-attention; кросс-возрастное сопоставление. Авторы заявляют высокую точность и обобщающую способность на FG-NET и волонтёрских данных, однако численные результаты на стандартных бенчмарках в открытой версии публикации отсутствуют.
Принципиальное ограничение GAN-подхода - компромисс между точностью идентификации и качеством синтеза: усиление identity-loss ограничивает выразительность возрастной трансформации (HRFAE), а доминирование age-loss разрушает идентификационные признаки при возрастных разрывах свыше 30 лет. Дополнительные проблемы - mode collapse при ограниченных обучающих выборках возрастных групп, гендерный и расовый bias, а также артефакты «ореола» (ghosting) при экстремальных трансформациях.
Трансформерные, гибридные и диффузионные методы
Третий класс - архитектуры на основе трансформеров и диффузионных моделей - начал интенсивно развиваться с 2022 г.
Face Transformer (Zhong & Deng, 2022) и TransFace (Dan et al., 2023) [22, с. 20645] применяют ViT-архитектуры (ViT-S/B/L с эмбеддингами 384/768/1024) к универсальному распознаванию лиц. TransFace вводит patch-уровневую аугментацию Dominant Patch Amplitude Perturbation (DPAP) и Entropy-based Hard Sample Mining (EHSM) для борьбы с переобучением ViT на FR-датасетах. На LFW достигается 99,85 %, на AgeDB-30 - 98,00 %, что лишь незначительно превосходит ArcFace на ResNet-100. SwinFace (Qin et al., 2023) использует Swin Transformer в мультизадачном режиме с Multi-Level Channel Attention.
Для специализированной задачи распознавания лиц с учётом возраста разработаны гибридные подходы. T2T-DAL (Liu et al., 2023) [16] объединяет Tokens-to-Token ViT с механизмом decorrelated adversarial learning из DAL: T2T-ViT извлекает смешанные признаки, после чего модуль остаточной факторизации линейно разделяет возрастные и идентификационные компоненты. Метод обеспечивает существенное сокращение параметров и числа умножений-сложений (MACs) по сравнению с CNN-аналогами DAL и MTLFace при сопоставимой точности. T2T-ViT с многомасштабной attention-декомпозицией (Al-Haeer & Mengxia, 2024) [17, с. 42] использует совместную минимизацию взаимной информации, кросс-энтропии и ArcFace-loss и достигает 94,97 % Rank-1 на FG-NET, 99,51 % на CACD-VS, 95,81 % на CALFW. FaceLiVT (2025) -гибридная архитектура с Multi-Head Linear Attention и RepMix-блоками -обеспечивает 95,6 % на AgeDB-30 при инференсе в 21 раз быстрее ViT-аналогов.
Принципиальное ограничение трансформерных моделей в задаче распознавания лиц с учётом возраста -их «жажда данных» (data-hungry nature). ViT требует обучающих наборов порядка Glint360K (более 360 млн изображений), тогда как кросс-возрастные датасеты на порядки меньше (FG-NET - 1002 фото, MORPH-2 -55 134, CACD - 163 446). Отсутствие индуктивного смещения к локальным текстурным деталям, критичным для распознавания морщинистой кожи, и квадратичная сложность self-attention делают трансформеры пока неконкурентоспособными по соотношению «точность / вычислительные затраты» на специализированных бенчмарках. Насыщение результатов на стандартных протоколах (LFW, AgeDB-30) дополнительно затрудняет демонстрацию преимуществ ViT.
Диффузионные модели стали наиболее активно развивающимся направлением возрастного синтеза в 2023–2025 гг. FADING (Chen & Lathuilière, 2023) [18, с. 3] выполняет возрастное редактирование на основе латентной диффузии (Stable Diffusion) в двух стадиях: возраст-направленный fine-tuning по текстовым промптам и редактирование через Null-Text Inversion с управлением Prompt-to-Prompt attention. Преимущество диффузионного подхода -расширенный рабочий диапазон возрастов, устойчивость к окклюзиям и экстремальным позам. MyTimeMachine (2024) реализует персонализированную возрастную трансформацию поверх SAM с identity-similarity 0,67 (улучшение на 11,7 % над FADING). AgeBooth (2025) использует возраст-специфические LoRA-адаптеры и SVDMix для интерполяции промежуточных возрастов.
Метод DEFOG (Zhu et al., 2025) [12, с. 1345] представляет собой дискриминативную архитектуру на основе модифицированной R-ResNet-50 с двойным вниманием (Channel и Spatial Attention, организованным по схеме CBAM) и ArcFace-функцией потерь. Детектор лиц - RetinaFace; активация PReLU. На FG-NET DEFOG достигает 91,3 % Rank-1, превосходя классические HFA (91,14 %) и LF-CNN (88,1 %), но уступая MTLFace в режиме leave-one-out.
Сводное сравнение методов
В таблице 1 приведены ключевые характеристики и точностные показатели рассмотренных алгоритмов. Прочерк означает, что соответствующая метрика не сообщалась авторами либо не применима к данному типу метода.
Таблица 1.
Сравнение методов распознавания лиц с учётом возрастных изменений
|
Метод |
Год |
Тип |
MORPH-2 R-1, % |
CACD-VS, % |
AgeDB-30, % |
CALFW, % |
FG-NET R-1, % |
LFW, % |
|---|---|---|---|---|---|---|---|---|
|
FaceNet |
2015 |
CNN, triplet |
— |
— |
— |
— |
— |
99,63 |
|
CosFace |
2018 |
CNN, LMCL |
— |
— |
≈ 95,8 |
≈ 95,0 |
— |
99,73 |
|
ArcFace |
2019 |
CNN, AAML |
— |
≈ 99,5 |
98,28 |
95,45 |
— |
99,83 |
|
OE-CNN |
2018 |
CNN + орт. декомп. |
98,55 |
99,20 |
— |
— |
52,67 |
99,47 |
|
DAL |
2019 |
CNN + BCCA-adv. |
98,93 |
99,40 |
— |
— |
94,50 |
99,47 |
|
MTLFace |
2021 |
CNN + AFD + ICM |
99,78 |
99,55 |
96,23 |
95,62 |
94,78 |
99,52 |
|
AIFEN |
2022 |
CNN + ECA |
— |
99,63 |
≈ 98,0 |
≈ 96,0 |
— |
≈ 99,7 |
|
Id-Age Shared |
2024 |
Hybrid Trans. |
— |
— |
97,53 |
— |
— |
— |
|
T2T-ViT + MSAD |
2024 |
Hybrid |
— |
99,51 |
— |
95,81 |
94,97 |
— |
|
TransFace-L |
2023 |
Pure ViT |
— |
— |
98,00 |
— |
— |
99,85 |
|
FaceLiVT |
2025 |
Hybrid |
— |
— |
95,6 |
— |
— |
99,6 |
|
DEFOG |
2025 |
CNN + Dual Attn. |
— |
— |
— |
91,6 |
91,3 |
— |
|
CAAE |
2017 |
GAN (синтез) |
— |
— |
— |
— |
— |
91,53* |
|
IPCGAN |
2018 |
GAN (синтез) |
— |
— |
— |
— |
— |
96,90* |
|
LATS |
2020 |
GAN (синтез) |
— |
— |
— |
— |
— |
— |
|
SAM |
2021 |
GAN (синтез) |
— |
— |
— |
— |
— |
— |
|
FADING |
2023 |
Diffusion |
— |
— |
— |
— |
— |
— |
|
AT-GAN |
2025 |
GAN+attn (синтез) |
— |
— |
— |
— |
— |
— |
* Для генеративных методов в столбце LFW приведена identity-verification-rate синтезированного и реального изображения (пользовательская оценка).
Анализ таблицы 1 позволяет сделать несколько системных наблюдений. Во-первых, прирост точности от FaceNet (2015) к MTLFace (2021) на специализированных бенчмарках составляет 1,0 - 3,5 процентных пункта при значительном усложнении архитектуры. Во-вторых, переход к трансформерным архитектурам (TransFace, T2T-ViT) пока не обеспечивает радикального превосходства над оптимизированными CNN. В-третьих, методы 2024 - 2025 гг. (DEFOG, AT-GAN) ориентированы преимущественно на прикладные сценарии (реставрация, поиск пропавших) и валидированы на нестандартных подмножествах данных, что затрудняет прямое сопоставление.
Эталонные наборы данных и метрики оценки
Сопоставимость результатов разных методов критически зависит от выбора эталонных наборов. Основные характеристики стандартных датасетов сведены в таблице 2.
Таблица 2.
Эталонные наборы для распознавания лиц с учётом возрастных изменений
|
Набор |
Год |
Изобр. |
Субъекты |
Возр. диапазон, лет |
Δ возр., лет |
Особенности |
|---|---|---|---|---|---|---|
|
MORPH Album 2 |
2006 |
55 134 |
≈ 13 000 |
16–77 |
≈ 5 |
дисбаланс пола и расы |
|
MORPH Extended |
— |
78 000 |
20 000 |
16–77 |
≈ 5 |
расширенная версия |
|
FG-NET |
2002 |
1 002 |
82 |
0–69 |
большой |
сканированные фото |
|
CACD |
2014 |
163 446 |
2 000 |
16–62 |
средний |
шумные метки |
|
CACD-VS |
2014 |
4 000 пар |
— |
16–62 |
≥ 10 |
2000 pos + 2000 neg |
|
AgeDB-30 |
2017 |
6 000 пар |
568 |
3–101 |
30 (фикс.) |
ручная разметка |
|
CALFW |
2017 |
6 000 пар |
4 025 |
взрослые |
≥ 10 |
LFW-совместимый протокол |
|
FFHQ-Aging |
2020 |
70 000 |
— |
0–70+ |
— |
10 классов |
|
IMDB-WIKI |
2015 |
≈ 523 000 |
— |
0–100 |
— |
предобучение DEX |
|
UTKFace |
2017 |
≈ 23 700 |
— |
0–116 |
— |
aligned, in-the-wild |
База MORPH Album 2, разработанная Face Aging Group Университета Северной Каролины [13, с. 343], долгое время являлась стандартом задачи распознавания лиц с учётом возраста. Её принципиальные ограничения -малый средний возрастной разрыв между парами одной идентичности (около 5 лет, существенно ниже целевых 20 - 30 лет долгосрочной идентификации) и выраженный дисбаланс по полу (M:F ≈ 5,5:1) и этничности (около 77 % афроамериканцев). Это приводит к завышенной оценке точности методов на MORPH и слабой переносимости результатов на реальные сценарии.
База FG-NET содержит лишь 1002 изображения 82 субъектов, что не позволяет достичь статистической значимости результатов, однако сохраняет ценность благодаря широкому возрастному диапазону (0 - 69 лет) и возможности тестирования сценариев «детство–взрослый». Стандартными протоколами FG-NET являются leave-one-image-out и MegaFace Challenge 1/2.
CACD обеспечивает большой объём (163 446 изображений), но страдает от шумных меток вследствие автоматизированного сбора через поисковые системы; ручной верификации подвергались только топ - 5 результатов на знаменитость. Подмножество CACD-VS (4000 пар) используется для верификационного бенчмарка с 10-фолдовой кросс-валидацией.
AgeDB-30 [14, с. 1999] - наиболее «чистый» набор: 16 488 вручную аннотированных изображений 568 знаменитостей с фиксированным возрастным разрывом 30 лет в верификационных парах. Это делает AgeDB-30 наиболее адекватным бенчмарком для оценки методов в режиме долгосрочной идентификации. CALFW организован по протоколу LFW (6000 пар, 10 фолдов) с подбором положительных пар по максимальному возрастному разрыву.
Метрики оценки разделяются на верификационные (точность 10-фолдовой верификации, TAR@FAR при FAR ∈ {10⁻³, 10⁻⁴, 10⁻⁶}, ROC AUC), идентификационные (Rank-1, Rank-5, CMC-кривая), генеративные (FID, identity-preservation rate, age estimation MAE) и качественные (PSNR, SSIM, LPIPS для оценки фотореализма синтеза).
Принципиальная проблема, отмечаемая в обзорах [19, с. 985; 20] и подтверждаемая собственными результатами авторов рассмотренных работ, состоит в насыщении стандартных протоколов: на LFW и AgeDB-30 современные методы достигают 99,5 - 99,85 %, что соответствует 10 - 30 ошибкам на 6000 пар и попадает в диапазон погрешности разметки. Дальнейшее совершенствование методов требует разработки более сложных бенчмарков с большими возрастными разрывами, контролируемой биологической вариативностью и долгосрочной продольной структурой.
Открытые проблемы и направления исследований
Систематический сравнительный анализ выявляет ряд нерешённых проблем, определяющих перспективные направления исследований.
Первая проблема - учёт биологических аспектов старения. Существующие методы рассматривают возраст как абстрактную метку или категориальную переменную, игнорируя физиологические детерминанты старения: скорость биологического старения, обусловленную генетическими и средовыми факторами, гендерные и этнические различия в траектории старения, влияние внешних факторов (курение, инсоляция, заболевания). Учёт биологических процессов через моделирование скрытых факторов хронологического и биологического возраста, а также через введение биологически-осмысленных регуляризаторов открывает возможности повышения долгосрочной идентификационной точности и интерпретируемости моделей.
Вторая проблема - большие возрастные разрывы. При Δa > 30 лет точность даже лучших современных методов на FG-NET MF1 не превышает 60 % Rank-1 [5, с. 3533]. Особенно критичен сценарий «детство - взрослый возраст», в котором происходят масштабные морфологические перестройки. Перспективные направления - комбинация генеративных моделей (FADING, MyTimeMachine) для возрастной нормализации и дискриминативных моделей с биологически-осмысленной декомпозицией; долгосрочные продольные исследования с расширением FG-NET-подобных наборов.
Третья проблема - ограничения эталонных наборов: малый средний возрастной разрыв в MORPH, малый объём FG-NET, шумные метки CACD, насыщение AgeDB-30 и LFW. Требуется создание новых наборов с продольной структурой, контролируемыми условиями съёмки и метаданными о состоянии здоровья и образе жизни субъектов.
Четвёртая проблема - соотношение точности генеративных и дискриминативных методов. Возрастной синтез как промежуточный шаг для распознавания (data augmentation, normalization) пока не даёт стабильного прироста точности из-за артефактов и потери идентификационной согласованности. Совместная мультизадачная оптимизация (MTLFace, AT-GAN) - наиболее перспективное направление.
Пятая проблема - переход к трансформерным и диффузионным архитектурам в условиях ограниченных размеченных данных. Требуются методы предобучения на крупных немаркированных наборах, эффективные стратегии аугментации (DPAP, EHSM) и гибридные CNN+Transformer-архитектуры с уменьшенным числом параметров.
Заключение
Проведённый сравнительный анализ показал, что современная парадигма распознавания лиц с учётом возрастных изменений основана на сочетании угловых маржинальных функций потерь (ArcFace, CosFace) с механизмами декомпозиции признаков на возрастной и идентификационный компоненты -ортогональной (OE-CNN), линейной с состязательной декорреляцией (DAL) или attention-based на картах признаков (MTLFace). Эта линия обеспечила прирост верификационной точности с 95–96 % (FaceNet, 2015) до 99,5–99,78 % на CACD-VS и MORPH Album 2, а также 96–97,5 % на AgeDB-30. Генеративные модели (CAAE → IPCGAN → HRFAE → LATS → SAM) развивались параллельно, повышая разрешение синтеза с 128×128 до 1024×1024 и расширяя возрастной диапазон от взрослого населения до полной продолжительности жизни. Трансформерные и гибридные методы (TransFace, T2T-DAL, FaceLiVT) пока не дают радикального прироста точности на специализированных бенчмарках вследствие ограниченного объёма размеченных кросс-возрастных данных и отсутствия индуктивных смещений к локальным текстурным признакам. Диффузионные модели (FADING, MyTimeMachine, AgeBooth) и недавние специализированные разработки (AT-GAN, DEFOG) обозначают переход к биологически и контекстно осмысленным подходам.
Принципиальные ограничения долгосрочной идентификации связаны с большими возрастными разрывами (Δa > 30 лет), сценарием «детство–взрослый», насыщением стандартных бенчмарков и недостаточным учётом биологических детерминант старения. Дальнейшее развитие направления требует разработки методов, явно моделирующих биологические процессы старения, создания продольных наборов с расширенной возрастной вариативностью и интеграции дискриминативных и генеративных подходов в единые мультизадачные фреймворки.
Список литературы:
- Schroff F. FaceNet: A Unified Embedding for Face Recognition and Clustering / F. Schroff, D. Kalenichenko, J. Philbin // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. -2015. -P. 815–823.
- CosFace: Large Margin Cosine Loss for Deep Face Recognition / H. Wang, Y. Wang, Z. Zhou [и др.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. -2018. -P. 5265–5274.
- ArcFace: Additive Angular Margin Loss for Deep Face Recognition / J. Deng, J. Guo, N. Xue, S. Zafeiriou // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. -2019. -P. 4690–4699.
- Orthogonal Deep Features Decomposition for Age-Invariant Face Recognition / Y. Wang, D. Gong, Z. Zhou [и др.] // Lecture Notes in Computer Science. -2018. -Vol. 11220. -P. 738–753.
- Decorrelated Adversarial Learning for Age-Invariant Face Recognition / H. Wang, D. Gong, Z. Li, W. Liu // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. -2019. -P. 3527–3536.
- Huang Z. When Age-Invariant Face Recognition Meets Face Age Synthesis: A Multi-Task Learning Framework / Z. Huang, J. Zhang, H. Shan // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. -2021. -P. 7282–7291.
- Zhang Z. Age Progression/Regression by Conditional Adversarial Autoencoder / Z. Zhang, Y. Song, H. Qi // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. -2017. -P. 5810–5818.
- Face Aging with Identity-Preserved Conditional Generative Adversarial Networks / Z. Wang, X. Tang, W. Luo, S. Gao // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. -2018. -P. 7939–7947.
- High Resolution Face Age Editing / X. Yao, G. Puy, A. Newson [и др.] // Proceedings of the 25th International Conference on Pattern Recognition. -2020. -P. 8624–8631.
- Lifespan Age Transformation Synthesis / R. Or-El, S. Sengupta, O. Fried [и др.] // Lecture Notes in Computer Science. -2020. -Vol. 12352. -P. 739–755.
- Chen G. A research on cross-age facial recognition technology based on AT-GAN / G. Chen, X. Peng, R. Xu // PLOS ONE. -2025. -Vol. 20, № 5. -Article e0322280.
- DEFOG: Deep Learning with Attention Mechanism Enabled Cross-Age Face Recognition / B. Zhu, L. Li, X. Hu [и др.] // Tsinghua Science and Technology. -2025. -Vol. 30, № 3. -P. 1342–1358.
- Ricanek K. MORPH: A Longitudinal Image Database of Normal Adult Age-Progression / K. Ricanek, T. Tesafaye // Proceedings of the 7th IEEE International Conference on Automatic Face and Gesture Recognition. -Southampton, UK, 2006. -P. 341–345.
- AgeDB: The First Manually Collected, In-the-Wild Age Database / S. Moschoglou, A. Papaioannou, C. Sagonas [и др.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. -2017. -P. 1997–2005.
- Zhang J. Cross-age face recognition based on identity-age shared features / J. Zhang, S. Yin, L. Cao // The Visual Computer. -2024. -Vol. 40. -P. 5465–5474.
- Transformer for Age-Invariant Face Recognition / C. Liu, L. Cao, Y. Jin [и др.] // Laser & Optoelectronics Progress. -2023. -Vol. 60, № 10. -Article 1010019.
- Al-Haeer Z. M. Enhancing Cross-Age Facial Recognition with T2T-ViT Networks and Multi-Scale Attention Decomposition / Z. M. Al-Haeer, L. Mengxia // Journal of Engineering Sciences and Information Technology. -2024. -Vol. 8, № 2. -P. 38–50.
- Chen X. Face Aging via Diffusion-based Editing / X. Chen, S. Lathuilière // Proceedings of the British Machine Vision Conference. -2023. -Paper 0595. -13 p.
- Sawant M. M. Age invariant face recognition: a survey on facial aging databases, techniques and effect of aging / M. M. Sawant, K. M. Bhurchandi // Artificial Intelligence Review. -2019. -Vol. 52, № 2. -P. 981–1008.
- Age transformation based on deep learning: a survey / B. Hu, K. Guo, S. Ren, H. Fang // Expert Systems with Applications. -2025. -Vol. 270. -Article 125847.
- Соколова А. Д. Открытая идентификация лиц с автоматическим выявлением изображений, не относящихся к обучающему распределению / А. Д. Соколова, А. В. Савченко. Компьютерная оптика. -2022. -Т. 46, № 5. -С. 801–807.
- TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Perspective / J. Dan, Y. Liu, H. Xie [и др.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. -2023. -P. 20642–20653.
дипломов

