Статья опубликована в рамках: XCIX Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 25 мая 2026 г.)

Наука: Информационные технологии

Секция: Системный анализ, управление и обработка информации

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:

Русинович А.С. CОВРЕМЕННЫЕ МЕТОДЫ ДОЛГОСРОЧНОГО РАСПОЗНАВАНИЯ ЛИЦ С УЧЁТОМ ВОЗРАСТНЫХ ИЗМЕНЕНИЙ: СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ // Вопросы технических и физико-математических наук в свете современных исследований: сб. ст. по матер. XCIX междунар. науч.-практ. конф. № 5(90). – Новосибирск: СибАК, 2026. – С. 97-113.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов

CОВРЕМЕННЫЕ МЕТОДЫ ДОЛГОСРОЧНОГО РАСПОЗНАВАНИЯ ЛИЦ С УЧЁТОМ ВОЗРАСТНЫХ ИЗМЕНЕНИЙ: СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ

Русинович Андрей Сергеевич

студент, Московский Государственный Технологический Университет «СТАНКИН»,

РФ, г. Москва

Стоякова Ксения Леонидовна

научный руководитель,

канд. пед. наук., доцент Московский Государственный Технологический Университет «СТАНКИН»,

РФ, г. Москва

АННОТАЦИЯ

В работе проведён систематический сравнительный анализ современных алгоритмов распознавания лиц, инвариантного к возрастным изменениям, и сопряжённой задачи возрастного синтеза лица. Рассмотрены четыре класса методов: дискриминативные свёрточные нейронные сети, генеративно-состязательные модели, трансформерные и гибридные архитектуры, а также диффузионные модели. Для каждого класса приведены математические формулировки целевых функций и точностные показатели на эталонных наборах данных MORPH Album 2, CACD-VS, AgeDB-30, CALFW и FG-NET. Установлено, что декомпозиция признаков лица на возрастной и идентификационный компоненты с угловыми маржинальными функциями потерь обеспечивает наибольшую точность идентификации, а трансформерные подходы пока не дают радикального прироста точности над свёрточными аналогами. Сформулированы открытые проблемы долгосрочной биометрической идентификации.

ABSTRACT

The paper presents a systematic comparative analysis of state-of-the-art algorithms for age-invariant face recognition and the associated task of face age synthesis. Four classes of methods are considered: discriminative convolutional neural networks, generative adversarial models, transformer-based and hybrid architectures, and diffusion models. For each class the mathematical formulations of objective functions and accuracy metrics on benchmark datasets MORPH Album 2, CACD-VS, AgeDB-30, CALFW and FG-NET are provided. It is established that the decomposition of facial representations into age and identity components combined with angular margin loss functions provides the highest identification accuracy, while transformer-based approaches do not yet yield substantial gains over convolutional counterparts. Open problems of long-term biometric identification are formulated.

Ключевые слова: распознавание лиц; возрастная инвариантность; долгосрочная идентификация; свёрточные нейронные сети; генеративные состязательные сети; трансформер; диффузионные модели; биометрия.

Keywords: face recognition; age invariance; long-term identification; convolutional neural networks; generative adversarial networks; transformer; diffusion models; biometrics.

Введение

Биометрическая идентификация по изображениям лица представляет собой одну из наиболее востребованных задач компьютерного зрения, имеющую критическое значение в системах общественной безопасности, криминалистике, контроле доступа и поиске пропавших лиц. На стандартных проверках без значимого возрастного разрыва (Labeled Faces in the Wild, LFW) современные модели достигают точности 99,83 % (ArcFace, ResNet-100, обучение на MS1MV2) [3, с. 4695]. Однако в реальных приложениях, связанных с долгосрочной идентификацией - установлением личности по фотографиям, разделённым интервалом 20–40 лет, точность распознавания падает на 10–17 % [5, с. 3530; 14, с. 1999]. Возрастной фактор остаётся одним из основных источников внутриклассовой вариативности признаков лица наряду с позой и освещением.

Биологический процесс старения сопровождается необратимыми морфологическими изменениями: преобразованием костной структуры черепа, перераспределением подкожно - жировой клетчатки, потерей эластичности кожи, формированием стойких морщин и пигментных нарушений. Эти изменения затрагивают как локальные текстурные признаки, так и геометрию лица, что приводит к существенному смещению в пространстве признаков предобученной модели и снижению косинусного сходства между парами «молодое - пожилое» лиц одной идентичности.

Проблематика распознавания лиц с учётом возрастных изменений активно разрабатывается с 2006 г. (выпуск базы MORPH [13, с. 341]) и претерпела значительную эволюцию: от обработки локальных дескрипторов через свёрточные архитектуры с маржинальными функциями потерь к мультизадачным фреймворкам, генеративным моделям возрастной трансформации и, в последние годы, к трансформерным и диффузионным подходам [4, с. 740; 6, с. 7283; 8, с. 7940]. Несмотря на интенсивное развитие, ни одно из существующих решений не обеспечивает удовлетворительной точности при возрастном разрыве свыше 30 лет, особенно для задач «детство - взрослый возраст».

Цель работы - провести сравнительный анализ современных алгоритмов долгосрочного распознавания лиц с учётом возрастных изменений и сформулировать направления дальнейших исследований, ориентированные на учёт биологических процессов старения.

Поставленная цель достигается решением следующих задач: формализация задачи распознавания лиц с учётом возраста; классификация и сопоставительный анализ четырёх групп методов; количественное сравнение методов на эталонных наборах MORPH, CACD-VS, AgeDB-30, CALFW и FG-NET; систематизация открытых проблем долгосрочной биометрической идентификации.

Научная новизна обзора состоит в интеграции методов 2024 - 2025 гг. (AT-GAN [11], DEFOG [12], MyTimeMachine, AgeBooth) в единую сопоставительную систему с акцентом на проблему учёта биологических аспектов старения, что закладывает методологическую основу для дальнейшего синтеза алгоритмов долгосрочного распознавания.

Постановка задачи распознавания лиц с учётом возрастных изменений

Пусть X = {xᵢ}, i = 1, …, N - выборка изображений лиц, каждому из которых сопоставлена пара меток (yᵢ, aᵢ), где yᵢ ∈ {1, …, K} - идентификатор личности, aᵢ ∈ ℝ₊ - биологический возраст в момент съёмки. Задача состоит в построении отображения f_θ: ℝ^(H×W×3) → ℝ^d (d - размерность эмбеддинга, обычно d = 128 для FaceNet и d = 512 для современных архитектур), такого, что для любых двух изображений xₚ, x_q одной идентичности (yₚ = y_q) и произвольных значений aₚ, a_q обеспечивается выполнение порогового условия по косинусной мере:

s_cos(f_θ(xₚ), f_θ(x_q)) = ⟨f_θ(xₚ), f_θ(x_q)⟩ / (‖f_θ(xₚ)‖ · ‖f_θ(x_q)‖) ≥ τ, (1)

тогда как для пар yₚ ≠ y_q выполняется s_cos < τ, при заранее заданном пороге τ (для эмбеддингов, обученных на ArcFace, типичное значение τ ∈ [0,28; 0,50]).

Принципиальная трудность задачи заключается в том, что эмбеддинг f_θ(x), полученный универсальной моделью распознавания, имеет смешанную природу: f_θ(x) = g(x_id, x_age, ε), где x_id - компонент, инвариантный к возрасту, x_age - возрастной компонент, ε - остаточные факторы (поза, освещение, окклюзии). Чем больше возрастной разрыв Δa = |aₚ − a_q|, тем больше вклад x_age в общее представление, что приводит к снижению s_cos между парами одной идентичности.

Современные методы распознавания лиц с учётом возраста ставят целью построение представления x̂_id, максимально независимого от x_age. Формально требуется минимизация взаимной информации I(x̂_id; x_age) → min или каноническая корреляция ρ(x̂_id, x_age) → 0 при сохранении дискриминативной способности по идентичности. Это достигается тремя основными способами: ортогональная факторизация (OE-CNN [4]), линейная остаточная декомпозиция с состязательным обучением (DAL [5]) и attention-based разделение карт признаков (MTLFace [6]).

Двойственная задача -возрастной синтез лица -формулируется как поиск отображения G: (x, a_t) → x̃_(a_t), генерирующего изображение x̃_(a_t) той же идентичности с целевым возрастом a_t, при условии сохранения идентификационной согласованности:

‖R(x) − R(x̃_(a_t))‖ → min, |A(x̃_(a_t)) − a_t| → min, (2)

где R(·) - заранее обученный идентификационный экстрактор (ArcFace), A(·) - оценщик возраста. Существует фундаментальный компромисс между точностью идентификации (L_id) и качеством возрастной трансформации (L_age): усиление первого слагаемого ограничивает выразительность синтеза, тогда как доминирование второго приводит к «утечке» идентичности при больших Δa [9, с. 8625; 10, с. 742].

Эталонные метрики оценки включают точность верификации Acc = (TP + TN)/(TP + TN + FP + FN), ранжированную идентификацию Rank-1, истинно-положительную ставку при фиксированной ложно-положительной (TAR@FAR), косинусное сходство и площадь под ROC-кривой. Для генеративных методов дополнительно применяются Fréchet Inception Distance FID = ‖μ_r − μ_g‖² + Tr(Σ_r + Σ_g − 2(Σ_r Σ_g)^(1/2)) и средняя абсолютная ошибка возраста MAE.

Классификация и сравнительный анализ методов

Дискриминативные методы на основе свёрточных нейронных сетей

Первый класс алгоритмов основывается на свёрточных архитектурах с метрическим обучением и маржинальными функциями потерь. Родоначальником метрического подхода является FaceNet (Schroff et al., 2015) [1, с. 816], предложивший единое 128-мерное эмбеддинговое представление с L2-нормализацией и оптимизацией триплетной функции потерь:

L_triplet = Σᵢ [‖f(xᵢᵃ) − f(xᵢᵖ)‖² − ‖f(xᵢᵃ) − f(xᵢⁿ)‖² + α]₊, (3)

где xᵢᵃ - якорное изображение, xᵢᵖ - положительный пример той же идентичности, xᵢⁿ - отрицательный, α = 0,2 -маржа. Архитектура NN1 содержит 22 слоя (≈ 140 млн параметров, ≈ 1,6 млрд FLOPS), модель достигает 99,63 % верификации на LFW при обучении на ≈ 200 млн изображений. Однако триплетная функция требует тщательного отбора жёстких троек (hard mining) и плохо масштабируется при росте числа классов, что мотивировало переход к softmax-маржинальным вариантам.

CosFace (LMCL) (Wang et al., 2018) [2, с. 5267] предложил аддитивную косинусную маржу в нормализованном пространстве признаков и весов:

L_LMCL = −(1/N) Σᵢ log[ e^(s(cos θ_(yᵢ,i) − m)) / (e^(s(cos θ_(yᵢ,i) − m)) + Σ_(j≠yᵢ) e^(s cos θ_(j,i))) ], (4)

с оптимальной маржой m = 0,35 и масштабом s = 64. На MegaFace Challenge 1 достигнута точность Rank-1 идентификации 82,72 %, на LFW -99,73 %.

ArcFace (Deng et al., 2019) [3, с. 4692] заменил аддитивную косинусную маржу на аддитивную угловую, имеющую более чёткую геометрическую интерпретацию на гиперсфере:

L_ArcFace = −(1/N) Σᵢ log[ e^(s cos(θ_(yᵢ) + m)) / (e^(s cos(θ_(yᵢ) + m)) + Σ_(j≠yᵢ) e^(s cos θⱼ)) ], (5)

при m = 0,5 рад, s = 64. На ResNet-100, обученной на MS1MV2 (≈ 5,8 млн изображений), модель достигает 99,83 % на LFW, 98,28 % на AgeDB-30, 95,45 % на CALFW и 95,6 % TAR@FAR = 10⁻⁴ на IJB-C. ArcFace стал де-факто стандартом базовой идентификационной функции потерь для современных фреймворков распознавания лиц с учётом возраста.

Перечисленные методы не учитывают возрастной фактор явно. Специализированные архитектуры базируются на идее декомпозиции признаков на возрастной и идентификационный компоненты. OE-CNN (Wang et al., 2018) [4, с. 742] реализует ортогональную мультипликативную декомпозицию в сферических координатах:

x = x_age · x_id, x_age = ‖x‖₂, x_id = x / ‖x‖₂, (6)

где радиальная компонента x_age кодирует возраст и регрессируется через MSE, а угловая x_id супервизируется A-Softmax. Общая функция потерь L = L_id + λL_age с λ = 0,01. Модель достигает 98,55 % Rank-1 на MORPH Album 2 (протокол 10 000 субъектов), 99,20 % на CACD-VS и 52,67 % на FG-NET MF1.

DAL (Wang et al., 2019) [5, с. 3528] предложил линейную остаточную декомпозицию x = x_id + x_age с модулем Residual Factorization, дополненную состязательной декорреляцией через минимизацию мини-батчевой канонической корреляции (BCCA):

ρ = [ (1/m) Σᵢ (v_id^i − μ_id)(v_age^i − μ_age) ] / [ √(σ²_id + ε) · √(σ²_age + ε) ], (7)

L_DAL = min_(F,R) max_C |ρ|. (8)

Идентификационная супервизия осуществляется CosFace-функцией (m = 0,35, s = 64). DAL достигает 98,93 % Rank-1 на MORPH Album 2, 99,40 % на CACD-VS, 94,50 % Rank-1 на FG-NET в режиме leave-one-out.

MTLFace (Huang et al., 2021) [6, с. 7285] объединяет распознавание лиц с учётом возраста и возрастной синтез в единый мультизадачный фреймворк с attention-based декомпозицией карт признаков:

X = X ∘ σ(X) [= X_age] + X ∘ (1 − σ(X)) [= X_id], (9)

где σ(·) - комбинированный модуль внимания (Channel + Spatial Attention), ∘ - поэлементное умножение. Введён модуль Identity Conditional с гранулярным управлением возрастной группой и слой обратного градиента (Gradient Reversal Layer) для непрерывной доменной адаптации. Идентификационная часть супервизируется CosFace. MTLFace на ResNet-50 достигает 96,23 % на AgeDB-30, 95,62 % на CALFW, 99,55 % на CACD-VS, 94,78 % Rank-1 на FG-NET и 99,78 % Rank-1 на MORPH Album 2. Метод Identity-Age Shared Features (Zhang et al., 2024) [15, с. 5467] выделяет дополнительно общую компоненту и достигает 97,53 % на AgeDB-30.

Таким образом, эволюция методов на основе свёрточных нейронных сетей следует траектории: метрическое обучение (FaceNet) → softmax-маржинальные функции (CosFace, ArcFace) → декомпозиция признаков на ортогональные / некоррелированные / attention-разделённые компоненты (OE-CNN → DAL → MTLFace). Каждое поколение прирастает на 0,3 - 0,8 % точности на стандартных бенчмарках, и архитектурная сложность увеличивается за счёт многозадачного обучения и состязательных регуляризаторов.

Генеративные методы на основе генеративно-состязательных сетей

Параллельно с дискриминативным направлением развивался класс генеративных моделей возрастной трансформации, предназначенных как для повышения интерпретируемости методов идентификации, так и для расширения обучающих выборок и решения прикладных задач (поиск пропавших, криминалистика).

CAAE (Zhang et al., 2017) [7, с. 5811] - пионерская модель условного состязательного автоэнкодера. Лицо проецируется энкодером E в латентный персональный вектор z ∈ ℝ⁵⁰, конкатенируется с one-hot вектором возраста l (10 классов) и подаётся в генератор G. Используются два дискриминатора: D_z принудительно делает распределение z равномерным, D_img выполняет conditional GAN-супервизию. Целевая функция включает L2-реконструкцию, состязательные потери и регуляризатор полной вариации:

L_CAAE = λ ‖x − G(E(x), l)‖² + γ · TV(x̂) + L_adv_z + L_adv_img. (10)

Модель обучается на UTKFace (23 708 изображений 128×128, диапазон 0 - 116 лет), достигая верификационной точности 91,53 % по пользовательской оценке. Основные ограничения - низкое разрешение, размытость и ослабление выраженности возрастных трансформаций при больших разрывах.

IPCGAN (Wang et al., 2018) [8, с. 7942] добавил две ключевые компоненты: identity-preservation loss через перцептивные признаки предобученной AlexNet (слой conv5) и age classification loss на основе классификатора, дообученного на CACD:

L_id = Σ_x ‖h(x) − h(G(x|C_t))‖², L_age = Σ_x ℓ_CE(G(x|C_t), C_t), (11)

G_loss = λ₁ L_G + λ₂ L_id + λ₃ L_age, (λ₁, λ₂, λ₃) = (75; 5·10⁻⁵; 30). (12)

IPCGAN обучен на 163 104 изображениях CACD, разбитых на 5 возрастных групп. Верификационная точность 96,90 %, время инференса 0,28 с/изображение. Сохранение идентичности существенно превосходит CAAE (98,15 % → 99,07 % при включении identity-loss).

HRFAE (Yao et al., 2020) [9, с. 8626] поднял разрешение синтеза до 1024×1024 благодаря энкодер-декодерной архитектуре с возрастным модулятором в латентном пространстве. Принципиальное отличие -дискриминатор не conditional на возрасте, что снижает артефакты. Модель обучена на FFHQ (70 000 изображений) с возрастными метками от DEX-классификатора. Однако трансформация ограничена косметическими изменениями (морщины, пигментация); форма головы и пропорции лица практически не меняются, что делает HRFAE непригодной для задач «ребёнок–взрослый».

Lifespan Age Transformation Synthesis (Or-El et al., 2020) [10, с. 740] - первая модель, охватывающая весь диапазон жизни (0–70+ лет) с одновременным изменением текстуры и формы. Использовано 10 возрастных кластеров, архитектура с многодоменной cycle-консистентной трансформацией:

L_cyc = E_(x, a_s, a_t) ‖G(G(x, a_t), a_s) − x‖₁, (13)

с раздельными моделями для мужского и женского лица, что компенсирует гендерный перекос FFHQ-Aging. По пользовательскому тесту LATS предпочитается IPCGAN в 95 % случаев.

SAM (Alaluf et al., 2021) использует pSp-энкодер в латентное пространство W+ предобученной StyleGAN2 с регрессионным управлением возрастом и комбинированной целью:

L = λ_pix ‖x − G(E(x,α))‖² + λ_LPIPS L_LPIPS + λ_id (1 − ⟨R(x), R(x̂)⟩) + λ_age ‖A(x̂) − α_t‖², (14)

обеспечивая разрешение 1024×1024 и identity-similarity ≈ 0,60 при средней ошибке возраста ≈ 5 лет.

AT-GAN (Chen et al., 2025) [11] - недавнее развитие, ориентированное на криминалистическое применение (поиск пропавших детей). Архитектура трёхстадийная: реставрация старых фотографий через GAN-deblurring и полу-сопоставленный модуль Semi-MSFA для устранения царапин и колоризации; предсказание возрастных трансформаций через self-attention; кросс-возрастное сопоставление. Авторы заявляют высокую точность и обобщающую способность на FG-NET и волонтёрских данных, однако численные результаты на стандартных бенчмарках в открытой версии публикации отсутствуют.

Принципиальное ограничение GAN-подхода - компромисс между точностью идентификации и качеством синтеза: усиление identity-loss ограничивает выразительность возрастной трансформации (HRFAE), а доминирование age-loss разрушает идентификационные признаки при возрастных разрывах свыше 30 лет. Дополнительные проблемы - mode collapse при ограниченных обучающих выборках возрастных групп, гендерный и расовый bias, а также артефакты «ореола» (ghosting) при экстремальных трансформациях.

Трансформерные, гибридные и диффузионные методы

Третий класс - архитектуры на основе трансформеров и диффузионных моделей - начал интенсивно развиваться с 2022 г.

Face Transformer (Zhong & Deng, 2022) и TransFace (Dan et al., 2023) [22, с. 20645] применяют ViT-архитектуры (ViT-S/B/L с эмбеддингами 384/768/1024) к универсальному распознаванию лиц. TransFace вводит patch-уровневую аугментацию Dominant Patch Amplitude Perturbation (DPAP) и Entropy-based Hard Sample Mining (EHSM) для борьбы с переобучением ViT на FR-датасетах. На LFW достигается 99,85 %, на AgeDB-30 - 98,00 %, что лишь незначительно превосходит ArcFace на ResNet-100. SwinFace (Qin et al., 2023) использует Swin Transformer в мультизадачном режиме с Multi-Level Channel Attention.

Для специализированной задачи распознавания лиц с учётом возраста разработаны гибридные подходы. T2T-DAL (Liu et al., 2023) [16] объединяет Tokens-to-Token ViT с механизмом decorrelated adversarial learning из DAL: T2T-ViT извлекает смешанные признаки, после чего модуль остаточной факторизации линейно разделяет возрастные и идентификационные компоненты. Метод обеспечивает существенное сокращение параметров и числа умножений-сложений (MACs) по сравнению с CNN-аналогами DAL и MTLFace при сопоставимой точности. T2T-ViT с многомасштабной attention-декомпозицией (Al-Haeer & Mengxia, 2024) [17, с. 42] использует совместную минимизацию взаимной информации, кросс-энтропии и ArcFace-loss и достигает 94,97 % Rank-1 на FG-NET, 99,51 % на CACD-VS, 95,81 % на CALFW. FaceLiVT (2025) -гибридная архитектура с Multi-Head Linear Attention и RepMix-блоками -обеспечивает 95,6 % на AgeDB-30 при инференсе в 21 раз быстрее ViT-аналогов.

Принципиальное ограничение трансформерных моделей в задаче распознавания лиц с учётом возраста -их «жажда данных» (data-hungry nature). ViT требует обучающих наборов порядка Glint360K (более 360 млн изображений), тогда как кросс-возрастные датасеты на порядки меньше (FG-NET - 1002 фото, MORPH-2 -55 134, CACD - 163 446). Отсутствие индуктивного смещения к локальным текстурным деталям, критичным для распознавания морщинистой кожи, и квадратичная сложность self-attention делают трансформеры пока неконкурентоспособными по соотношению «точность / вычислительные затраты» на специализированных бенчмарках. Насыщение результатов на стандартных протоколах (LFW, AgeDB-30) дополнительно затрудняет демонстрацию преимуществ ViT.

Диффузионные модели стали наиболее активно развивающимся направлением возрастного синтеза в 2023–2025 гг. FADING (Chen & Lathuilière, 2023) [18, с. 3] выполняет возрастное редактирование на основе латентной диффузии (Stable Diffusion) в двух стадиях: возраст-направленный fine-tuning по текстовым промптам и редактирование через Null-Text Inversion с управлением Prompt-to-Prompt attention. Преимущество диффузионного подхода -расширенный рабочий диапазон возрастов, устойчивость к окклюзиям и экстремальным позам. MyTimeMachine (2024) реализует персонализированную возрастную трансформацию поверх SAM с identity-similarity 0,67 (улучшение на 11,7 % над FADING). AgeBooth (2025) использует возраст-специфические LoRA-адаптеры и SVDMix для интерполяции промежуточных возрастов.

Метод DEFOG (Zhu et al., 2025) [12, с. 1345] представляет собой дискриминативную архитектуру на основе модифицированной R-ResNet-50 с двойным вниманием (Channel и Spatial Attention, организованным по схеме CBAM) и ArcFace-функцией потерь. Детектор лиц - RetinaFace; активация PReLU. На FG-NET DEFOG достигает 91,3 % Rank-1, превосходя классические HFA (91,14 %) и LF-CNN (88,1 %), но уступая MTLFace в режиме leave-one-out.

Сводное сравнение методов

В таблице 1 приведены ключевые характеристики и точностные показатели рассмотренных алгоритмов. Прочерк означает, что соответствующая метрика не сообщалась авторами либо не применима к данному типу метода.

Таблица 1.

Сравнение методов распознавания лиц с учётом возрастных изменений

Метод	Год	Тип	MORPH-2 R-1, %	CACD-VS, %	AgeDB-30, %	CALFW, %	FG-NET R-1, %	LFW, %
FaceNet	2015	CNN, triplet	—	—	—	—	—	99,63
CosFace	2018	CNN, LMCL	—	—	≈ 95,8	≈ 95,0	—	99,73
ArcFace	2019	CNN, AAML	—	≈ 99,5	98,28	95,45	—	99,83
OE-CNN	2018	CNN + орт. декомп.	98,55	99,20	—	—	52,67	99,47
DAL	2019	CNN + BCCA-adv.	98,93	99,40	—	—	94,50	99,47
MTLFace	2021	CNN + AFD + ICM	99,78	99,55	96,23	95,62	94,78	99,52
AIFEN	2022	CNN + ECA	—	99,63	≈ 98,0	≈ 96,0	—	≈ 99,7
Id-Age Shared	2024	Hybrid Trans.	—	—	97,53	—	—	—
T2T-ViT + MSAD	2024	Hybrid	—	99,51	—	95,81	94,97	—
TransFace-L	2023	Pure ViT	—	—	98,00	—	—	99,85
FaceLiVT	2025	Hybrid	—	—	95,6	—	—	99,6
DEFOG	2025	CNN + Dual Attn.	—	—	—	91,6	91,3	—
CAAE	2017	GAN (синтез)	—	—	—	—	—	91,53*
IPCGAN	2018	GAN (синтез)	—	—	—	—	—	96,90*
LATS	2020	GAN (синтез)	—	—	—	—	—	—
SAM	2021	GAN (синтез)	—	—	—	—	—	—
FADING	2023	Diffusion	—	—	—	—	—	—
AT-GAN	2025	GAN+attn (синтез)	—	—	—	—	—	—

* Для генеративных методов в столбце LFW приведена identity-verification-rate синтезированного и реального изображения (пользовательская оценка).

Анализ таблицы 1 позволяет сделать несколько системных наблюдений. Во-первых, прирост точности от FaceNet (2015) к MTLFace (2021) на специализированных бенчмарках составляет 1,0 - 3,5 процентных пункта при значительном усложнении архитектуры. Во-вторых, переход к трансформерным архитектурам (TransFace, T2T-ViT) пока не обеспечивает радикального превосходства над оптимизированными CNN. В-третьих, методы 2024 - 2025 гг. (DEFOG, AT-GAN) ориентированы преимущественно на прикладные сценарии (реставрация, поиск пропавших) и валидированы на нестандартных подмножествах данных, что затрудняет прямое сопоставление.

Эталонные наборы данных и метрики оценки

Сопоставимость результатов разных методов критически зависит от выбора эталонных наборов. Основные характеристики стандартных датасетов сведены в таблице 2.

Таблица 2.

Эталонные наборы для распознавания лиц с учётом возрастных изменений

Набор	Год	Изобр.	Субъекты	Возр. диапазон, лет	Δ возр., лет	Особенности
MORPH Album 2	2006	55 134	≈ 13 000	16–77	≈ 5	дисбаланс пола и расы
MORPH Extended	—	78 000	20 000	16–77	≈ 5	расширенная версия
FG-NET	2002	1 002	82	0–69	большой	сканированные фото
CACD	2014	163 446	2 000	16–62	средний	шумные метки
CACD-VS	2014	4 000 пар	—	16–62	≥ 10	2000 pos + 2000 neg
AgeDB-30	2017	6 000 пар	568	3–101	30 (фикс.)	ручная разметка
CALFW	2017	6 000 пар	4 025	взрослые	≥ 10	LFW-совместимый протокол
FFHQ-Aging	2020	70 000	—	0–70+	—	10 классов
IMDB-WIKI	2015	≈ 523 000	—	0–100	—	предобучение DEX
UTKFace	2017	≈ 23 700	—	0–116	—	aligned, in-the-wild

База MORPH Album 2, разработанная Face Aging Group Университета Северной Каролины [13, с. 343], долгое время являлась стандартом задачи распознавания лиц с учётом возраста. Её принципиальные ограничения -малый средний возрастной разрыв между парами одной идентичности (около 5 лет, существенно ниже целевых 20 - 30 лет долгосрочной идентификации) и выраженный дисбаланс по полу (M:F ≈ 5,5:1) и этничности (около 77 % афроамериканцев). Это приводит к завышенной оценке точности методов на MORPH и слабой переносимости результатов на реальные сценарии.

База FG-NET содержит лишь 1002 изображения 82 субъектов, что не позволяет достичь статистической значимости результатов, однако сохраняет ценность благодаря широкому возрастному диапазону (0 - 69 лет) и возможности тестирования сценариев «детство–взрослый». Стандартными протоколами FG-NET являются leave-one-image-out и MegaFace Challenge 1/2.

CACD обеспечивает большой объём (163 446 изображений), но страдает от шумных меток вследствие автоматизированного сбора через поисковые системы; ручной верификации подвергались только топ - 5 результатов на знаменитость. Подмножество CACD-VS (4000 пар) используется для верификационного бенчмарка с 10-фолдовой кросс-валидацией.

AgeDB-30 [14, с. 1999] - наиболее «чистый» набор: 16 488 вручную аннотированных изображений 568 знаменитостей с фиксированным возрастным разрывом 30 лет в верификационных парах. Это делает AgeDB-30 наиболее адекватным бенчмарком для оценки методов в режиме долгосрочной идентификации. CALFW организован по протоколу LFW (6000 пар, 10 фолдов) с подбором положительных пар по максимальному возрастному разрыву.

Метрики оценки разделяются на верификационные (точность 10-фолдовой верификации, TAR@FAR при FAR ∈ {10⁻³, 10⁻⁴, 10⁻⁶}, ROC AUC), идентификационные (Rank-1, Rank-5, CMC-кривая), генеративные (FID, identity-preservation rate, age estimation MAE) и качественные (PSNR, SSIM, LPIPS для оценки фотореализма синтеза).

Принципиальная проблема, отмечаемая в обзорах [19, с. 985; 20] и подтверждаемая собственными результатами авторов рассмотренных работ, состоит в насыщении стандартных протоколов: на LFW и AgeDB-30 современные методы достигают 99,5 - 99,85 %, что соответствует 10 - 30 ошибкам на 6000 пар и попадает в диапазон погрешности разметки. Дальнейшее совершенствование методов требует разработки более сложных бенчмарков с большими возрастными разрывами, контролируемой биологической вариативностью и долгосрочной продольной структурой.

Открытые проблемы и направления исследований

Систематический сравнительный анализ выявляет ряд нерешённых проблем, определяющих перспективные направления исследований.

Первая проблема - учёт биологических аспектов старения. Существующие методы рассматривают возраст как абстрактную метку или категориальную переменную, игнорируя физиологические детерминанты старения: скорость биологического старения, обусловленную генетическими и средовыми факторами, гендерные и этнические различия в траектории старения, влияние внешних факторов (курение, инсоляция, заболевания). Учёт биологических процессов через моделирование скрытых факторов хронологического и биологического возраста, а также через введение биологически-осмысленных регуляризаторов открывает возможности повышения долгосрочной идентификационной точности и интерпретируемости моделей.

Вторая проблема - большие возрастные разрывы. При Δa > 30 лет точность даже лучших современных методов на FG-NET MF1 не превышает 60 % Rank-1 [5, с. 3533]. Особенно критичен сценарий «детство - взрослый возраст», в котором происходят масштабные морфологические перестройки. Перспективные направления - комбинация генеративных моделей (FADING, MyTimeMachine) для возрастной нормализации и дискриминативных моделей с биологически-осмысленной декомпозицией; долгосрочные продольные исследования с расширением FG-NET-подобных наборов.

Третья проблема - ограничения эталонных наборов: малый средний возрастной разрыв в MORPH, малый объём FG-NET, шумные метки CACD, насыщение AgeDB-30 и LFW. Требуется создание новых наборов с продольной структурой, контролируемыми условиями съёмки и метаданными о состоянии здоровья и образе жизни субъектов.

Четвёртая проблема - соотношение точности генеративных и дискриминативных методов. Возрастной синтез как промежуточный шаг для распознавания (data augmentation, normalization) пока не даёт стабильного прироста точности из-за артефактов и потери идентификационной согласованности. Совместная мультизадачная оптимизация (MTLFace, AT-GAN) - наиболее перспективное направление.

Пятая проблема - переход к трансформерным и диффузионным архитектурам в условиях ограниченных размеченных данных. Требуются методы предобучения на крупных немаркированных наборах, эффективные стратегии аугментации (DPAP, EHSM) и гибридные CNN+Transformer-архитектуры с уменьшенным числом параметров.

Заключение

Проведённый сравнительный анализ показал, что современная парадигма распознавания лиц с учётом возрастных изменений основана на сочетании угловых маржинальных функций потерь (ArcFace, CosFace) с механизмами декомпозиции признаков на возрастной и идентификационный компоненты -ортогональной (OE-CNN), линейной с состязательной декорреляцией (DAL) или attention-based на картах признаков (MTLFace). Эта линия обеспечила прирост верификационной точности с 95–96 % (FaceNet, 2015) до 99,5–99,78 % на CACD-VS и MORPH Album 2, а также 96–97,5 % на AgeDB-30. Генеративные модели (CAAE → IPCGAN → HRFAE → LATS → SAM) развивались параллельно, повышая разрешение синтеза с 128×128 до 1024×1024 и расширяя возрастной диапазон от взрослого населения до полной продолжительности жизни. Трансформерные и гибридные методы (TransFace, T2T-DAL, FaceLiVT) пока не дают радикального прироста точности на специализированных бенчмарках вследствие ограниченного объёма размеченных кросс-возрастных данных и отсутствия индуктивных смещений к локальным текстурным признакам. Диффузионные модели (FADING, MyTimeMachine, AgeBooth) и недавние специализированные разработки (AT-GAN, DEFOG) обозначают переход к биологически и контекстно осмысленным подходам.

Принципиальные ограничения долгосрочной идентификации связаны с большими возрастными разрывами (Δa > 30 лет), сценарием «детство–взрослый», насыщением стандартных бенчмарков и недостаточным учётом биологических детерминант старения. Дальнейшее развитие направления требует разработки методов, явно моделирующих биологические процессы старения, создания продольных наборов с расширенной возрастной вариативностью и интеграции дискриминативных и генеративных подходов в единые мультизадачные фреймворки.

Список литературы:

Schroff F. FaceNet: A Unified Embedding for Face Recognition and Clustering / F. Schroff, D. Kalenichenko, J. Philbin // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. -2015. -P. 815–823.
CosFace: Large Margin Cosine Loss for Deep Face Recognition / H. Wang, Y. Wang, Z. Zhou [и др.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. -2018. -P. 5265–5274.
ArcFace: Additive Angular Margin Loss for Deep Face Recognition / J. Deng, J. Guo, N. Xue, S. Zafeiriou // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. -2019. -P. 4690–4699.
Orthogonal Deep Features Decomposition for Age-Invariant Face Recognition / Y. Wang, D. Gong, Z. Zhou [и др.] // Lecture Notes in Computer Science. -2018. -Vol. 11220. -P. 738–753.
Decorrelated Adversarial Learning for Age-Invariant Face Recognition / H. Wang, D. Gong, Z. Li, W. Liu // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. -2019. -P. 3527–3536.
Huang Z. When Age-Invariant Face Recognition Meets Face Age Synthesis: A Multi-Task Learning Framework / Z. Huang, J. Zhang, H. Shan // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. -2021. -P. 7282–7291.
Zhang Z. Age Progression/Regression by Conditional Adversarial Autoencoder / Z. Zhang, Y. Song, H. Qi // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. -2017. -P. 5810–5818.
Face Aging with Identity-Preserved Conditional Generative Adversarial Networks / Z. Wang, X. Tang, W. Luo, S. Gao // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. -2018. -P. 7939–7947.
High Resolution Face Age Editing / X. Yao, G. Puy, A. Newson [и др.] // Proceedings of the 25th International Conference on Pattern Recognition. -2020. -P. 8624–8631.
Lifespan Age Transformation Synthesis / R. Or-El, S. Sengupta, O. Fried [и др.] // Lecture Notes in Computer Science. -2020. -Vol. 12352. -P. 739–755.
Chen G. A research on cross-age facial recognition technology based on AT-GAN / G. Chen, X. Peng, R. Xu // PLOS ONE. -2025. -Vol. 20, № 5. -Article e0322280.
DEFOG: Deep Learning with Attention Mechanism Enabled Cross-Age Face Recognition / B. Zhu, L. Li, X. Hu [и др.] // Tsinghua Science and Technology. -2025. -Vol. 30, № 3. -P. 1342–1358.
Ricanek K. MORPH: A Longitudinal Image Database of Normal Adult Age-Progression / K. Ricanek, T. Tesafaye // Proceedings of the 7th IEEE International Conference on Automatic Face and Gesture Recognition. -Southampton, UK, 2006. -P. 341–345.
AgeDB: The First Manually Collected, In-the-Wild Age Database / S. Moschoglou, A. Papaioannou, C. Sagonas [и др.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. -2017. -P. 1997–2005.
Zhang J. Cross-age face recognition based on identity-age shared features / J. Zhang, S. Yin, L. Cao // The Visual Computer. -2024. -Vol. 40. -P. 5465–5474.
Transformer for Age-Invariant Face Recognition / C. Liu, L. Cao, Y. Jin [и др.] // Laser & Optoelectronics Progress. -2023. -Vol. 60, № 10. -Article 1010019.
Al-Haeer Z. M. Enhancing Cross-Age Facial Recognition with T2T-ViT Networks and Multi-Scale Attention Decomposition / Z. M. Al-Haeer, L. Mengxia // Journal of Engineering Sciences and Information Technology. -2024. -Vol. 8, № 2. -P. 38–50.
Chen X. Face Aging via Diffusion-based Editing / X. Chen, S. Lathuilière // Proceedings of the British Machine Vision Conference. -2023. -Paper 0595. -13 p.
Sawant M. M. Age invariant face recognition: a survey on facial aging databases, techniques and effect of aging / M. M. Sawant, K. M. Bhurchandi // Artificial Intelligence Review. -2019. -Vol. 52, № 2. -P. 981–1008.
Age transformation based on deep learning: a survey / B. Hu, K. Guo, S. Ren, H. Fang // Expert Systems with Applications. -2025. -Vol. 270. -Article 125847.
Соколова А. Д. Открытая идентификация лиц с автоматическим выявлением изображений, не относящихся к обучающему распределению / А. Д. Соколова, А. В. Савченко. Компьютерная оптика. -2022. -Т. 46, № 5. -С. 801–807.
TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Perspective / J. Dan, Y. Liu, H. Xie [и др.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. -2023. -P. 20642–20653.

Проголосовать за статью

Дипломы участников

У данной статьи нет
дипломов