Статья опубликована в рамках: XCV Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 26 января 2026 г.)
Наука: Информационные технологии
Секция: Системный анализ, управление и обработка информации
Скачать книгу(-и): Сборник статей конференции
дипломов
СРАВНИТЕЛЬНЫЙ АНАЛИЗ ОПТИМИЗАТОРОВ ПРИ ОБУЧЕНИИ НЕЙРОННЫХ СЕТЕЙ
Введение. Нейронные сети в настоящее время являются востребованными алгоритмами машинного обучения, которые постоянно совершенствуются. Их широкое применение в различных отраслях привело к появлению множества задач, для которых характерны различные формулировки и типы входных данных. В качестве примеров можно привести идентификацию изображений, синтаксический анализ текста и медицинскую диагностику [1] и др. Продолжающаяся разработка и усовершенствование алгоритмов нейронных сетей, каждый из которых обладает отличными характеристиками и деталями реализации, ставит перед нами сложную задачу: определить оптимальный метод минимизации функции ошибки для достижения наилучших возможных результатов для данной задачи.
Эффективность обучения в решающей степени зависит от выбора алгоритма оптимизации – математического метода, который определяет, как именно будут корректироваться весовые коэффициенты сети на каждой итерации. Идеальный оптимизатор должен не просто минимизировать функцию потерь на обучающих данных, но и обеспечивать быструю сходимость к хорошему решению, избегать попадания в локальные минимумы и плоские плато, демонстрировать устойчивость к выбору начальных гиперпараметров и, что наиболее важно, обеспечивать хорошую обобщающую способность модели на новых, ранее не встречавшихся данных [8, 11].
Исторически развитие методов оптимизации для нейронных сетей прошло несколько ключевых этапов: от классического градиентного спуска к стохастическим методам к адаптивным алгоритмам, которые автоматически настраивают скорость обучения для каждого параметра индивидуально. Каждый новый метод решал определенные проблемы предшественников, но при этом часто вносил новые компромиссы и ограничения. Сегодня исследователи и практики сталкиваются с парадоксальной ситуацией: при обилии доступных оптимизаторов не существует универсального решения, оптимального для всех задач и условий.
Цель исследования — провести сравнительный анализ методов оптимизации, применяемых при обучении нейронных сетей, на основе синтеза теоретических основ и экспериментальных результатов.
Результаты и обсуждение. Обучение нейронных сетей в значительной степени зависит от методов оптимизации, которые имеют решающее значение для точной настройки параметров модели и минимизации функции потерь. Выбор подходящего оптимизатора - это многогранное решение, которое выходит за рамки простого определения скорости обучения. Подходящий оптимизатор также должен позволять модели эффективно обобщать различные наборы данных, устраняя такие проблемы, как переобучение (когда модель хорошо работает на обучающих данных, но плохо на новых) и попадание в ловушку локальных минимумов (неоптимальные решения).
Полный градиентный спуск (Batch Gradient Descent) представляет собой основополагающий метод, который вычисляет градиент функции потерь по всем обучающим примерам перед каждым обновлением параметров:
θt+1=θt−η∇θJ(θt), (1)
где θt – вектор параметров модели на итерации t, η – скорость обучения (learning rate), скалярный гиперпараметр, ∇θJ(θt) – градиент функции потерь, J относительно параметров θ, вычисленный по всей обучающей выборке, t – индекс текущей итерации.
Главное преимущество этого метода – гарантированная сходимость к локальному минимуму для выпуклых функций при достаточно малой скорости обучения. Однако, как отмечается в классической работе [4], метод становится практически неприменимым на современных больших наборах данных из-за необходимости вычисления градиента по всей выборке перед каждым обновлением, что требует непомерных вычислительных затрат.
Стохастический градиентный спуск (SGD) решает проблему масштабируемости путем вычисления градиента на отдельных примерах или небольших мини-батчах:
θt+1=θt−η∇θL(θt;xi,yi), (2)
где ∇θL(θt;xi,yi) – градиент функции потерь для отдельного обучающего примера (xi,yi).
Эта модификация позволяет обновлять параметры после обработки каждого мини-батча, что значительно ускоряет обучение на больших данных. Однако, как подробно анализируется в работе Кашириной и Азарновой [2], SGD вносит существенный шум в процесс оптимизации из-за высокой дисперсии оценок градиента.
Это проявляется в колебаниях функции потерь и замедлении сходимости вблизи минимума. Кроме того, метод крайне чувствителен к выбору скорости обучения η – слишком большое значение может привести к расходимости, слишком малое – к чрезмерно медленному обучению.
SGD с моментом (Momentum) представляет собой важное усовершенствование базового SGD, впервые предложенное в контексте обучения нейронных сетей [13]. Метод вводит понятие «инерции» в процесс обновления параметров:
vt=μvt−1+η∇θL(θt), θt+1=θt−vt, (3)
где vt – вектор скорости (velocity) на итерации t, аккумулирующий историю градиентов, μ – коэффициент момента (momentum), гиперпараметр в диапазоне (0, 1), обычно устанавливаемый в 0,9, η∇θL(θt) – градиентный шаг на текущей итерации.
Физическая аналогия помогает понять суть метода: представьте тяжелый шарик, катящийся по поверхности функции потерь. В местах с устойчивым уклоном (постоянным направлением градиента) шарик набирает скорость, что ускоряет движение к минимуму. В местах с изменяющимся уклоном (колебаниями градиента) инерция помогает сгладить траекторию.
Математически момент увеличивает скорость обновления в направлениях, где градиент сохраняет знак, и уменьшает в направлениях, где градиент меняется.
Это особенно полезно в овражных ландшафтах функций потерь, характерных для глубоких нейронных сетей.
Adagrad (Adaptive Gradient Algorithm) [6] представляет собой первый широко распространенный адаптивный метод, который индивидуально настраивает скорость обучения для каждого параметра модели:
θt+1=θt−Gt+ϵη⊙gt, (4)
где gt=∇θL(θt) — градиент на итерации t, Gt=∑τ=1tgτ⊙gτ — диагональная матрица, содержащая сумму квадратов исторических градиентов для каждого параметра, ⊙обозначает поэлементное умножение (произведение Адамара), ϵ — малая константа, предотвращающая деление на ноль.
Ключевая идея Adagrad заключается в следующем: параметры, которые часто обновляются с большими градиентами (характерные признаки), получают уменьшенную скорость обучения, тогда как параметры с редкими обновлениями (редкие признаки) сохраняют более высокую скорость обучения. Это особенно полезно для разреженных данных, таких как тексты, где разные слова встречаются с разной частотой.
Однако у метода есть существенный недостаток: знаменатель Gt монотонно растет в течение обучения, что приводит к чрезмерному уменьшению скорости обучения и возможной преждевременной остановке обучения.
RMSprop (Root Mean Square Propagation) был предложен как решение проблемы преждевременного уменьшения скорости обучения в Adagrad [18]. Метод использует экспоненциально затухающее скользящее среднее квадратов градиентов:
E[g2]t=ρE[g2]t−1+(1−ρ)gt2, (5)
где E[g2]t — оценка второго момента (нецентрированной дисперсии) градиента, ρ — коэффициент затухания (decay rate), обычно устанавливаемый в 0,9, gt2 обозначает поэлементный квадрат градиента gt⊙gt.
Использование экспоненциального скользящего среднего позволяет RMSprop «забывать» старые градиенты и адаптироваться к изменяющемуся характеру функции потерь в процессе обучения. Это решает проблему монотонного уменьшения скорости обучения и делает метод более гибким.
Adam (Adaptive Moment Estimation) [10] стал, пожалуй, самым популярным оптимизатором в современном глубоком обучении, объединив преимущества SGD с моментом и RMSprop:
mt=β1mt−1+(1−β1)gt, vt=β2vt−1+(1−β2)gt2, (5)
где mt и vt — оценки первого (среднего) и второго (нецентрированной дисперсии) моментов градиента, β1 и β2 — гиперпараметры затухания для моментов, обычно устанавливаемые в 0.9 и 0.999 соответственно. Механизм коррекции смещения является важной инновацией Adam.
В начале обучения, когда t мало, оценки mt и vt смещены в сторону нуля, так как они инициализируются нулями. Adam сочетает адаптивность RMSprop (индивидуальная настройка скорости обучения через vt) с инерцией момента (через mt), что делает его устойчивым к выбору гиперпараметров и эффективным на широком классе задач.
Эксперименты на классическом наборе MNIST демонстрируют различные паттерны эффективности оптимизаторов. На основе экспериментальных данных, представленных в исследовании W. Semmar [16], можно проследить чёткую динамику эффективности различных оптимизаторов в течение десяти эпох обучения.
На первой эпохе адаптивные методы демонстрируют значительное преимущество. Adam достигает точности 0.9777 при потерях 0.0672, а RMSprop показывает схожий результат — точность 0.9781 при потерях 0.0710. SGD с моментом начинает с более скромных показателей (точность 0.9620, потери 0.1269), в то время как базовый SGD отстаёт ещё сильнее (точность 0.9131, потери 0.3046). Adagrad показывает наихудший старт с точностью всего 0.8460 и высокими потерями 0.7520, что свидетельствует о проблемах с начальной сходимостью данного алгоритма.
К пятой эпохе ситуация существенно улучшается для всех методов, но ранговое распределение сохраняется. Adam лидирует с точностью 0.9869 и потерями 0.0400, немного опережая RMSprop (точность 0.9849, потери 0.0449) и SGD с моментом (точность 0.9842, потери 0.0463). Классический SGD достигает точности 0.9565, а Adagrad остаётся аутсайдером с показателем 0.9127.
По завершении десяти эпох Adam показывает наивысшую итоговую точность — 0.9893 при потерях 0.0355. RMSprop демонстрирует минимальные потери среди всех методов (0.0341) при высокой точности 0.9889. SGD с моментом сохраняет конкурентоспособность с точностью 0.9877 и потерями 0.0355.
Базовый SGD улучшает свой результат до 0.9692, но существенно уступает более совершенным методам. Adagrad, несмотря на прогресс, завершает обучение с наименьшей точностью 0.9258 и наибольшими потерями 0.2579. Экспериментальные данные наглядно показывают, что адаптивные методы оптимизации, особенно Adam и RMSprop, обеспечивают более быструю сходимость и лучшие итоговые результаты по сравнению с классическими подходами. Adagrad в данной конфигурации оказался наименее эффективным, а SGD с моментом представляет собой достойный компромиссный вариант, сочетающий относительную простоту с высокой эффективностью.
Быстрый старт Adam, отмеченный Кашириной и Демченко [3], является общепризнанным фактом и подтверждается мета-анализом Schmidt et al. [15], где Adam в среднем в 1,5-2 раза быстрее достигает промежуточных порогов точности. Однако эта начальная скорость не всегда конвертируется в лучший финальный результат. Универсально плохое поведение Adagrad, показанное в эксперименте на MNIST, также согласуется с современной литературой, где данный алгоритм считается устаревшим для большинства задач из-за агрессивного и монотонного уменьшения скорости обучения.
На эффективность оптимизаторов влияют характеристики данных и задачи. На малых датасетах адаптивные методы часто показывают лучшие результаты, тогда как на больших данных SGD с моментом демонстрирует лучшую обобщающую способность [20]. Для несбалансированных выборок адаптивные методы (Adagrad, Adam) могут быть более эффективны благодаря индивидуальной настройке скорости обучения для каждого параметра [3].
Для разреженных данных, характерных для задач NLP, Adagrad и его модификации часто оказываются более эффективными [14]. Архитектурные особенности моделей также играют важную роль. В очень глубоких сетях методы с адаптивной скоростью обучения могут помочь преодолеть проблемы исчезающих градиентов [7]. При использовании методов регуляризации (dropout, batch normalization) SGD с моментом часто показывает более стабильные результаты [9].
Для сверточных сетей (CNN) SGD с моментом часто превосходит адаптивные методы, тогда как для рекуррентных сетей (RNN) и трансформеров Adam обычно показывает лучшие результаты [19].
Вычислительные аспекты включают требования к памяти: адаптивные методы требуют хранения дополнительных статистик для каждого параметра, что увеличивает требования к памяти на 20-30% по сравнению с SGD [5]. Время сходимости: Adam обычно сходится быстрее на ранних этапах, но SGD с моментом может достигать лучших итоговых результатов при достаточно длительном обучении [12]. Чувствительность к гиперпараметрам: Adam менее чувствителен к выбору начальной скорости обучения, тогда как для SGD этот параметр критически важен [17].
Для исследовательских задач и прототипирования рекомендуется использовать Adam как метод по умолчанию благодаря его быстрой сходимости и меньшей чувствительности к начальным настройкам гиперпараметров. Для производственных систем, где важна максимальная точность и есть возможность длительного обучения с тщательной настройкой гиперпараметров, предпочтительнее SGD с моментом с правильно подобранным расписанием скорости обучения.
При работе с несбалансированными данными или в условиях очень глубоких архитектур адаптивные методы (Adam, RMSprop) могут показать преимущество. При ограниченных вычислительных ресурсах или необходимости быстрого получения приемлемых результатов адаптивные методы часто оказываются оптимальным выбором. Для задач NLP и работы с текстовыми данными Adam обычно показывает более стабильные результаты, чем SGD с моментом. Перспективными направлениями будущих исследований являются:
- разработка гибридных методов, сочетающих преимущества разных подходов;
- создание методов автоматического выбора и настройки оптимизаторов;
- исследование взаимодействия методов оптимизации с различными архитектурными инновациями в нейронных сетях;
- анализ влияния оптимизаторов на обобщающую способность моделей в условиях ограниченных данных;
- разработка специализированных оптимизаторов для конкретных типов задач и архитектура.
Заключение. Проведенный обзор показывает, что несмотря на значительный прогресс в разработке методов оптимизации для обучения нейронных сетей, не существует универсального решения, оптимального для всех задач и условий. Выбор оптимизатора должен осуществляться с учетом специфики задачи, характеристик данных, архитектуры модели и доступных вычислительных ресурсов.
Классические методы (SGD с моментом) продолжают оставаться актуальными для многих практических задач, особенно тех, где важна максимальная итоговая точность, тогда как адаптивные методы (Adam) завоевали популярность благодаря удобству использования и быстрой начальной сходимости. Российские исследования внесли значительный вклад в понимание поведения оптимизаторов на несбалансированных данных и в специфических прикладных областях.
Дальнейшее развитие методов оптимизации будет связано с созданием более интеллектуальных и адаптивных алгоритмов, способных автоматически настраиваться под конкретные условия задачи, что позволит сделать процесс обучения нейронных сетей более эффективным и доступным для широкого круга исследователей и практиков.
Список литературы:
- Демченко М. В., Каширина И. Л. Сравнительный анализ и оценка эффективности маркёров атеросклероза магистральных артерий // Актуальные проблемы прикладной математики, информатики и механики: Сб. тр. Международ. науч.-тех. конференции, Воронеж, 18-20 декабря 2017 г. – Воронеж. : Изд-во «Научно-исследовательские публикации», 2017. С. 636–643.
- Каширина И. Л., Азарнова Т. В. Нейросетевые и гибридные системы: учебно-методическое пособие для вузов. – Воронеж: Издательский дом ВГУ, 2014. 80 с.
- Каширина И. Л., Демченко М. В. Исследование и сравнительный анализ методов оптимизации, используемых при обучении нейронных сетей // Вестник ВГУ. Серия: Системный анализ и информационные технологии. 2018. №4. С. 123–132. DOI: 10.17308/sait.2018.4/1262.
- Bottou L. Large-Scale Machine Learning with Stochastic Gradient Descent // Proceedings of COMPSTAT'2010. 2010. P. 177–186. DOI: 10.1007/978-3-7908-2604-3_16.
- Chen J. et al. The Efficiency of Optimizers in Deep Learning // Journal of Machine Learning Research. 2020. Vol. 21. P. 1–32.
- Duchi J., Hazan E., Singer Y. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization // Journal of Machine Learning Research. 2011. Vol. 12. P. 2121–2159.
- Glorot X., Bengio Y. Understanding the difficulty of training deep feedforward neural networks // Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics. 2010. P. 249–256.
- Goodfellow I., Bengio Y., Courville A. Deep Learning / transl. from English. – Moscow: DMK Press, 2018. – 652 p.
- Ioffe S., Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift // International Conference on Machine Learning. 2015. P. 448–456.
- Kingma D. P., Ba J. Adam: A Method for Stochastic Optimization // arXiv preprint arXiv:1412.6980. 2014.
- LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. Nature 521, 436–444 (2015). https://doi.org/10.1038/nature14539
- Loshchilov I., Hutter F. SGDR: Stochastic Gradient Descent with Warm Restarts // arXiv preprint arXiv:1608.03983. 2016.
- Polyak B. T. Some methods of speeding up the convergence of iteration methods // USSR Computational Mathematics and Mathematical Physics. 1964. Vol. 4, No. 5. P. 1–17.
- Ruder S. An overview of gradient descent optimization algorithms // arXiv preprint arXiv:1609.04747. 2016.
- Schmidt R. M., Schneider F., Hennig P. Descending through a Crowded Valley – Benchmarking Deep Learning Optimizers // International Conference on Machine Learning. 2021. P. 9367–9376.
- Semmar W. Comparison of optimization methods for training neural networks // Information and Telecommunication Technologies and Mathematical Modeling of High-Tech Systems 2025 (ITTMM 2025), Moscow, April 07–11, 2025.
- Smith L. N. Cyclical Learning Rates for Training Neural Networks // IEEE Winter Conference on Applications of Computer Vision. 2017. P. 464–472. DOI: 10.1109/WACV.2017.58.
- Tieleman, Tijmen, и Geoffrey Hinton. «Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude» // COURSERA: Neural networks for machine learning, 4.2 (2012): 26–31.
- Vaswani A. et al. Attention Is All You Need // Advances in Neural Information Processing Systems. –2017. P. 5998–6008.
- Zhang C., Bengio S., Hardt M., Recht B., Vinyals O. Understanding deep learning requires rethinking generalization // arXiv preprint arXiv:1611.03530, 2016.
дипломов


Оставить комментарий