Статья опубликована в рамках: LXXXIII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 14 ноября 2019 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ОБЗОР УЛУЧШЕНИЙ МЕТОДА Q-ОБУЧЕНИЯ
Одним из основных алгоритмов обучения с подкреплением является Q-обучение. Q-обучение ставит своей целью выучить стратегию, которая говорит агенту какое действие оптимально в каждом конкретном состоянии среды. Алгоритм не требует задания модели среды и может работать в средах со стохастическими переходами и функциями награды.
К известным недостаткам алгоритма Q-обучения относится его нестабильность в некоторых задачах. Также в сложных средах для достижения хороших результатов требуется очень много обучающих данных. В последнее время было предложено много различных улучшения алгоритма Q-обучения, которые ставят своей целью решить эти и другие проблемы. Рассмотрим несколько самых эффективных из них.
1. Двойное Q-обучение. Параметры нейросети в глубоком Q-обучении оптимизируются стохастическим градиентным спуском, минимизируя функцию потерь:
(1)
В работе (van Hasselt 2010) показано, что из-за применения операции максимизации в уравнении (1) оценка Q-функции почти всегда является смещённой. Предложенный в данной работе подход позволяет частично избавиться от этой проблемы. Предлагается поддерживать рядом ещё одну нейросеть (target network), параметры в которую копируются из основной раз в несколько итераций. Вместо максимизации в уравнении (1) мы сначала выбираем действие с максимальным значением Q-функции, основываясь на данных из основной сети, но дальше используем значения Q-функции для этого действия из дополнительной сети. Это повышает стабильность обучения, а также позволяет улучшить результаты, полученные на датасете из игр Atari в несколько раз.
2. Приоретизированный буфер опыта. Буфер опыта (experience replay) значительно ускоряет обучение и улучшает его стабильность, позволяя обучаться на ранее виденных ситуациях. В обычном его варианте мы выбираем обучающее множество равновероятно среди всех его элементов. Очевидно, что на практике существует много “простых” ситуаций, для которых сеть выучила хорошую аппроксимацию Q-функции и некоторое количество “сложных”. В приоритезированном буфере опыта [2] мы выбираем каждый элемент в обучающее множество с вероятностью, пропорциональной значению функции потерь на этом элементе во время предыдущей итерации обучения. После того, как мы обновили параметры модели по элементам, выбранным в обучающее множество, значения функции потерь для этих элементов пересчитываются и они снова попадают в буфер опыта с новыми значениями функции потерь. При использовании такой процедуры обучающая выборка становится смещенной, что может существенно вредить обучению. Для борьбы с этой проблемой используется алгоритм Importance sampling.
3. Многошаговое Q-обучение. Обычное Q-обучение обновляет значение Q-функции на основе награды на данном шаге и Q-значения на следующем шаге для жадно выбранного наилучшего действия. Альтернативой этому подходу является использование аккумулированной награды за несколько шагов.
4. Dueling Deep Q-Learning
В обычном Q-обучении значение Q(s, a) показывает насколько выгодно находясь в состоянии s совершить действие a. Можно представить эту функцию в виде:
Значение функции V(s) является оценкой того, насколько хорошо находиться в состоянии s. А функцию A(s, a) в свою очередь является оценкой того, насколько хорошо совершить действие a находясь в состоянии s. В работе [3] предлагается обучать нейросеть с двумя головами, одна из которых предсказывает значение функции V, а другая – значения функции A для всего набора действий.
Значение функции Q(s, a) получается по формуле:
По результатам экспериментов в статье это позволяет значительно улучшить результаты алгоритма на датасете из игр Atari.
Предложенные методы улучшения алгоритма Q-обучения позволяют ускорить обучение и увеличить стабильность получаемых результатов.
Список литературы:
- Hado V. Hasselt. Double Q-learning [Электронный ресурс] // Advances in Neural Information Processing Systems 23 – Режим доступа: https://papers.nips.cc/paper/3964-double-q-learning.pdf. – Дата обращения: 01.10.2019.
- Experience Replay [Электронный ресурс] // Arxiv. – Режим доступа: https://arxiv.org/abs/1511.05952. – Дата обращения: 01.10.2019.
- Dueling Network Architectures for Deep Reinforcement Learning [Электронный ресурс] // Arxiv. – Режим доступа: https://arxiv.org/abs/1511.06581. – Дата обращения: 01.10.2019.
дипломов
Оставить комментарий