Поздравляем с Новым Годом!
   
Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: LXXXIII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 14 ноября 2019 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Соболь А.В. ПРЕИМУЩЕСТВА РЕШЕНИЯ ЗАДАЧИ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ МЕТОДАМИ МОНТЕ-КАРЛО // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LXXXIII междунар. студ. науч.-практ. конф. № 11(82). URL: https://sibac.info/archive/technic/11(82).pdf (дата обращения: 25.12.2024)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

ПРЕИМУЩЕСТВА РЕШЕНИЯ ЗАДАЧИ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ МЕТОДАМИ МОНТЕ-КАРЛО

Соболь Андрей Владимирович

магистрант, кафедра Программного обеспечения информационных технологий, Белорусский государственный университет информатики и радиоэлектроники,

Беларусь, г. Минск

Волорова Наталья Алексеевна

научный руководитель,

зав. кафедры Информатики, канд. техн. наук, доцент Белорусский государственный университет информатики и радиоэлектроники,

Беларусь, г. Минск

ADVANTAGES OF SOLVING REINFORCEMENT LEARNING PROBLEM BY MONTE CARLO METHODS

 

Andrei Sobal

bachelor, department of Information technology software, Belarusian State University of Informatics and Radioelectronics,

Minsk, Belarus

Natalia Volorova

candidate of Science, Head of Informatics department, assistant professor of Belarusian State University of Informatics and Radioelectronics,

Minsk, Belarus

 

АННОТАЦИЯ

Цель статьи заключается в рассмотрении возможностей решения задачи обучения с подкреплением методами Монте-Карло, преимуществ и особенностей данного вида решений в сравнение с решением аналогичной задачи методами динамического программирования.

ABSTRACT

The purpose of the article is to consider the possibilities of reinforcement learning problem with Monte Carlo methods, the advantages and features of this type of solutions in comparison with the solution of a similar problem by dynamic programming methods.

 

Ключевые слова: Обучение с подкреплением, агент, функция ценности, Монте-Карло, динамическое программирование.

Keywords: Reinforcement learning, agent, value function, Monte Carlo, dynamic programming.

 

Задача обучения с подкреплением (RL) является линейным развитием задачи обучения па основе взаимодействия для достижения поставленной цели. Обучающийся и принимающий решения здесь называется агентом. Совокупность всех объектов, находящихся вне агента, с которыми этот агент взаимодействует, обозначается термином окружающая среда. Такое взаимодействие происходит постоянно: агент выбирает действия, окружающая среда реагирует на них, создавая новые ситуации для агента. Окружающая среда также является источником вознаграждений – особых численных значений, которые агент постоянно пытается увеличить. Полное описание характеристик окружающей среды определяет задание, один конкретный вариант задачи обучения с подкреплением.

На каждом временном шаге t = 0,1,2,3 агент получает некоторое описание состояния окружающей среды , где  – множество возможных состояний, и на основании этого описания выбирает действие , где  – множество действий, возможных в состоянии . На следующем временном шаге, отчасти как результат предпринятого действия, агент получает числовое вознаграждение   и оказывается в новом состоянии .

На каждом временном шаге агент осуществляет отображение из множества состояний на множество вероятностей выбора каждого из возможных действий. Это отображение называется стратегией агента и обозначается ,  где  – вероятность того, что , если . Методы обучения с подкреплением определяют, как агент меняет свою стратегию в зависимости от имеющегося опыта. Упрощенно говоря, целью агента является максимизация суммы всех вознаграждений, которую он получит в долгосрочной перспективе.

Методы Монте-Карло

Методы Монте-Карло формируют функции ценности и оптимальные стратегии, используя опытные данные в форме совокупности эпизодов. Это дает, по крайней мере, три вида преимуществ по сравнению с методами динамического программирования.

Во-первых, методы Монте-Карло могут применяться для выработки оптимального поведения непосредственно из взаимодействия с окружающей средой, при этом не требуется знания модели динамики окружающей среды.

Во-вторых, эти методы можно использовать в сочетании с методами моделирования, позволяющими получить смоделированные совокупности эпизодов. Оказывается, в большинстве случаев можно легко смоделировать требуемую совокупность эпизодов, даже если трудно получить явную модель вероятностей подходов, которая требуется методам динамического программирования.

В-третьих, методы Монте-Карло могут легко и эффективно фокусироваться на небольшом подмножестве состояний. В этом случае можно точно оценить небольшую область, представляющую интерес, не затрачивая ресурсов на точную оценку остального множества.

Четвертым преимуществом методов Монте-Карло является их меньшая чувствительность к нарушению марковского свойства. Это является следствием того, что в методах Монте-Карло при корректировке значений ценности состояний не используются значения ценности последующих состояний. Другими словами, методы Монте-Карло не используют самонастройку.

Конструирование МК-методов управления осуществлялось согласно полной схеме обобщенной итерации по стратегиям (ОИС), которая включает в себя взаимодействующие процессы оценки и улучшения стратегии. Методы Монте-Карло предлагают альтернативный процесс оценивания стратегии. Вместо того чтобы пользоваться моделью при вычислении ценности каждого состояния, они просто усредняют множество выгод, ставших следствием данного состояния. Так как ценностью состояния является ожидаемая выгода, такое усреднение может дать хорошее приближение к истинной ценности. В методах управления особый интерес представляют аппроксимирующие функции ценности действия, так как они могут быть использованы для улучшения стратегии при отсутствии модели динамики переходов в окружающей среде. Методы Монте-Карло чередуют шаги по оцениванию и улучшению стратегии на поэпизодной основе, они могут быть реализованы пошаговым образом, эпизод за эпизодом.

Поддержание достаточного уровня изучения представляет собой важную проблему для МК-методов управления. Недостаточно просто выбирать действия, считающиеся лучшими на данный момент, гак как в этом случае будут неизвестны выгода для альтернативных действий, а более выгодные действия могут так и остаться неизученными. Согласно одному из подходов, можно пренебречь данной проблемой, полагая, что эпизоды начинаются парами состояние-действие, выбираемыми произвольным образом и охватывающими все возможности. Такого типа изучающие старты могут использоваться в задачах, в которых эпизоды смоделированы, но они маловероятны в обучении на основе реального опыта. Вместо этого можно использовать один из двух подходов общего вила. В управлении по методу Монте-Карло с интегрированной оценкой ценности стратегий агент постоянно осуществляет действия исследовательского характера и пытается найти наилучшую стратегию, которая будет продолжать эти действия. В управлении по методу Монте-Карло с разделенной оценкой ценности стратегий агент также выполняет исследовательские действия, но вырабатывает детерминированную оптимальную стратегию, которая может быть не связана с текущей стратегией.

Свойства сходимости методов Монте-Карло для обучения с подкреплением пока не ясны, и их практическая эффективность мало исследована. В настоящий момент основным их преимуществом является простота, а также их взаимосвязь с другими методами.

Методы Монте-Карло от методов динамического программирования отличаются в двух отношениях. Во-первых, они оперируют с непосредственно получаемыми опытными данными, в силу чего могут применяться для непосредственного обучения без использования модели. Во-вторых, в них не производится самонастройка, т. е. они не корректируют значения ценности, основываясь на каких-то других значениях ценности. Эти два различия не связаны друг с другом неразрывно, так что их можно разделить.

 

Список литературы:

  1. J. Schaeffer, M. Hlynka, and V. Jussila, «Temporal difference learning applied to a high-performance game-playing program», in Proceedings of the 17th international joint conference on Artificial intelligence-Volume 1. Morgan Kaufmann Publishers Inc., 2001, p. 529–534.
  2. Shelton, Christian Robert. «Importance sampling for reinforcement learning with multiple objectives» (2001).
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий