Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 5(175)

Рубрика журнала: Информационные технологии

Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4

Библиографическое описание:
Косырев Г.И. РЕКОМЕНДАТЕЛЬНАЯ СИСТЕМА, ОСНОВАННАЯ НА АРХИТЕКТУРЕ, АКТОР-КРИТИК // Студенческий: электрон. научн. журн. 2022. № 5(175). URL: https://sibac.info/journal/student/175/241338 (дата обращения: 30.11.2024).

РЕКОМЕНДАТЕЛЬНАЯ СИСТЕМА, ОСНОВАННАЯ НА АРХИТЕКТУРЕ, АКТОР-КРИТИК

Косырев Глеб Игоревич

студент, кафедра информатики и вычислительной техники, Московский государственный технологический университет «СТАНКИН»,

РФ, г. Москва

Пушкин Алексей Юрьевич

научный руководитель,

канд. техн. наук, Московский государственный технологический университет «СТАНКИН»,

РФ, г. Москва

АННОТАЦИЯ

В данной статье рассматривается способ применения и принципы построения рекомендательных систем с применением обучения с подкреплением.

 

Ключевые слова: рекомендательные системы; обучение с подкреплением; актор-критик.

 

В наши дни рекомендательные системы становятся важным компонентом любого сервиса, для электронной коммерции и социальных сетях они играют ключевую роль в развитии. Такие системы могут помочь пользователю найти объекты, которые он не смог бы найти иным образом, например, книгу, которая может его заинтересовать, но которая не очень популярна. Качественная рекомендательная система может полностью изменить подход пользователя к использованию сервиса.

Рекомендательные системы генерируют рекомендации посредством вычисления оценки релевантности некоторого количества объектов, на основе предпочтений пользователя. Данные предпочтения могут быть получены неявным или явным образом. Неявный способ получения предпочтений пользователя предполагает создание модели пользователя на основе действий, которые были им предприняты во время пользования сервисом. Например, открытие страницы объекта, время на странице объекта, вступление в сообщества внутри сервиса. Явный способ получения предпочтений пользователя подразумевает прямой запрос у пользователя предпочтений посредством интерфейса рекомендательной системы. Например, пользователя просят оценить насколько ему нравится тот или иной жанр книг.

В данной статье процедура генерации рекомендаций рассматривается как последовательность взаимодействий рекомендательной системы с пользователем, при этом используя техники обучения с подкреплением для вычисления оптимальной стратегии генерации рекомендаций. Рекомендательные системы, основанные на обучении с подкреплением (RL), имеют 2 ключевых преимущества перед другими системами. Во-первых, их обучение никогда не останавливается, поскольку их взаимодействие с пользователями подразумевает постоянное улучшение системы. Во-вторых, система не делает выводов о оценке релевантности сразу же, чем дольше пользователь взаимодействует с системой, тем точнее будет рекомендация.

В предлагаемой статьёй рекомендательной системе оценка релевантности объектов осуществляется на основе нескольких итераций взаимодействия пользователя с системой. Наиболее простые рекомендательные системы, основанные на RL, используют технику традиционного глубокого Q-learning для обучения моделей, вычисляющих оценки для отдельных объектов, используя только одно состояние среды. Традиционный глубокий Q-learning подходит для создания ИИ для игр на Atari, для которых пространство состояния велико, а пространство действий мало. Из этого следует, что такой подход не только ограничивает количество информации, которую получает система, но и уменьшает её точность по причине большого размера пространства возможных действий актора.

Актор получает на вход текущее состояние пользователя  и возвращает уровни релевантности для каждой из групп объектов, после чего выбирается K объектов с максимальной оценкой. Если система находится в процессе обучения, после этого вычисленные оценки и текущее состояние передаётся критику, который вычисляет Q-значение, которое определяет, подходят ли выбранные группы состоянию. Чем больше Q-значение, тем лучше были выбраны группы. После этого актор обновляет свои веса в соответствии с полученным Q-значением.

Пусть  – список из K последних положительных оценок пользователя, отсортированный в хронологическом порядке,. Актор сначала генерирует векторов весов, соответствующих N рекомендуемым объектам, .

где  функция с параметрами , осуществляющая преобразование. Предполагается, что для генерации весов будет использована искусственная нейронная сеть. Элементы  могут быть поданы на вход сети как сумма их эмбеддингов .

После этого актор перемножает каждый элемент  на эмбеддинги каждого из объектов пространства I. Из этого следует, что размер каждого вектора  должен быть равен размеру эмбеддингов e. Оценка релевантности для i-го объекта из I по k-ому вектору из :

После этого, для каждого k выбирается объект с максимальной оценкой. Каждый объект может быть выбран только один раз. Так формируется Top K рекомендация, а в терминах обучения с подкреплением формируется действие актора .

Как только вычисления завершены, пользователю предлагается оценить объекты, которые были ему порекомендованы.  обновляется, вычисляется вознаграждение , происходит обновление системы, цикл повторяется.

Критик оценивает, насколько выбранные Top K объекты соответствуют текущему состоянию. Обычно функция, которая оценивает, насколько правильным был выбор, вычисляет максимальное среднее вознаграждение при текущей политике посредством уравнения Беллмана:

Тем не менее, вычисление max для всего пространства действий актора А является затруднительным в контексте данной задачи. Поэтому примем следующее:

Такое допущение позволительно, поскольку алгоритм тренировки рекомендательной системы отличается от алгоритма тренировки обычного агента в обучении с подкреплением.

В данной статье была предложена модель рекомендательной системы, основанной на архитектуре, Актор-Критик. Данная система взаимодействует с пользователем посредством цикличного вывода рекомендаций и оценки объектов.

 

Список литературы:

  1. Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller. 2013. Playing atari with deep reinforcement learning. - https://arxiv.org/abs/1312.5602
  2. Timothy P Lillicrap, Jonathan J Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, and Daan Wierstra. 2015. Continuous control with deep reinforcement learning. - https://arxiv.org/abs/1509.02971
  3. Richard S Sutton and Andrew G Barto. 1998. Reinforcement learning: An introduction. -https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.