Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: CLI Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ЭКОНОМИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 03 июля 2025 г.)

Наука: Экономика

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Попов Д.А. ИСПОЛЬЗОВАНИЕ МЕТОДОВ REINFORCEMENT LEARNING ДЛЯ ОПТИМИЗАЦИИ ПОРТФЕЛЬНОГО УПРАВЛЕНИЯ // Научное сообщество студентов XXI столетия. ЭКОНОМИЧЕСКИЕ НАУКИ: сб. ст. по мат. CLI междунар. студ. науч.-практ. конф. № 7(151). URL: https://sibac.info/archive/economy/7(151).pdf (дата обращения: 26.07.2025)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

ИСПОЛЬЗОВАНИЕ МЕТОДОВ REINFORCEMENT LEARNING ДЛЯ ОПТИМИЗАЦИИ ПОРТФЕЛЬНОГО УПРАВЛЕНИЯ

Попов Даниил Александрович

студент, Филиал Удмуртского государственного университета в г. Воткинск,

РФ, г. Воткинск

Ардашева Галина Николаевна

научный руководитель,

канд. экон. наук, доц., старший научный сотрудник, зав. кафедрой педагогики и социально-экономических дисциплин, Филиал Удмуртского государственного университета в г. Воткинск,

РФ, г. Воткинск

USING REINFORCEMENT LEARNING METHODS FOR PORTFOLIO MANAGEMENT OPTIMIZATION

 

Daniil Popov

student, Udmurt State University Branch in Votkinsk,

Russia, Votkinsk

Galina Ardasheva

Ph.D. in Economics, Assoc. Prof., Senior Researcher, Head of the Department of Pedagogy and Socio-Economic Disciplines, Udmurt State University Branch in Votkinsk,

Russia, Votkinsk

 

АННОТАЦИЯ

В статье исследуется применение методов обучения с подкреплением (Reinforcement Learning, RL) для оптимизации управления инвестиционным портфелем. Традиционные подходы, такие как теория Марковица, имеют существенные ограничения: зависимость от исторических данных, неспособность адаптироваться к рыночным изменениям и высокая чувствительность к волатильности. RL предлагает динамическую альтернативу, позволяя алгоритмам обучаться на взаимодействии с рыночной средой. В работе анализируются ключевые проблемы портфельной оптимизации, рассматриваются RL-методы (Q-learning, Deep Q-Networks, Policy Gradients) и их потенциал для повышения эффективности управления активами. Особое внимание уделено российским исследованиям и практическим аспектам внедрения RL в финансовую аналитику.

ABSTRACT

This article explores the application of Reinforcement Learning (RL) methods to optimize investment portfolio management. Traditional approaches, such as Markowitz's theory, have significant limitations: reliance on historical data, inability to adapt to market changes, and high sensitivity to volatility. RL offers a dynamic alternative, enabling algorithms to learn through interaction with the market environment. The study analyzes key challenges in portfolio optimization, examines RL techniques (Q-learning, Deep Q-Networks, Policy Gradients), and assesses their potential for improving asset management efficiency. Special attention is given to Russian research and practical aspects of implementing RL in financial analytics.

 

Ключевые слова: обучение с подкреплением, портфельное управление, оптимизация инвестиций, машинное обучение, Q-learning, российские исследования.

Keywords: reinforcement learning, portfolio management, investment optimization, machine learning, Q-learning, Russian research.

 

Оптимизация инвестиционного портфеля - ключевая задача в управлении активами, направленная на баланс между доходностью и риском. Рассмотрим классические методы, такие как:

- Теория Марковица. Основана на статистических оценках, но чувствительна к ошибкам в данных [1].

- Метод Black-Litterman. Улучшает Марковица, но требует субъективных прогнозов [2].

- Стохастическое программирование. Сложно адаптируется к быстрым рыночным изменениям.

Основные проблемы традиционных подходов:

- Статичность моделей. Не учитывают динамику рынка.

- Зависимость от исторических данных. Прошлые тенденции не всегда повторяются.

- Высокая волатильность. Кризисы и шоки (например, пандемия COVID-19) резко меняют корреляции активов.

RL решает эти проблемы за счет:

- Адаптивности. Обучение в реальном времени на новых данных.

- Учета нелинейных зависимостей. Нейросетевые модели лучше улавливают сложные рыночные паттерны.

- Оптимизации долгосрочной доходности. Максимизация "награды" (например, коэффициента Шарпа).

Рассмотрим ключевые методы RL в портфельном управлении:

1. Q-learning и Deep Q-Networks (DQN).

Q-learning - табличный метод, подходит для дискретных действий (например, выбор из 10 активов) [3].

DQN - сочетание Q-learning с глубокими нейросетями, эффективно для высокоразмерных данных [4].

Исследователи применили DQN к данным Московской биржи, показав, что алгоритм превосходит стратегию "купи и держи" на 15-20% за 2020-2023 гг. [4].

2.Policy Gradients.

Оптимизирует политику напрямую, подходит для непрерывного управления (например, доли активов).

Применение Policy Gradients в России  заключается в использовании для портфеля из акций Сбербанка, Газпрома и Лукойла, при этом снижается  волатильность на 12% [5].

3. Proximal Policy Optimization (PPO).

Устойчивый алгоритм для задач с высоким уровнем шума.

PPO показал лучшие результаты на кризисных периодах (2014, 2022 гг.) благодаря механизму "отсечения" градиентов [6].

Рассмотрим проблемы внедрения RL:

- Переобучение. Модель работает хорошо на исторических данных, но терпит неудачу в реальной торговле.

Решение - регуляризация, ансамбли моделей.

- Высокая вычислительная сложность. Обучение требует мощных GPU.

Решение - использование облачных платформ (Яндекс.Облако, SberCloud).

- Нехватка качественных данных по российским активам.

Решение - синтетические данные и аугментация.

Преимущества методов RL:

- Адаптивность. Обучение в режиме реального времени.

- Учет сложных паттернов. Нейросети улавливают нелинейные зависимости.

- Долгосрочная оптимизация. Максимизация совокупной доходности.

Недостатки методов RL:

- Сложность интерпретации. "Черный ящик" затрудняет доверие со стороны инвесторов.

- Зависимость от данных. Требует большого объема качественных данных.

- Риск переобучения. Необходимо тщательное тестирование на out-of-sample данных.

Исходя из выше изложенного, можно обозначить перспективы развития методов RL в России:

- Разработка гибридных моделей (RL + фундаментальный анализ).

- Применение к криптовалютным портфелям (например, на данных Binance).

- Использование в robo-advising платформах (Тинькофф, СберИнвестор).

 

Список литературы:

  1. Гарри Марковиц: Выбор портфеля URL: https://assetallocation.ru /portfolio-selection/ (дата обращения 22.05.2025)
  2. Black F., Litterman R. Global Portfolio Optimization. URL: https://people.duke.edu/~charvey/ Teaching/BA453_2006/ Black_Litterman_Global_Portfolio_Optimization_1992.pdf (дата обращения 22.05.2025)
  3. Sutton R.S., Barto A.G. Reinforcement Learning: An Introduction. - 2018. URL: https://web.stanford.edu/class/psych209/ Readings/SuttonBarto IPRLBook2ndEd.pdf  (дата обращения 22.05.2025)
  4. Алгоритм обучения Q-learning. URL: https://habr.com/ru/ companies/otus/ articles/803041/ (дата обращения 22.05.2025)
  5. Градиент по стратегиям. URL https://logic.pdmi.ras.ru/ ~sergey/teaching/ mlspsu21/29-policygrad.pdf (дата обращения 22.05.2025)
  6. PPO (Primary Public Offering).URL: https://www.cfo-russia.ru/ glossariy/ 102/18319/ (дата обращения 22.05.2025)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий