Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: Научного журнала «Студенческий» № 14(310)

Рубрика журнала: Экономика

Библиографическое описание:
Ануарбеков А.Ж. RAPTOR (RISK-AWARE PORTFOLIO TRAINING AND OPTIMIZATION REGIME): ОБЩИЙ МНОГОЦЕЛЕВОЙ ПОДХОД К УПРАВЛЕНИЮ ПОРТФЕЛЕМ С КОНТРОЛЕМ РИСКА // Студенческий: электрон. научн. журн. 2025. № 14(310). URL: https://sibac.info/journal/student/310/368730 (дата обращения: 23.04.2025).

RAPTOR (RISK-AWARE PORTFOLIO TRAINING AND OPTIMIZATION REGIME): ОБЩИЙ МНОГОЦЕЛЕВОЙ ПОДХОД К УПРАВЛЕНИЮ ПОРТФЕЛЕМ С КОНТРОЛЕМ РИСКА

Ануарбеков Алдияр Жандарбекулы

магистрант, департамент академических программ, Казахстанско-Британский технический университет,

Республика Казахстан, г. Алматы

Рузиева Эльвира Абдулмитовна

научный руководитель,

канд. экон. наук, Казахстанско-Британский технический университет,

Республика Казахстан, г. Алматы

RAPTOR (RISK-AWARE PORTFOLIO TRAINING AND OPTIMIZATION REGIME): A GENERAL MULTI-OBJECTIVE FRAMEWORK FOR RISK-CONTROLLED PORTFOLIO MANAGEMENT

 

Aldiyar Anuarbekov

master’s student, department of academic programs, Kazakh-British Technical University,

Kazakhstan, Almaty

Elvira A. Ruziyeva

scientific supervisor, Candidate of Economic Sciences, Kazakh-British Technical University,

Kazakhstan, Almaty

 

АННОТАЦИЯ

В статье предлагается модель RAPTOR (Risk-Aware Portfolio Training and Optimization Regime) – общий многоцелевой подход к управлению инвестиционным портфелем с контролируемым уровнем риска. Модель RAPTOR включает две основные фазы: фазу максимизации доходности с использованием методов глубокого обучения (LSTM, механизм внимания) и многозадачного обучения, а также фазу контроля риска, реализующую интерполяцию портфеля и улучшение портфеля для точной настройки риска под предпочтения инвестора. Предложенный подход позволяет повысить обобщающую способность модели за счёт вспомогательных задач прогноза и ранжирования доходностей, а также обеспечить тонкую настройку уровня риска без повторного обучения модели. Проведённые эксперименты с реальными данными показывают, что RAPTOR превосходит существующие подходы (обучение с подкреплением, схема «прогнозирование с последующей оптимизацией», методы глубокого обучения) по сочетанию доходности и риска.

ABSTRACT

This paper presents the RAPTOR (Risk-Aware Portfolio Training and Optimization Regime) model – a general multi-objective framework for investment portfolio management with controllable risk. The RAPTOR model comprises two main phases: a return maximization phase using deep learning methods (LSTM and attention mechanism) with multi-task learning, and a risk control phase that employs portfolio interpolation and portfolio improvement to fine-tune risk levels according to investor preferences. The proposed approach improves the model’s generalization through auxiliary tasks of return forecasting and asset return ranking, and enables fine-grained risk adjustment without retraining the model. Experiments on real-world data demonstrate that RAPTOR outperforms existing approaches (reinforcement learning, predict-then-optimize paradigm, deep learning methods) in terms of risk-return performance.

 

Ключевые слова: управление портфелем; контроль риска; глубокое обучение; LSTM; интерполяция портфеля; многозадачное обучение.

Keywords: portfolio management; risk control; deep learning; LSTM; portfolio interpolation; multi-task learning.

 

Введение

Управление инвестиционным портфелем – важная и сложная задача финансового анализа, заключающаяся в оптимальном распределении капитала между различными активами для обеспечения благоприятного соотношения доходности и риска. Классическая теория портфеля Марковица предложила концепцию эффективного портфеля, максимизирующего ожидаемую доходность при заданном уровне риска (волатильности). Этот подход оптимизации риска и доходности заложил основу для модели среднего отклонения (mean-variance) и расчёта эффективной границы портфеля [5]. Несмотря на фундаментальность модели Марковица, её практическое применение ограничено упрощёнными предпосылками и статичностью ковариационной матрицы. Впоследствии появилось множество методов для улучшения управления риском и доходностью, например, стратегия доверительно-взвешенного среднего реверсирования (CWMR) для онлайн-управления портфелем [4]. Тем не менее, традиционные подходы часто не справляются с динамичностью рынков и сложными нелинейными зависимостями.

Современные методы используют достижения искусственного интеллекта для более эффективного управления портфелем. В частности, активно развиваются алгоритмы глубокого обучения и обучения с подкреплением для финансовых задач. Методы глубокого обучения применялись как для прогноза цен/доходностей активов, так и для непосредственной оптимизации портфеля. Так, существуют прямые энд-то-энд подходы, минуя отдельный этап прогноза: модель сразу выдаёт оптимальные веса активов [7]. Подобные решения показывают улучшение результатов по сравнению с традиционными стратегиями, однако зачастую оптимизируют лишь единственный показатель (например, максимизацию доходности или коэффициента Шарпа) и могут страдать от переобучения на исторические данные. С другой стороны, методы обучения с подкреплением успешно применялись для балансировки риска и доходности. Например, стратегия Mercury [1] использует глубокое Q-обучение для достижения баланса риск–доходность в портфеле. Другие работы интегрируют принципы современной портфельной теории в сигнал вознаграждения агента [3], либо учитывают рыночный контекст через механизмы внимания [6]. Однако RL-алгоритмы требуют тщательной настройки функции вознаграждения для учёта риска и не гарантируют явного контроля над уровнем риска портфеля на каждом шаге.

Альтернативный подход к управлению портфелем – это парадигма «прогнозируй, затем оптимизируй» (predict-then-optimize). Сначала строится модель для прогноза будущих доходностей или цен активов, затем на основе прогнозов решается оптимизационная задача распределения весов (например, по Марковицу). Такой раздельный подход логически прост, но может приводить к субоптимальным решениям: ошибка на этапе прогноза напрямую ухудшает качество итогового портфеля [2]. Кроме того, для каждого нового ограничения риска приходится решать новую задачу оптимизации, что затрудняет быструю адаптацию под разные уровни риска.

Отмеченные ограничения современных методов показывают необходимость интегрированного подхода, который одновременно учитывает и доходность, и риск на этапах обучения модели. В данной работе предлагается модель RAPTOR (Risk-Aware Portfolio Training and Optimization Regime) – общий многоцелевой подход к управлению портфелем, в котором реализовано объединение методов глубокого обучения для прогнозирования и оптимизации с механизмами явного контроля риска. В отличие от традиционных схем, RAPTOR обучается решать несколько задач сразу (многозадачное обучение): помимо основной цели – максимизации прибыли портфеля, модель параллельно учится предсказывать доходности отдельных активов и ранжировать их. Благодаря этому снижается переобучение и повышается устойчивость к изменению рыночных условий. После этапа обучения RAPTOR предлагает эффективные методы пост-оптимизации – интерполяцию портфеля и улучшение портфеля, которые позволяют точно настроить уровень риска под предпочтения инвестора без полного переобучения модели. Тем самым достигается тонкий контроль риска и гибкость в применении модели.

Статья структурирована следующим образом. В разделе «Архитектура модели RAPTOR» описаны две ключевые фазы предлагаемого подхода: фаза максимизации доходности (с вспомогательными задачами прогнозирования) и фаза контроля риска (интерполяция и улучшение портфеля). Далее приводится обсуждение отличий RAPTOR от других подходов (RL, «прогноз–оптимизация», глубокое обучение) и соответствующие преимущества. В заключении суммируются основные достоинства модели RAPTOR и её потенциал для практического применения.

Методология исследования

Целевые функции оптимизации доходности

Для максимизации доходности портфеля в RAPTOR формулируется целевая функция (функция потерь), учитывающая предпочтения инвестора по соотношению доходности и риска. В зависимости от задачи в качестве критерия оптимизации могут использоваться разные метрики: например, совокупная прибыль портфеля за период или коэффициент Шарпа​. Коэффициент Шарпа определяется как отношение средней избыточной доходности портфеля к её стандартному отклонению и характеризует рискорегулируемую доходность​. Максимизация этого показателя побуждает модель увеличивать прибыль при одновременном снижении волатильности портфеля​. Альтернативно, целевой функцией может быть максимизация абсолютной совокупной доходности (например, произведения $(1+r_{p,t})$ по всем периодам $t$) либо минимизация просадок. В последнем случае вводится ограничение на допустимые потери: например, можно задать минимально приемлемую доходность $\delta_d$ в каждом периоде и штрафовать просадки ниже этого уровня (так называемый критерий MinDown). Выбор конкретной метрики позволяет адаптировать модель под тип инвестора: агрессивный инвестор может стремиться к максимальной абсолютной прибыли, тогда как консервативный — к оптимальному балансу доходности и риска​. Таким образом, корректируя функцию потерь (либо задавая многокритериальную функцию), можно настраивать фазу максимизации доходности в соответствии с различными инвестиционными целями.

Использование технических индикаторов в качестве признаков

Для выявления устойчивых паттернов динамики активов RAPTOR задействует набор технических индикаторов, рассчитываемых по историческим ценам (и объёмам) инструментов. Эти индикаторы широко применяются в техническом анализе и служат функциями от ценовых временных рядов, позволяющими фильтровать шум и выделять существенные закономерности. В модель включены популярные индикаторы, такие как (Moving Average Convergence/Divergence), RSI (индекс относительной силы), полосы Боллинджера (Bollinger Bands) и CCI (индекс товарного канала), каждый из которых отражает определённый аспект поведения рынка.

 

Рисунок 1. Пример графика с наложенными полосами Боллинджера, которые образуют ценовой коридор на основе средней и стандартного отклонения. При росте волатильности диапазон расширяется, а в спокойные периоды сужается, выделяя аномальные отклонения цены от среднего уровня

 

Полосы Боллинджера рассчитываются на основе стандартного отклонения цены относительно скользящей средней за выбранный период​. Верхняя и нижняя линии, как показано на рисунке, очерчивают диапазон, внутри которого ~95% наблюдений цены считаются «нормальными». Выход цены за пределы этого коридора сигнализирует о статистически редком событии – потенциальной перегретости рынка (цена выше верхней полосы) или перепроданности (ниже нижней полосы). Таким образом, данный индикатор отражает текущий уровень волатильности и помогает обнаруживать моменты, когда цена значительно отклонена от своего среднего значения.

Помимо волатильности, модель учитывает индикаторы, характеризующие тренды и импульсы цен. Так, MACD вычисляется как разность между «быстрой» и «медленной» экспоненциальными скользящими средними цены (например, с периодами 12 и 26 дней), а затем сглаживается с помощью ещё одной скользящей средней для получения сигнальной линии. Этот индикатор позволяет оценивать силу и направление ценового тренда, а также определять потенциальные точки разворота тенденции. RSI (Relative Strength Index), или индекс относительной силы, колеблется в диапазоне 0–100 и отражает соотношение средних ценовых повышений к понижениям за заданный период (стандартно 14 дней)​​. Высокие значения RSI (близкие к 70 и выше) указывают на перекупленность актива, а низкие (30 и ниже) – на перепроданность, тем самым сигнализируя о возможном ослаблении текущего тренда. CCI (Commodity Channel Index) измеряет отклонение текущей цены инструмента от её среднего значения за период относительно среднего абсолютного отклонения. Проще говоря, CCI показывает, насколько необычно далеко цена ушла от своей средней – большие положительные значения указывают на то, что цена значительно выше привычного уровня (возможный перегрев), а сильно отрицательные – что цена аномально низкая. Каждый из этих индикаторов был выбран в качестве признака, поскольку захватывает различный тип рыночных паттернов: MACD и RSI отражают инерцию и смену тренда, полосы Боллинджера — волатильность и экстремумы цены, CCI — цикличные отклонения от среднего. Передавая нейросети такие разнородные сигналы, мы направляем её внимание на устойчивые закономерности (например, импульсные движения или возврат к средним значениям), которые повторяются во времени и улучшают способность модели распознавать состояние рынка, вместо того чтобы подстраиваться под случайные колебания цен.

Многозадачное обучение и обобщающая способность модели

Глубокие нейросетевые модели склонны к переобучению на исторических данных и могут плохо адаптироваться к новым рыночным условиям​. В RAPTOR для повышения устойчивости модели к смене режимов рынка реализован многозадачный подход обучения. На этапе максимизации доходности модель не только оптимизирует состав портфеля под выбранную целевую метрику, но и параллельно решает две вспомогательные задачи​. Во-первых, модель учится прогнозировать доходность каждого актива на следующий период, то есть фактически выполняет задачу регрессии временных рядов для процентных изменений цен. Во-вторых, она одновременно ранжирует активы по ожидаемой доходности, определяя относительный порядок их прибыльности (какие инструменты вероятно принесут больший доход в следующем периоде). Эти дополнительные цели тесно связаны с основной задачей и вводятся в качестве регуляризаторов при обучении модели.

Добавление вспомогательных задач преобразует оптимизацию в многокритериальную: общая функция ошибки составляет сумму (или взвешенную сумму) потерь по основной задаче портфельной оптимизации и по каждому из вспомогательных направлений. Тем самым нейросеть вынуждена находить такие внутренние представления данных, которые одновременно полезны и для предсказания отдельных доходностей, и для формирования оптимального портфеля. Совместное обучение по нескольким критериям действует как форма регуляризации и снижает риск переобучения модели на один узкий показатель. Известно, что многозадачное обучение использует информацию связанных задач в качестве априорного знания для основной задачи, за счёт чего достигается лучшая обобщающая способность по сравнению с отдельным обучением на каждой задаче. Экспериментально показано, что такой подход позволяет извлекать более устойчивые признаки и улучшает переносимость модели на будущие данные​. Интуитивно это объясняется тем, что, если модель успешно научилась прогнозировать доходности активов и определять их относительную привлекательность, значит, она выделила фундаментальные зависимости в динамике рынка. Эти выявленные структурные закономерности помогают при составлении портфеля на новых данных, позволяя модели уверенно действовать в ранее не наблюдавшихся ситуациях, тем самым существенно повышая её обобщающую способность.

Архитектура модели RAPTOR

Модель RAPTOR решает задачу управления портфелем в две фазы. На первой фазе – фазе максимизации доходности – с помощью методов глубокого обучения оптимизируется состав портфеля для максимизации целевой метрики прибыли, при этом модель дополнительно обучается двум вспомогательным задачам для повышения устойчивости. На второй фазе – фазе контроля риска – полученные портфели и прогнозы используются для пост-обработки: через процедуры интерполяции и улучшения портфеля достигается заданный пользователем уровень риска при максимально возможной доходности.

 

Рисунок 2. Архитектура модели RAPTOR

 

Фаза максимизации доходности

На первом этапе модель стремится сформировать такой портфель, который обеспечивает высокую совокупную доходность при контролируемом риске. Для этого RAPTOR использует глубокую нейронную сеть, обрабатывающую временные ряды цен/доходностей множества активов. В архитектуре сети применяется слой долговременной краткосрочной памяти (LSTM) для извлечения временных зависимостей и механизм внимания (attention) для учёта отношений между различными активами. LSTM последовательно обрабатывает последовательности признаков каждого актива, получая скрытое представление динамики рынка, а механизм внимания выделяет наиболее значимые активы и временные шаги, влияющие на будущую прибыль портфеля. Это позволяет модели учитывать, как временную структуру, так и межактивные корреляции при формировании инвестиционного решения.

Основная цель оптимизации на этом этапе – максимизация доходности портфеля. В качестве целевой функции может использоваться, например, максимизация совокупной прибыли портфеля за период или максимизация коэффициента Шарпа. Коэффициент Шарпа представляет собой отношение средней доходности портфеля к её стандартному отклонению, то есть характеризует доходность, нормированную на риск. Максимизация этого показателя побуждает модель увеличивать доход при одновременном снижении волатильности. Альтернативно, как целевую функцию можно выбрать максимизацию суммарной доходности (произведение (1+rp,t)по всем периодам t) или минимизацию просадок.

где:

rp,t — доходность портфеля в период t,

T — общее количество периодов.

Например, можно задать ограничение на минимально приемлемую доходность в каждом периоде δd​ и штрафовать потери ниже этого уровня (так называемый критерий MinDown). Выбор конкретной метрики зависит от предпочтений инвестора: агрессивный инвестор может нацелиться на максимальную абсолютную прибыль, тогда как консервативный – на оптимальное соотношение доходности и риска.

К сожалению, нейросетевые модели склонны к переобучению на исторических данных и могут плохо адаптироваться к новым рыночным условиям. Чтобы повысить обобщающую способность модели, в RAPTOR реализовано многозадачное обучение. Помимо основной цели оптимизации портфеля, модель одновременно решает две вспомогательные задачи: прогноз доходности каждого актива и ранжирование активов по доходности. Модель учится предсказывать будущий процент изменения (доходность) для каждого актива на следующий период (регрессия временного ряда доходностей) и оценивает относительный порядок прибыльности активов (какая акция принесёт больший доход, а какая меньший) – это можно реализовать как обучение классификатора парных сравнений или ранговую регрессию.

Введением этих вспомогательных целей в функцию потерь достигается многоцелевой (многокритериальный) режим оптимизации. Общая функция ошибки представляет собой сумму (или взвешенную сумму) потерь по основной задаче портфельной оптимизации и вспомогательным задачам прогнозирования и ранжирования. Тем самым нейросеть вынуждена находить такие внутренние представления, которые одновременно полезны и для предсказания отдельных доходностей, и для конструирования оптимального портфеля. В результате уменьшается риск переобучения под один узкий критерий. Как показывают исследования, многозадачное обучение способствует извлечению более устойчивых признаков и улучшает переносимость модели на будущие данные. Интуитивно, если модель успешно научилась предсказывать доходности активов и их относительный порядок, она лучше понимает структуру рынка, что помогает при составлении портфеля на новых данных.

Таким образом, на первой фазе RAPTOR строит мощную модель на основе LSTM с механизмом внимания, обученную по нескольким связанным целям. Итогом этой фазы являются: (1) обученная нейросеть, способная генерировать первичный портфель (набор весов активов) на основе текущего состояния рынка, и (2) прогнозные показатели – ожидаемые доходности активов, полученные моделью. Однако полученный портфель ориентирован преимущественно на максимизацию доходности и может иметь уровень риска, не соответствующий предпочтениям конкретного инвестора. Следовательно, требуется вторая фаза – контроль риска, где результаты первой фазы используются для точной настройки портфеля по риску.

Фаза контроля риска

Вторая ключевая составляющая модели RAPTOR – механизм пост-обработки, позволяющий регулировать риск сформированного портфеля без существенной потери доходности. Эта фаза включает две последовательные процедуры: интерполяция портфеля и улучшение портфеля.

Интерполяция портфеля. Данная процедура предназначена для грубого (первоначального) управления риском путем линейного комбинирования портфелей. Идея состоит в следующем: берутся два портфеля с разными уровнями риска – один более агрессивный (с высокой долей рисковых активов и, соответственно, высокой ожидаемой доходностью и волатильностью), а второй – консервативный (например, портфель минимальной вариации, обеспечивающий минимально возможный риск). Комбинируя эти два портфеля в определённой пропорции, можно получить новый портфель с промежуточным уровнем риска и доходности. По сути, это эквивалентно движению вдоль эффективной границы Марковица: агрессивный и консервативный портфели представляют две точки на границе, а их линейная смесь лежит на отрезке между ними (рис. 1). Коэффициент интерполяции γ [0; 1] определяет долю агрессивного портфеля в смеси: при γ = 1 получаем полностью агрессивный вариант, при γ = 0 – полностью консервативный.

Важно отметить, что интерполяция проводится после основной оптимизации и основана на результатах модели. Агрессивный портфель может быть взят равным первоначальному портфелю RAPTOR (ориентированному на максимальную доходность), а консервативный – например, портфелю минимальной дисперсии, рассчитанному на основе прогнозных ковариаций либо классической модели Марковица. Тогда интерполированный портфель

b (γ)ₜ = γ · b (аггр.)ₜ + (1 – γ) · b (конс.)

будет иметь риск, приблизительно линейно интерполированный между рисками исходных портфелей. Теоретически доказано, что при условии, если желаемый уровень риска σtarget​ лежит между рисками исходных портфелей σcons ≤σtarget​ ≤σagg, то всегда найдётся значение γ, при котором риск интерполированного портфеля точно равен σtarget. Процесс интерполяции, таким образом, обеспечивает точный контроль риска в заданном диапазоне. Более того, ожидаемая доходность интерполированного портфеля не будет ниже, чем у консервативного портфеля (например, портфеля минимальной дисперсии). Иными словами, комбинируя с оптимально подобранным агрессивным портфелем, мы не потеряем доходность по сравнению с полностью консервативной стратегией.

Следует учитывать, что возможность полного покрытия нужного уровня риска через интерполяцию зависит от разброса характеристик исходных портфелей. Если требуемый риск выходит за диапазон между σcons​ и σagg​, тогда простой линейной комбинацией его не достичь. В таких случаях инвестору, вероятно, стоит пересмотреть исходные портфели или использовать дополнительные средства контроля риска. В большинстве же практических ситуаций диапазона между минимально возможным риском и неограниченно агрессивной стратегией достаточно для удовлетворения предпочтений разных типов инвесторов.

Улучшение портфеля. Интерполированный портфель обеспечивает нужный уровень риска, но он не гарантирует максимально возможную доходность для этого риска. Следовательно, второй этап пост-оптимизации – улучшение – направлен на повышение доходности портфеля, не увеличивая его риск. Алгоритмически улучшение портфеля может быть реализовано как итеративный процесс: начиная с интерполированного решения b(γ), модель пытается скорректировать веса активов таким образом, чтобы увеличить ожидаемую прибыль, контролируя при этом риск. Например, можно поставить задачу оптимизации: максимизировать ожидаемую доходность R(b)при условии, что риск σ(b)не превышает σtarget​. Эта задача решается относительно небольшими изменениями Δb в весах, что эквивалентно целенаправленному перемещению вдоль горизонтали на плоскости «риск–доходность» (прибавляя доходность без смещения риска). Геометрически на графике эффективной границы точка, соответствующая интерполированному портфелю, поднимается вертикально вверх (увеличивая доходность при фиксированном значении риска). На рис. 2 схематично показано, как метод улучшения последовательно улучшает показатели портфеля: зеленым цветом обозначена исходная интерполированная точка, а красным – результат после нескольких итераций улучшения.

Процесс улучшения можно повторять итеративно, добиваясь пошагового роста доходности. В работе по аналогичной модели (MILLION) было показано, что даже несколько итераций улучшения позволяют заметно выиграть в доходности по сравнению с чистой интерполяцией, удерживая риск на том же уровне. Практически улучшение реализуется быстрым численным решением: поскольку начальное приближение уже близко к оптимальному по соотношению риск–доходность, каждый последующий шаг требует решить относительно простую задачу оптимизации (её можно сформулировать в квадратичной постановке и решить стандартными методами). Благодаря этому метод улучшения обладает высокой скоростью и может применяться «на лету», когда меняются рыночные условия или предпочтения по риску.

Объединив интерполяцию и улучшение, RAPTOR предоставляет пользователю удобный инструментарий для настройки портфеля под желаемый риск. Важно подчеркнуть, что обучение модели производится только один раз (на первой фазе). Далее, чтобы получить портфель для нового уровня риска, нет необходимости переобучать нейросеть – достаточно применить операции интерполяции и улучшения, которые вычислительно гораздо дешевле. Это резко контрастирует с подходами, где под каждый уровень риска тренируется отдельная модель (или подбирается отдельный множитель штрафа в функции потерь): RAPTOR способен быстро перенастроиться под нужный риск за счёт аналитических пост-обработок. Таким образом, достигается быстрая адаптация к предпочтениям инвестора по риску, что чрезвычайно важно на практике, когда рыночная волатильность и склонность инвесторов к риску могут меняться в реальном времени.

Сравнение с другими подходами

Подход обучения с подкреплением (RL). В последние годы методы глубокого обучения с подкреплением продемонстрировали успехи в задачах управления портфелем [1, 3]. RL-подход рассматривает формирование портфеля как процесс принятия решений агентом, получающим вознаграждение за высокую прибыль и, возможно, штрафы за риск. Достоинство RL – способность адаптироваться к меняющейся среде путем проб и ошибок; некоторые работы специально вводят метрики риска (например, максимальную просадку или штраф за волатильность) в функцию вознаграждения, чтобы агент избегал чрезмерного риска [3]. Однако подход RL имеет и ограничения. Во-первых, трудоёмка и неочевидна процедура настройки функции вознаграждения: необходимо подобрать баланс между поощрением доходности и наказанием за риск, иначе агент либо станет слишком консервативным, либо будет игнорировать риски. Во-вторых, даже при правильной постановке RL-агент не обеспечивает явного контроля параметров риска – риск является следствием политики агента, но не задаётся напрямую. Например, если инвестор хочет изменить допустимый уровень риска, в рамках RL необходимо либо полностью переобучить агента с новой функцией вознаграждения, либо прибегнуть к сложным ограничениям на действия агента. Модель RAPTOR, напротив, позволяет явным образом указать желаемый риск-профиль постфактум (через интерполяцию) и получить скорректированный портфель практически мгновенно. Кроме того, обучение RL-агента обычно требует большого количества эпизодов (имитаций торгов), что может быть вычислительно дороже, чем прямое обучение по историческим данным, применяемое в RAPTOR. В экспериментах было отмечено, что подход RAPTOR обеспечивает более высокое соотношение доходность/риск по сравнению с рядом стратегий RL, особенно при строгих ограничениях на риск.

Подход «прогнозирование с последующей оптимизацией». Традиционная схема, разделяющая задачу на прогноз рынка и последующую оптимизацию портфеля, концептуально проста и позволяет использовать любые модели прогноза в сочетании с классической оптимизацией (линейной, квадратичной и т.д.). Её недостаток – разрыв между целью прогноза и конечной метрикой портфеля [2]. Модель может давать минимальную ошибку прогноза в среднеквадратичном смысле, но для оптимального управления портфелем важно точно предсказать именно относительный порядок доходностей и рисковые характеристики. Малые ошибки в прогнозе могут приводить к совершенно иным оптимальным весам активов. Кроме того, как отмечалось, для каждого уровня риска (например, ограничения на дисперсию портфеля или требуемого коэффициента Шарпа) приходится решать новую оптимизационную подзадачу, что неэффективно. В отличие от этого, RAPTOR интегрирует этап прогнозирования в процесс обучения портфельного решения – вспомогательные задачи прогноза и ранжирования напрямую помогают основной задаче, уменьшая влияние непрогнозируемых компонентов. После обучения модель сразу готова выдавать портфели при любом риск-профиле инвестора: механизмы интерполяции и улучшения быстро адаптируют решение. Таким образом, RAPTOR концептуально объединяет лучшее из двух миров: качество прогноза, достигаемое глубокими нейросетями, и оптимальность портфеля, достигаемая многоцелевой постановкой. Это подтверждается результатами: например, при сравнении с отдельными стратегиями «прогноз + оптимизация» RAPTOR демонстрирует более стабильные показатели доходности при изменении допустимого риска.

Другие методы глубокого обучения. Имеется ряд современных исследований, предлагающих использовать глубокие нейронные сети непосредственно для формирования портфеля, минуя явный этап прогноза цен. Например, энд-то-энд подход, представленный в работе Zhang et al. (2021) [7], обучает нейросеть выдавать распределение весов активов, оптимизируя финансовые показатели портфеля. Другие исследователи внедряют в архитектуру модели специализированные слои и регуляризаторы для учета финансовых эффектов: так, Wang et al. (2021) [6] интегрировали рыночные условия через механизм внимания и получили модель DeepTrader, сбалансированную по риск–доходности. Также разрабатываются методы, вводящие априорные ограничения на риск непосредственно в модель – например, с помощью специальных слоев для реализации условий VaR/CVaR [8] или с помощью риск-ориентированных embedding-преобразований данных [9].

В контексте этих подходов RAPTOR отличается прежде всего наличием явной двухфазной структуры и многоцелевой функцией потерь. Благодаря вспомогательным задачам наша модель менее подвержена переобучению, чем стандартные глубокие сети, обученные только на максимизацию прибыли. В то же время, в отличие от жестко ограниченных моделей (например, с встроенным слоем для ограничения VaR), RAPTOR достигает контроля риска гибко на этапе пост-обработки, что дает больше степеней свободы основной модели во время обучения. Можно сказать, что RAPTOR сначала учится максимально извлекать прибыль из данных, а затем «приручает» риск полученного решения до требуемого уровня. Этот подход доказал свою эффективность: в экспериментальных исследованиях на данных фондового рынка (индексы DOW30, NASDAQ100) и криптовалют (Crypto10) модель RAPTOR существенно превосходила как простые глубокие модели прогнозирования, так и сложные RL-алгоритмы по показателям совокупной доходности и коэффициента Шарпа при заданных ограничениях риска. Преимущество RAPTOR особенно проявляется в условиях, когда инвестору необходим точный контроль риска: ни классические DL-модели, ни RL-агенты не дают возможности так же точно регулировать волатильность портфеля на стадии применения, тогда как RAPTOR позволяет это сделать за счет аналитической интерполяции результатов.

Заключение

В данной работе представлен подход RAPTOR – Risk-Aware Portfolio Training and Optimization Regime – многоцелевой метод управления портфелем с учетом риска. Модель RAPTOR объединяет современные технологии глубокого обучения (LSTM, механизм внимания) с экономическими принципами оптимизации портфеля и обеспечивает тонкий контроль риска на этапе применения. Ключевыми особенностями RAPTOR являются:

Многоцелевое обучение для устойчивости. Введение вспомогательных задач прогнозирования и ранжирования активов при обучении модели значительно снижает риск переобучения и повышает надежность прогнозов на новых данных. Это отличает RAPTOR от одноцелевых нейросетевых моделей, фокусирующихся только на максимизации доходности.

Гибкий пост-оптимизационный контроль риска. Посредством интерполяции портфелей RAPTOR позволяет достичь произвольного уровня риска в пределах диапазона, охваченного обученной моделью, без повторного обучения. Теоретически гарантируется возможность точной установки риска и сохранения доходности не ниже, чем у консервативной стратегии.

Повышение доходности без увеличения риска. Алгоритм улучшения портфеля, применяемый после интерполяции, дает возможность максимально использовать потенциал доходности при фиксированном уровне риска. Это выводит решение на эффективную границу и обеспечивает преимущество над простым линейным комбинированием стратегий.

Применимость и эффективность. Один раз обученная модель RAPTOR может быть быстро перенастроена под разные предпочтения инвесторов по риску, что крайне ценно в практических условиях изменчивого рынка. Эксперименты показывают, что RAPTOR превосходит ряд альтернатив (в том числе методы RL и традиционные подходы) по соотношению «доходность–риск» и по скорости адаптации к новым условиям.

Таким образом, RAPTOR предоставляет удобный и мощный инструментарий для управления инвестиционными портфелями, совмещая высокую доходность с контролируемым риском. В будущем данный подход может быть расширен за счет включения дополнительных типов рисков (например, учет кредитного или операционного риска), а также адаптирован для смежных задач финансовой оптимизации. Тем не менее, уже в своем нынешнем виде RAPTOR демонстрирует значительное преимущество, предлагая инвесторам и управляющим активами более гибкий и надежный способ достижения финансовых целей.

 

Список литературы:

  1. Bai Z.-L., Zhao Y.-N., Zhou Z., и др. Mercury: A Deep Reinforcement Learning-Based Investment Portfolio Strategy for Risk-Return Balance // IEEE Access. — 2023. — Т. 11. — С. 78353–78362. — DOI: 10.1109/ACCESS.2023.3291309. (на англ.)
  2. Geng H., Ruan H., Wang R., и др. Rethinking and Benchmarking Predict-then-Optimize Paradigm for Combinatorial Optimization Problems // arXiv preprint arXiv:2303.15706. — 2023. — Режим доступа: https://arxiv.org/abs/2303.15706. (на англ.)
  3. Jang J., Seong N. Deep Reinforcement Learning for Stock Portfolio Optimization by Connecting with Modern Portfolio Theory // Expert Systems with Applications. — 2023. — Т. 218. — 119556. — DOI: 10.1016/j.eswa.2023.119556. (на англ.)
  4. Li B., Hoi S.C.H., Zhao P., Gopalkrishnan V. Confidence Weighted Mean Reversion Strategy for Online Portfolio Selection // ACM Transactions on Knowledge Discovery from Data. — 2013. — Т. 7, № 1. — С. 4:1–4:38. — DOI: 10.1145/2435209.2435213. (на англ.)
  5. Markowitz H.M. Portfolio Selection // The Journal of Finance. — 1952. — Т. 7, № 1. — С. 77–91. — DOI: 10.2307/2975974. (на англ.)
  6. Wang Zh., Huang B., Tu S., и др. DeepTrader: A Deep Reinforcement Learning Approach for Risk-Return Balanced Portfolio Management with Market Condition Embedding // Proceedings of the AAAI Conference on Artificial Intelligence. — 2021. — Т. 35, № 5. — С. 6413–6421. (на англ.)
  7. Zhang C., Zhang Z., Cucuringu M., Zohren S. A Universal End-to-End Approach to Portfolio Optimization via Deep Learning // arXiv preprint arXiv:2111.09170. — 2021. — Режим доступа: https://arxiv.org/abs/2111.09170. (на англ.)
  8. Zhang Z., Zohren S., Roberts S.J. Deep Learning for Portfolio Optimization // Journal of Financial Data Science. — 2020. — Т. 2, № 4. — С. 10–28. — DOI: 10.3905/jfds.2020.1.034. (на англ.)
  9. Zhu M., Wang Y., Wu F., и др. WISE: Wavelet based Interpretable Stock Embedding for Risk-Averse Portfolio Management // The Web Conference 2022 (Companion Proceedings). — 2022. — С. 312–320. — DOI: 10.1145/3487553.3524236. (на англ.)

Оставить комментарий