[論文レビュー] Model-based Deep Reinforcement Learning for Dynamic Portfolio Optimization
本論文は、動的ポートフォリオ最適化のためのモデルベースの深層強化学習アーキテクチャを提案し、Infused Prediction Module、Data Augmentation Module with GANs、Behavior Cloning Moduleを導入して訓練の安定化とリスク調整後リターンの向上を図る。
Dynamic portfolio optimization is the process of sequentially allocating wealth to a collection of assets in some consecutive trading periods, based on investors' return-risk profile. Automating this process with machine learning remains a challenging problem. Here, we design a deep reinforcement learning (RL) architecture with an autonomous trading agent such that, investment decisions and actions are made periodically, based on a global objective, with autonomy. In particular, without relying on a purely model-free RL agent, we train our trading agent using a novel RL architecture consisting of an infused prediction module (IPM), a generative adversarial data augmentation module (DAM) and a behavior cloning module (BCM). Our model-based approach works with both on-policy or off-policy RL algorithms. We further design the back-testing and execution engine which interact with the RL agent in real time. Using historical {\em real} financial market data, we simulate trading with practical constraints, and demonstrate that our proposed model is robust, profitable and risk-sensitive, as compared to baseline trading strategies and model-free RL agents from prior work.
研究の動機と目的
- 現実的な取引条件下で動的ポートフォリオ最適化のために強化学習の活用を動機づける。
- データ効率性、非定常性、リスク管理に取り組むモデルベースのRLフレームワークを開発する。
- 予測、データ拡張、模倣コンポーネントを統合して取引エージェントの安定性と性能を向上させる。
- 過去の市場データを用いて提案アーキテクチャをベースラインおよびモデルフリーRL手法と比較評価する。
提案手法
- RLアルゴリズムが使用する状態に将来観測予測を追加するInfused Prediction Module (IPM)を導入する。
- 最大平均差異 (MMD) を伴う再帰的GANを用いて現実的な合成市場データを生成するData Augmentation Module (DAM)を組み込む。
- 政策更新を制約するための1ステップ greedy 行動デモンストレーションを提供するBehavior Cloning Module (BCM)を実装する。
- Actor–critic構成を持つDDPGのモデルベース適応を採用する(PPO/TRPOへの適用可能性について議論)。
- 将来予測特徴量と市場指数信号で状態を拡張し、Actor/Criticネットワーク用のLSTMベースまたはCNNベースの特徴抽出機を採用する。
- 実世界の制約を反映する取引コストとスリッページを考慮した hourly-acted, daily-decided ポートフォリオでエージェントを訓練・評価する。
実験結果
リサーチクエスチョン
- RQ1予測・拡張・模倣コンポーネントを含むモデルベースRLフレームワークは、取引コストと市場摩擦を伴う動的ポートフォリオ最適化を改善できるか。
- RQ2IPM、DAM、BCM は、それぞれ、モデルフリーのベースラインおよび従来戦略と比較してリスク調整後の性能を向上させるか。
- RQ3将来ベースの予測と合成データの統合は、非定常な金融環境における安定性と堅牢性にどう影響するか。
- RQ4DDPGオフポリシー設定以外のPPO/TRPOのようなオンポリシー手法への適用性はあるか。
- RQ5提案モジュールを採用することで、ドローダウンやCVaRといったリスク指標にどのような影響があるか。
主な発見
- 提案されたアーキテクチャは、ベースラインおよびモデルフリーRLエージェントと比較してSharpe ratio、Sortino ratio、最大ドローダウン、VaR、およびCVaRといった指標を改善する。
- IPMはRLステートに予測された将来観測を組み込むことで顕著な性能向上を提供する。
- DAMは過学習を抑制し、合成データ拡張を通じて通常はボラティリティが低いポートフォリオを生み出すのに貢献する。
- BCMはポートフォリオ重みのボラティリティを低減しつつ、場合によってはリターンを維持または向上させる。
- このフレームワークは実践的な取引制約と非定常市場条件下での頑健性と収益性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。