QUICK REVIEW

[論文レビュー] Continuous-Time Mean-Variance Portfolio Selection: A Reinforcement Learning Framework

Haoran Wang, Xun Yu Zhou|arXiv (Cornell University)|Apr 25, 2019

Reinforcement Learning in Robotics参考文献 51被引用数 28

ひとこと要約

本稿では、エントロピー正則化と緩和された確率的制御問題として定式化することにより、連続時間の平均分散ポートフォリオ選択問題に対する強化学習フレームワークを提案する。最適方策が時間に伴い減衰するガウス分布であることを証明し、方策改善に基づく強化学習アルゴリズムを構築した。シミュレーションでは、ベースライン手法を上回り、優れたシャープレシオと最適性能への収束を示した。

ABSTRACT

We approach the continuous-time mean-variance (MV) portfolio selection with reinforcement learning (RL). The problem is to achieve the best tradeoff between exploration and exploitation, and is formulated as an entropy-regularized, relaxed stochastic control problem. We prove that the optimal feedback policy for this problem must be Gaussian, with time-decaying variance. We then establish connections between the entropy-regularized MV and the classical MV, including the solvability equivalence and the convergence as exploration weighting parameter decays to zero. Finally, we prove a policy improvement theorem, based on which we devise an implementable RL algorithm. We find that our algorithm outperforms both an adaptive control based method and a deep neural networks based algorithm by a large margin in our simulations.

研究の動機と目的

分散の非線形性と時間的一致性の欠如によって複雑化する連続時間平均分散ポートフォリオ選択への強化学習の適用という課題に対処すること。
未知のマーケットパラメータの直接推定を回避する、モデルフリーでデータ駆動型の強化学習フレームワークを構築すること。これは実務において大きな障壁である。
エントロピー正則化された探索的MV問題と古典的MV問題との間の関係を確立し、探索の減少に伴い解の同値性と収束を保証すること。
価値関数と制御方策の明示的関数形を備えた、証明可能な方策改善定理に基づく実装可能な強化学習アルゴリズムを設計すること。
実証的に、提案されたアルゴリズムが、リスク調整リターンと安定性の観点で、アダプティブ制御およびディープニューラルネットワークベースの手法を大きく上回ることを示すこと。

提案手法

連続時間平均分散ポートフォリオ選択問題を、探索と活用のバランスを取るエントロピー正則化と緩和された確率的制御問題に再定式化する。
緩和問題における最適フィードバック方策が、時間に伴い減衰する分散を持つガウス分布であることを証明し、明示的な方策パラメータ化を可能にする。
エントロピー正則化された探索的MV問題と古典的MV問題との間で解の同値性を確立し、探索パラメータλ → 0のとき、前者が後者に収束することを示す。
反復的な方策更新が、各反復で目的関数値を単調に改善することができる方策改善定理を導出する。
理論的最適方策構造を基にした実装可能な強化学習アルゴリズムを設計し、ディープニューラルネットワークのようなブラックボックス関数近似器を回避する。
性能向上を図るために、λ_k = λ₀(1 − exp(200(k−M)/M)) のように減少するλプロセスを採用し、シミュレーションでの性能を向上させる。

実験結果

リサーチクエスチョン

RQ1分散の非線形性と時間的一致性の欠如にもかかわらず、連続時間平均分散ポートフォリオ選択に強化学習を効果的に適用できるか？
RQ2エントロピー正則化されたMVフレームワークにおいて、探索と活用をバランスさせる最適方策構造は何か？
RQ3エントロピー正則化された探索的MV問題と古典的MV問題との間で、解の同値性と収束に関してどのような関係があるか？
RQ4MVに基づく強化学習に対して、証明可能な方策改善定理を導出でき、反復的方策最適化が保証された改善をもたらすか？
RQ5提案された強化学習アルゴリズムは、定常的および非定常的市場環境において、シャープレシオと収束の観点で、従来の手法（特にアダプティブ制御およびディープラーニングベースのベースライン）を上回るか？

主な発見

エントロピー正則化された探索的MV問題の最適方策は、時間に伴い減衰する分散を持つガウス分布であり、閉形式で解釈可能な方策構造を提供する。
探索的MV問題は古典的MV問題と解の同値性を持つ。探索パラメータλ → 0のとき、解は古典的MV最適方策に収束する。
減少するλスキーム（λ₀ = 2）を用いた場合、提案されたアルゴリズムはシャープレシオ3.243を達成した。定常λを用いた場合の3.039と比較して、顕著な性能向上を示した。
定常的および非定常的市場環境の両方において、アダプティブ制御ベースの手法およびディープニューラルネットワークベースのアルゴリズムを大きく上回った。
方策改善定理により、反復的更新が目的関数を単調に改善することができ、複雑な関数近似器を必要とせずに安定かつ収束する学習を保証する。
実用的にはモデルフリーである。資産価格の動的変化が線形・二次的（LQ）構造であり、目的関数が二次的であることに依存するため、パラメータの明示的推定なしに、対数正規分布および非定常価格過程にも適用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。