[論文レビュー] Reinforcement Learning for Dividend Optimization in Partially Observed Regime-Switching Diffusion Model
要約: 本論文は部分情報下での regime-switching 拡散過程における最適配当額の連続時間強化学習アプローチを開発し、価値関数の半解析的構造と信念状態フィルタリングを用いた actor-critic アルゴリズムを導出する。
This paper studies the optimal dividend problem with a bounded payout rate in a partially observed regime-switching diffusion model, where, in practice, the market regime is unobserved and key model parameters are unknown. To address this partial-information setting, we propose a continuous-time reinforcement learning (RL) approach within an exploratory (entropy-regularized) stochastic control framework for discounted dividends under regime switching. The associated exploratory Hamilton-Jacobi-Bellman (HJB) system admits semi-analytical characterizations of the value function and the optimal exploratory dividend policy, determined by two unknown functions solving two ordinary differential equations (ODEs) together with positive real roots of the induced quadratic equations. Exploiting this structure, we introduce parametric families for both the value function and the policy, using low-degree polynomial approximations to the ODE solutions. We then develop an actor-critic RL algorithm to learn the optimal exploratory policy through interactions with the market environment: it performs belief-state filtering from observed data and iterates policy evaluation and policy improvement online to refine the policy. Numerical experiments demonstrate strong out-of-sample performance of the learned dividend policies.
研究の動機と目的
- 制度規制とモデル不確実性がある regime-switching 設定で最適配当額を動機づける。
- 市場の regime が観測されず、モデルパラメータが未知である部分情報配当問題を定式化する。
- 最適配当方針を学習する探索的(エントロピー正則化)確率的制御フレームワークを開発する。
- 価値関数と方針の半解析的特徴づけを提供し、アルゴリズム設計を指針づける。
- 訓練データ以外の検証を伴う数値実験を通じて学習方針の性能を示す。
提案手法
- 超過剰を unobserved regime を持つ regime-switching 拡散としてモデル化する。
- Wonham フィルタを用いて部分情報問題を信念状態完全情報問題へ分離する。
- エントロピー正則化探索制御フレームワークを採用し探索的 HJB 方程式を導出する。
- 二つの常微分方程式と二次方程式の解により価値関数と最適探索配当方針の半解析的表現を得る。
- 最適方針を surplus と温度パラメータに依存する切り捨て Gibbs 分布として特徴づける。
- 信念状態フィルタリングを用いた actor-critic RL アルゴリズムを開発し、方策評価と改善を交互にオンライン更新する。
実験結果
リサーチクエスチョン
- RQ1市場 regime が直接観測されないときに配当支払いを最適に制御するにはどうするか。
- RQ2探索的(エントロピー正則化)RL フレームワークは regime switching と部分情報下で堅牢な方針を与えるか。
- RQ3この設定における価値関数と最適方針の半解析的構造はどのようになるか。
- RQ4信念状態フィルタリングを連続時間 RL アルゴリズムへ統合する方法は。
- RQ5学習された方針はベンチマークと比較して訓練データ以外で高い性能を示すか。
主な発見
- 探索的 HJB 系は二つの未知関数が二つの ODE と二次方程式を解くことで価値関数と最適方針を半解析的に記述する。
- 最適探索配当方針は切り捨て Gibbs 形をとり、 surplus レベルと温度パラメータに適応する。
- 信念状態(Wonham)フィルタリングにより未知の regime を条件付けでき、学習のための完全情報制御問題へ問題を還元する。
- オンラインで方策と価値を更新する actor-critic RL アルゴリズムは訓練データ外での性能が高く、パス間分散が低減する。
- 数値実験は学習済み方針が訓練データを超える性能を示し、平均推定値で有限差分ベンチマークと整合する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。