QUICK REVIEW

[论文解读] Continuous-Time Mean-Variance Portfolio Selection: A Reinforcement Learning Framework

Haoran Wang, Xun Yu Zhou|arXiv (Cornell University)|Apr 25, 2019

Reinforcement Learning in Robotics参考文献 51被引用 28

一句话总结

本文通过将问题表述为熵正则化、松弛的随机控制任务，提出了一种用于连续时间均值-方差投资组合选择的强化学习框架。证明了最优策略为时间衰减的高斯分布，并开发了一种基于策略改进的强化学习算法，在模拟中优于基线方法，展现出更优的夏普比率和向最优性能的收敛性。

ABSTRACT

We approach the continuous-time mean-variance (MV) portfolio selection with reinforcement learning (RL). The problem is to achieve the best tradeoff between exploration and exploitation, and is formulated as an entropy-regularized, relaxed stochastic control problem. We prove that the optimal feedback policy for this problem must be Gaussian, with time-decaying variance. We then establish connections between the entropy-regularized MV and the classical MV, including the solvability equivalence and the convergence as exploration weighting parameter decays to zero. Finally, we prove a policy improvement theorem, based on which we devise an implementable RL algorithm. We find that our algorithm outperforms both an adaptive control based method and a deep neural networks based algorithm by a large margin in our simulations.

研究动机与目标

为解决将强化学习应用于连续时间均值-方差投资组合选择所面临的挑战，该挑战源于方差的非线性以及时间不一致性。
开发一种无需直接估计未知市场参数的无模型、数据驱动的强化学习框架，这是实际应用中的主要障碍。
建立熵正则化探索性MV问题与经典MV问题之间的联系，确保可解性等价性，并在探索减少时实现收敛。
设计一种基于可证明策略改进定理的可实现强化学习算法，其价值函数和控制策略具有显式函数形式。
通过实证表明，所提出的算法在风险调整收益和稳定性方面，优于自适应控制方法和基于深度神经网络的方法。

提出的方法

将连续时间均值-方差投资组合选择重新表述为熵正则化、松弛的随机控制问题，以平衡探索与利用。
证明松弛问题的最优反馈策略为时间衰减方差的高斯分布，从而实现策略参数化的显式表达。
建立熵正则化探索性MV问题与经典MV问题之间的可解性等价性，并证明当探索参数 λ → 0 时，前者收敛至后者。
推导出一个策略改进定理，支持通过迭代策略更新单调提升目标函数值。
基于理论最优策略结构设计一种可实现的强化学习算法，避免使用深度神经网络等黑箱函数逼近器。
采用衰减的 λ 过程（λ_k = λ₀(1 − exp(200(k−M)/M))），逐步减少探索，从而在模拟中提升性能。

实验结果

研究问题

RQ1尽管存在方差的非线性和时间不一致性，强化学习能否有效应用于连续时间均值-方差投资组合选择？
RQ2在熵正则化MV框架中，平衡探索与利用的最优策略结构是什么？
RQ3熵正则化探索性MV问题与经典MV问题在可解性和收敛性方面有何关系？
RQ4能否为基于MV的强化学习推导出一个可证明的策略改进定理，以实现保证改进的迭代策略优化？
RQ5所提出的强化学习算法是否在夏普比率和收敛性方面优于现有方法，特别是在平稳与非平稳市场环境中？

主要发现

熵正则化探索性MV问题的最优策略为时间衰减方差的高斯分布，提供了闭式、可解释的策略结构。
探索性MV问题与经典MV问题具有可解性等价性，且当探索参数 λ → 0 时，解收敛至经典MV最优策略。
采用衰减λ方案（λ₀ = 2）时，所提算法的夏普比率达到3.243，而恒定λ时为3.039，表现出显著性能提升。
在平稳与非平稳市场环境下，该算法在模拟中显著优于基于自适应控制的方法和基于深度神经网络的算法。
策略改进定理支持迭代更新，可单调提升目标函数，确保稳定且收敛的学习过程，无需依赖复杂函数逼近器。
该方法在实践中为无模型方法，仅依赖财富动态的线性二次（LQ）结构和二次目标函数，适用于对数正态和非平稳价格过程，无需显式参数估计。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。