QUICK REVIEW

[论文解读] Optimistic Bull or Pessimistic Bear: Adaptive Deep Reinforcement Learning for Stock Portfolio Allocation

Xinyi Li, Yinchuan Li|arXiv (Cornell University)|Jun 20, 2019

Stock Market Forecasting Methods被引用 27

一句话总结

本文提出自适应DDPG，一种先进的深度强化学习框架，能够根据乐观（牛市）或悲观（熊市）的预测误差动态调整学习率，显著提升股票投资组合配置表现。该方法在2001–2018年道琼斯30只股票上的表现优于原始DDPG、道琼斯工业平均指数以及传统均值-方差策略，实现18.84%的年化收益率和1.63的夏普比率。

ABSTRACT

Portfolio allocation is crucial for investment companies. However, getting the best strategy in a complex and dynamic stock market is challenging. In this paper, we propose a novel Adaptive Deep Deterministic Reinforcement Learning scheme (Adaptive DDPG) for the portfolio allocation task, which incorporates optimistic or pessimistic deep reinforcement learning that is reflected in the influence from prediction errors. Dow Jones 30 component stocks are selected as our trading stocks and their daily prices are used as the training and testing data. We train the Adaptive DDPG agent and obtain a trading strategy. The Adaptive DDPG's performance is compared with the vanilla DDPG, Dow Jones Industrial Average index and the traditional min-variance and mean-variance portfolio allocation strategies. Adaptive DDPG outperforms the baselines in terms of the investment return and the Sharpe ratio.

研究动机与目标

解决传统投资组合优化在现实市场无效性下的局限性，如交易成本、非理性投资者行为以及非正态收益率分布等问题。
克服经典动态规划与马尔可夫决策过程方法在高维连续金融状态空间中面临的可扩展性与模型敏感性问题。
将行为金融学洞见——特别是市场情绪（看涨与看跌）——整合到深度强化学习中，以提升在不同市场制度下的自适应决策能力。
开发一个强化学习智能体，利用连续动作空间和市场动态的实时反馈，学习最优股票配置策略。
在收益与风险调整后绩效指标方面，证明该方法优于基线模型，包括原始DDPG、指数基准以及经典最小方差与均值-方差策略。

提出的方法

采用深度确定性策略梯度（DDPG）算法作为基础框架，利用演员-评论家架构、经验回放和目标网络，以在连续动作与状态空间中稳定训练。
提出一种新颖的自适应学习率机制，区分正向（乐观）与负向（悲观）预测误差，受Rescorla-Wagner模型启发，根据市场情绪调节学习幅度。
定义两种独立的噪声过程：$\mathcal{N}^+$用于正向反馈（看涨），$\mathcal{N}^-$用于负向反馈（看跌），以实现对市场条件变化的非对称学习动态。
应用自适应学习率规则：在测试阶段$\alpha^+ = 1$且$\alpha^- = 0$，使智能体能更积极地响应有利结果，同时对不利结果保持保守。
采用目标网络更新规则：$\theta^{\mu'} \leftarrow \tau\theta^{\mu} + (1 - \tau)\theta^{\mu'}$，以稳定DDPG框架中的训练并提升收敛性。
在2001–2013年道琼斯工业平均指数30只股票的日终收盘价上训练智能体，并在2014–2018年未见样本上评估性能，以收益率、波动率和夏普比率作为关键指标。

实验结果

研究问题

RQ1自适应深度强化学习智能体是否能在动态现实股票市场中超越原始DDPG和传统投资组合策略？
RQ2通过非对称学习率引入市场情绪（看涨与看跌）对投资组合表现与风险调整后收益有何影响？
RQ3与固定学习率相比，自适应学习机制在不同市场制度下在多大程度上提升了模型的鲁棒性与泛化能力？
RQ4将行为金融学原则整合到深度强化学习中，是否能超越标准均值-方差优化，实现更优的投资结果？
RQ5所提方法是否在夏普比率与累计收益率方面均优于基准道琼斯工业平均指数及最小方差/均值-方差策略？

主要发现

自适应DDPG智能体在测试集（2014–2018）上实现了18.84%的年化收益率，显著高于原始DDPG（14.71%）、道琼斯工业平均指数（11.36%）以及均值-方差策略（15.86%）。
该模型的夏普比率为1.63，远高于原始DDPG（1.01）、道琼斯工业平均指数（0.91）、最小方差策略（0.99）和均值-方差策略（1.25），表明其具有更优的风险调整后表现。
自适应DDPG下的最终投资组合价值达到21,880，超过原始DDPG（18,156）、道琼斯工业平均指数（16,089）、最小方差策略（16,333）和均值-方差策略（19,632）。
自适应DDPG的年化标准误差为11.59%，表明其波动率适中，相较于其他方法在收益与风险之间实现了更优的平衡。
自适应学习机制在正向预测误差（看涨情绪）下提升学习幅度，对加速收敛及在牛市中提升性能起到了关键作用。
结果证实，情绪感知的强化学习显著增强了模型的鲁棒性与适应能力，尤其在波动性较高或市场制度发生转变的环境中。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。