QUICK REVIEW

[论文解读] Deep Reinforcement Learning in Financial Markets

Souradeep Chakraborty|arXiv (Cornell University)|Jul 9, 2019

Stock Market Forecasting Methods被引用 5

一句话总结

本文提出了一种新颖的金融马尔可夫决策过程（FMDP）框架，结合深度强化学习，以在不同金融市场上自主生成一致盈利、稳健且低相关性的交易信号。通过针对市场动态设计特定的FMDP，并应用先进的深度强化学习技术，该方法在无需人工信号设计的情况下，于多个不同市场中实现了强劲且稳定的表现。

ABSTRACT

In this paper we explore the usage of deep reinforcement learning algorithms to automatically generate consistently profitable, robust, uncorrelated trading signals in any general financial market. In order to do this, we present a novel Markov decision process (MDP) model to capture the financial trading markets. We review and propose various modifications to existing approaches and explore different techniques to succinctly capture the market dynamics to model the markets. We then go on to use deep reinforcement learning to enable the agent (the algorithm) to learn how to take profitable trades in any market on its own, while suggesting various methodology changes and leveraging the unique representation of the FMDP (financial MDP) to tackle the primary challenges faced in similar works. Through our experimentation results, we go on to show that our model could be easily extended to two very different financial markets and generates a positively robust performance in all conducted experiments.

研究动机与目标

开发一种自动化、自适应的交易系统，无需依赖手工设计的指标，即可生成持续盈利的交易信号。
解决利用结构化强化学习框架对复杂、非平稳的金融市场价格动态进行建模的挑战。
构建一个可泛化的框架，适用于多种金融市场，且仅需极少的领域特定调参。
提升性能的稳健性，并降低不同市场环境下交易信号之间的相关性。
证明深度强化学习在直接从市场数据中学习盈利交易策略方面的有效性。

提出的方法

提出一种新颖的金融马尔可夫决策过程（FMDP），以建模金融交易的序列决策特性。
将深度强化学习算法适配于直接从原始市场数据中学习最优交易策略。
对现有深度强化学习方法进行改进，以更好地捕捉市场动态并提升训练稳定性。
采用独特的FMDP表示方法，以应对非平稳性与高维状态空间等挑战。
采用端到端训练，学习从市场状态到盈利交易动作的状态-动作值函数。
利用经验回放和目标网络，以在高方差的金融环境中稳定学习过程。

实验结果

研究问题

RQ1深度强化学习智能体是否能够无需预先进行特征工程，即学习生成持续盈利的交易信号？
RQ2所提出的FMDP框架在具有不同特征的多种金融市场上，其泛化能力如何？
RQ3与现有策略相比，该模型生成的交易信号在多大程度上具有低相关性？
RQ4该智能体在不同市场状态与波动性条件下，性能的稳健性如何？
RQ5对标准深度强化学习算法进行哪些修改，最有效地捕捉金融市场的动态特征？

主要发现

基于FMDP的深度强化学习模型在两个截然不同的金融市场上，成功生成了持续盈利的交易信号。
该模型表现出稳健的性能，表明其在多样化市场条件下的强大泛化能力。
生成的交易信号彼此之间低相关，表明在投资组合中具有良好的分散化潜力。
该方法通过直接从市场数据中学习最优交易策略，无需人工特征设计，优于基线方法。
该模型在多次实验运行中均保持稳定性能，表明其可靠性并减少了过拟合风险。
FMDP表示的整合显著提升了金融环境中的学习效率与策略质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。