QUICK REVIEW

[论文解读] Financial Trading as a Game: A Deep Reinforcement Learning Approach

Chien Yi Huang|arXiv (Cornell University)|Jul 8, 2018

Stock Market Forecasting Methods被引用 27

一句话总结

本文提出了一种基于改进的深度循环Q网络（DRQN）的深度强化学习框架，用于自动化外汇市场交易。通过引入动作增强以减少对epsilon-greedy探索的依赖，并使用极小的回放缓冲区，该智能体在12种货币对上实现了显著更高的风险调整后收益——年化利润平均高出6.4%，同时具备更强的鲁棒性和更低的方差。

ABSTRACT

An automatic program that generates constant profit from the financial market is lucrative for every market practitioner. Recent advance in deep reinforcement learning provides a framework toward end-to-end training of such trading agent. In this paper, we propose an Markov Decision Process (MDP) model suitable for the financial trading task and solve it with the state-of-the-art deep recurrent Q-network (DRQN) algorithm. We propose several modifications to the existing learning algorithm to make it more suitable under the financial trading setting, namely 1. We employ a substantially small replay memory (only a few hundreds in size) compared to ones used in modern deep reinforcement learning algorithms (often millions in size.) 2. We develop an action augmentation technique to mitigate the need for random exploration by providing extra feedback signals for all actions to the agent. This enables us to use greedy policy over the course of learning and shows strong empirical performance compared to more commonly used epsilon-greedy exploration. However, this technique is specific to financial trading under a few market assumptions. 3. We sample a longer sequence for recurrent neural network training. A side product of this mechanism is that we can now train the agent for every T steps. This greatly reduces training time since the overall computation is down by a factor of T. We combine all of the above into a complete online learning algorithm and validate our approach on the spot foreign exchange market.

研究动机与目标

开发一种适用于深度强化学习的马尔可夫决策过程（MDP）模型，用于基于信号的金融交易，且仅使用公开可获取的数据。
通过减少对epsilon-greedy策略的依赖，解决金融市场中随机探索带来的高额交易成本问题。
通过使用小回放缓冲区和更长的循环序列，提升训练效率与模型稳定性。
在真实外汇数据上实证验证所提方法，并证明其在交易成本约束下的一致盈利能力。

提出的方法

将金融交易任务建模为具有离散时间步、可观测市场数据及一组合法交易动作的马尔可夫决策过程（MDP）。
对深度循环Q网络（DRQN）算法进行改进，将回放缓冲区大小显著减小（仅数百个样本），以提升训练效率并降低内存开销。
提出一种动作增强技术，在学习过程中为所有动作提供反馈信号，使智能体能够采用贪婪策略而非epsilon-greedy探索。
采用更长的序列采样方式用于循环网络训练，使智能体可每隔T步进行一次更新，从而将总计算量降低T倍。
设计基于累计投资组合收益的奖励函数，并显式建模交易成本以反映真实交易约束。
在线应用该算法，持续基于新市场数据更新智能体，无需从头开始重新训练。

实验结果

研究问题

RQ1仅使用公开的OHLC数据和最小探索，深度强化学习智能体能否在外汇市场中学习到盈利且风险调整后的交易策略？
RQ2在交易成本约束下，动作增强与传统epsilon-greedy探索相比，在性能和鲁棒性方面表现如何？
RQ3使用小回放缓冲区对金融交易任务中的学习稳定性与收敛性有何影响？
RQ4在训练过程中增加买卖价差是否会导致更鲁棒或更高性能的交易策略？
RQ5该智能体能否发现不同货币对之间相关性较低的策略，表明其在投资组合中具备分散风险的潜力？

主要发现

与epsilon-greedy探索相比，动作增强技术使12种货币对的平均年化收益率提高了6.4%，且性能方差更低。
该智能体在真实交易成本条件下实现了正的风险调整后收益——这是首次报告的在该场景下纯深度强化学习的成功应用。
使用小回放缓冲区（仅数百个样本）在不损失性能的前提下，实现了更快的训练速度和更低的内存占用。
更长的循环序列采样使训练更加高效，通过实现每T步更新一次，将总计算量降低了T倍。
一个反直觉的发现是：适度增加买卖价差反而提升了整体性能，表明这有助于智能体学习到更鲁棒的策略。
所发现的策略在不同货币对之间表现出低相关性或无相关性，表明其在投资组合配置中具备良好的分散风险潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。