QUICK REVIEW

[论文解读] Cryptocurrency Portfolio Management with Deep Reinforcement Learning

Zhengyao Jiang, Jinjun Liang|arXiv (Cornell University)|Dec 5, 2016

Stock Market Forecasting Methods参考文献 6被引用 41

一句话总结

该论文提出了一种无需模型的深度强化学习方法，采用卷积神经网络（CNN）直接从历史加密货币价格数据输出投资组合权重，通过确定性策略梯度进行训练以最大化累计收益。在Poloniex平台进行的30分钟回测中，CNN智能体在1.8个月内实现了16.3倍的回报，优于大多数基准，风险更低，尽管在原始回报上略逊于PAMR，但实现了更高的夏普比率。

ABSTRACT

Portfolio management is the decision-making process of allocating an amount of fund into different financial investment products. Cryptocurrencies are electronic and decentralized alternatives to government-issued money, with Bitcoin as the best-known example of a cryptocurrency. This paper presents a model-less convolutional neural network with historic prices of a set of financial assets as its input, outputting portfolio weights of the set. The network is trained with 0.7 years' price data from a cryptocurrency exchange. The training is done in a reinforcement manner, maximizing the accumulative return, which is regarded as the reward function of the network. Backtest trading experiments with trading period of 30 minutes is conducted in the same market, achieving 10-fold returns in 1.8 months' periods. Some recently published portfolio selection strategies are also used to perform the same back-tests, whose results are compared with the neural network. The network is not limited to cryptocurrency, but can be applied to any other financial markets.

研究动机与目标

开发一种无需模型、端到端的投资组合管理方法，直接从市场价格数据中学习，无需依赖金融理论或假设。
解决深度强化学习在连续投资组合配置中离散动作空间和Q函数估计的局限性。
利用深度学习实现在金融市场的可扩展、自适应投资组合交易，特别是在加密货币交易所等高波动环境中。
在真实世界回测环境中，评估所提方法与已建立的投资组合选择算法的性能表现。

提出的方法

卷积神经网络（CNN）将多个金融资产的原始历史价格矩阵作为输入，学习将市场模式映射为投资组合权重。
网络使用确定性策略梯度（DPG）算法进行训练，采用基于累计投资组合收益的直接奖励函数，避免Q函数估计。
奖励函数定义为投资组合的对数累计收益，以鼓励财富增长并最小化风险。
训练使用Poloniex加密货币交易所0.7年的价格数据，回测在30分钟的交易间隔内进行。
通过交叉验证进行超参数调优和模型选择，但训练集与测试集的时间邻近性带来了性能评估的困境。
该方法设计为可扩展至任何金融市场，不限于加密货币。

实验结果

研究问题

RQ1深度强化学习智能体能否直接从原始价格数据中学习投资组合权重分配，而无需预先进行金融建模？
RQ2与已建立的投资组合选择算法相比，无模型的连续动作深度强化学习方法在收益与风险方面的表现如何？
RQ3训练数据与测试数据之间的时间接近性对所学策略的泛化能力和性能有何影响？
RQ4在高频率、高波动的市场（如加密货币市场）中，采用直接奖励设计的确定性策略梯度方法是否能优于现有方法？

主要发现

CNN智能体在回测期（2016年5月14日至7月3日）内实现了最终投资组合价值16.305倍，显著优于通用投资组合及其他基准。
尽管累计回报低于被动攻击均值回归（PAMR）策略，CNN智能体实现了更高的夏普比率（0.296）和更低的最大回撤，表明其风险调整后表现更优。
智能体的表现对训练集与测试集之间的时间距离高度敏感，测试期越接近训练期，结果越好，表明策略具有时间限制的有效窗口。
在交叉验证集和测试集上，过拟合现象出现在不同训练轮次，表明抑制过拟合与保留短期市场模式之间存在权衡。
该方法在不同金融市场上表现出可扩展性和适应性，因其不依赖预设模型或对市场行为的假设。
小规模的训练集和有限的资产多样性限制了网络的深度，表明在更大、更多样化的数据集上可能进一步提升性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。