QUICK REVIEW

[論文レビュー] Practical Deep Reinforcement Learning Approach for Stock Trading

Xiaoyang Liu, Zhuoran Xiong|arXiv (Cornell University)|Nov 19, 2018

Stock Market Forecasting Methods被引用数 97

ひとこと要約

著者らは Deep Deterministic Policy Gradient (DDPG) を30銘柄の取引環境に適用し、Dow Jones Industrial Average および最小分散ポートフォリオより高いシャープ比と累積リターンを達成した。

ABSTRACT

Stock trading strategy plays a crucial role in investment companies. However, it is challenging to obtain optimal strategy in the complex and dynamic stock market. We explore the potential of deep reinforcement learning to optimize stock trading strategy and thus maximize investment return. 30 stocks are selected as our trading stocks and their daily prices are used as the training and trading market environment. We train a deep reinforcement learning agent and obtain an adaptive trading strategy. The agent's performance is evaluated and compared with Dow Jones Industrial Average and the traditional min-variance portfolio allocation strategy. The proposed deep reinforcement learning approach is shown to outperform the two baselines in terms of both the Sharpe ratio and cumulative returns.

研究の動機と目的

株式取引を投資収益の最大化を目的として、Markov Decision Process (MDP) として動機づけ・定式化する。
取引における大規模な状態空間と行動空間を扱うためのディープ強化学習アプローチ(DDPG)を提案する。
過去の株価データ上で適応的な取引性能を示し、ベースラインと比較する。
複数の金融指標（リターン、ボラティリティ、シャープ比）を用いて収益性とリスクを評価する。

提案手法

状態 s = [p, h, b]、アクション a を D 銘柄にまたがって取引する MDP として株式取引をモデル化し、報酬 r(s,a,s') を定義する。
状態から行動へを写像するために、アクター-クリティック構造を用いた Deep Deterministic Policy Gradient (DDPG) を使用する。
訓練を安定化させ、サンプルの相関を取り除くために経験リプレイバッファとターゲットネットワークを組み込む。
2009–2018 年の歴史データ（30 銘柄の DJIA）で訓練・検証・取引のワークフローを実行して訓練と検証を行う。
最終ポートフォリオ価値、年率リターン、年率標準誤差、シャープ比を用いて性能を評価する。
Q と μ の更新規則を含むDDPGトレーニングループを詳述したアルゴリズム1を提供する。

実験結果

リサーチクエスチョン

RQ1DDPGベースの取引戦略は歴史データ上で Dow Jones Industrial Average および最小分散ポートフォリオを上回るか。
RQ2株式取引にDDPGを使用した場合のリターンとリスク調整後のパフォーマンス（シャープ比）の向上はどの程度か。
RQ3提案手法は30銘柄に対して、訓練・検証・実取引に近いフェーズでどのように性能を発揮するか。

主な発見

DDPG (ours)	Min-Variance	DJIA
初期ポートフォリオ価値	10,000	10,000	10,000
最終ポートフォリオ価値	19,791	14,369	15,428
年率リターン	25.87%	15.93%	16.40%
年率標準誤差	13.62%	9.97%	11.70%
シャープ比	1.79	1.45	1.27

DDPGは最終ポートフォリオ価値を 19,791 として、最小分散 (14,369) および DJIA (15,428) を上回る。
DDPGは年率リターンが 25.87% で、最小分散の 15.93% および DJIA の 16.40% を上回る。
DDPGは年率標準誤差が 13.62% で、最小分散の 9.97% および DJIA の 11.70% を上回る。
DDPGはシャープ比 1.79 を達成し、1.45（最小分散）および 1.27（DJIA）より高い。
結果は、DDPGベースの取引戦略がリターンとリスクのバランスの両方でベンチマークを上回る可能性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。