QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning in Financial Markets

Souradeep Chakraborty|arXiv (Cornell University)|Jul 9, 2019

Stock Market Forecasting Methods被引用数 5

ひとこと要約

本論文は、多様な金融市場において一貫して収益性が高く、頑健で相関の低い取引シグナルを自動的に生成できる、新しい金融マルコフ決定過程（FMDP）フレームワークと深層強化学習を組み合わせた手法を提案する。市場のダイナミクスを特化したFMDPでモデル化し、高度な深層RL技術を適用することで、手動でのシグナル設計に依存せずに、複数の異なる市場で強力で安定したパフォーマンスを達成した。

ABSTRACT

In this paper we explore the usage of deep reinforcement learning algorithms to automatically generate consistently profitable, robust, uncorrelated trading signals in any general financial market. In order to do this, we present a novel Markov decision process (MDP) model to capture the financial trading markets. We review and propose various modifications to existing approaches and explore different techniques to succinctly capture the market dynamics to model the markets. We then go on to use deep reinforcement learning to enable the agent (the algorithm) to learn how to take profitable trades in any market on its own, while suggesting various methodology changes and leveraging the unique representation of the FMDP (financial MDP) to tackle the primary challenges faced in similar works. Through our experimentation results, we go on to show that our model could be easily extended to two very different financial markets and generates a positively robust performance in all conducted experiments.

研究の動機と目的

手作業によるインジケータ設計に依存せず、一貫して収益性のあるシグナルを生成できる自動的で適応的な取引システムの開発を目的とする。
構造的な強化学習フレームワークを用いて、複雑で非ステーションナリィな金融市場のダイナミクスをモデル化する課題に取り組む。
ドメイン特化の最小限のチューニングで、多様な金融市場に一般化可能なフレームワークの構築を目的とする。
異なる市場状況における取引シグナルの頑健性を高め、相関を低減することを目的とする。
深層強化学習が市場データから直接収益性の高い取引戦略を学習する有効性を示すこと。

提案手法

金融取引の順序的意思決定特性をモデル化するため、新規の金融マルコフ決定過程（FMDP）を定式化する。
深層強化学習アルゴリズムを変更し、生の市場データから最適な取引ポリシーを直接学習する。
市場ダイナミクスをよりよく捉え、学習の安定性を向上させるために、既存の深層RLアプローチに改良を加える。
非定常性や高次元の状態空間といった課題に対処するため、FMDPの独自の表現を採用する。
エンドツーエンドの学習を用いて、市場状態から収益性の高い取引行動への状態-行動価値関数を学習する。
経験リプレイとターゲットネットワークを活用して、変動が激しい金融環境における学習を安定化させる。

実験結果

リサーチクエスチョン

RQ1深層強化学習エージェントは、事前の特徴工学を施さずに、一貫して収益性のある取引シグナルを学習できるか？
RQ2提案されたFMDPフレームワークは、特性が異なる複数の金融市場にどの程度一般化できるか？
RQ3既存の戦略と比較して、モデルがどれほど相関の低い取引シグナルを生成するか？
RQ4市場の状態やボラティリティの変化に対して、エージェントのパフォーマンスはどの程度頑健か？
RQ5標準的な深層RLアルゴリズムにどのような修正が、金融市場のダイナミクスを捉えるのに最も効果的か？

主な発見

提案されたFMDPベースの深層強化学習モデルは、非常に異なる2つの金融市場において、一貫して収益性のある取引シグナルを生成した。
モデルは、多様な市場状況においても頑健なパフォーマンスを示し、強力な一般化能力を有していることがわかった。
生成された取引シグナルは相関が低く、ポートフォリオ文脈での分散化の可能性を示唆している。
手作業による特徴設計なしに、市場データから最適な取引ポリシーを直接学習することで、ベースライン手法を上回った。
複数回の実験で安定したパフォーマンスを維持したため、信頼性が高く、過学習のリスクが低いことが示された。
FMDP表現の統合により、金融環境における学習効率とポリシーの質が著しく向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。