[論文レビュー] Financial Trading as a Game: A Deep Reinforcement Learning Approach
本稿では、為替市場に特化した変更を加えた深層再帰的Qネットワーク(DRQN)を用いた、自動的金融取引のための深層強化学習フレームワークを提案する。エpsilon-greedy探索への依存を低減するためのアクション補強と、最小限のリプレイメモリの導入により、12通貨ペアにわたり平均して年間収益が6.4%向上するという、顕著なリスク調整後リターンを達成した。さらに、より高い耐性と低い分散性を示した。
An automatic program that generates constant profit from the financial market is lucrative for every market practitioner. Recent advance in deep reinforcement learning provides a framework toward end-to-end training of such trading agent. In this paper, we propose an Markov Decision Process (MDP) model suitable for the financial trading task and solve it with the state-of-the-art deep recurrent Q-network (DRQN) algorithm. We propose several modifications to the existing learning algorithm to make it more suitable under the financial trading setting, namely 1. We employ a substantially small replay memory (only a few hundreds in size) compared to ones used in modern deep reinforcement learning algorithms (often millions in size.) 2. We develop an action augmentation technique to mitigate the need for random exploration by providing extra feedback signals for all actions to the agent. This enables us to use greedy policy over the course of learning and shows strong empirical performance compared to more commonly used epsilon-greedy exploration. However, this technique is specific to financial trading under a few market assumptions. 3. We sample a longer sequence for recurrent neural network training. A side product of this mechanism is that we can now train the agent for every T steps. This greatly reduces training time since the overall computation is down by a factor of T. We combine all of the above into a complete online learning algorithm and validate our approach on the spot foreign exchange market.
研究の動機と目的
- 公開データのみを用いて、深層強化学習と互換性のある信号ベースの金融取引のためのマルコフ意思決定過程(MDP)モデルを構築すること。
- 金融市場におけるランダムな探索による高コストな取引を軽減するため、エpsilon-greedy戦略への依存を減らす課題に対処すること。
- 小規模なリプレイメモリと長い再帰的シーケンスの使用により、金融取引における学習効率とモデル安定性を向上させること。
- 実世界の為替データを用いた実証的検証を行い、取引コストを考慮した状況下でも一貫した収益性を示すこと。
提案手法
- 離散的な時間ステップ、観測可能な市場データ、および合法的な取引行動の集合を備えたマルコフ意思決定過程(MDP)として、金融取引タスクを定式化する。
- 学習効率の向上とメモリオーバーヘッドの低減を目的として、大幅に縮小されたリプレイメモリサイズ(数百件程度)を用いた深層再帰的Qネットワーク(DRQN)アルゴリズムの適応。
- 学習中にすべての行動に対してフィードバック信号を提供するアクション補強技術を導入し、エpsilon-greedy探索の代わりにグリーディポリシーの使用を可能にする。
- 再帰的ネットワークの学習に長いシーケンスのサンプリングを採用し、エージェントをTステップごとに更新可能とすることで、合計計算量をT分の1に削減する。
- 累積ポートフォリオリターンに基づく報酬関数を採用し、取引コストを明示的にモデル化することで、現実の取引制約を反映する。
- アルゴリズムをオンラインで適用し、再訓練を再開することなく、継続的に新規市場データに基づいてエージェントを更新する。
実験結果
リサーチクエスチョン
- RQ1公開のOHLCデータと最小限の探索のみを用いて、深層強化学習エージェントが為替市場で収益性がありリスク調整後の取引戦略を学習できるか?
- RQ2取引コストを考慮した状況下で、アクション補強は従来のエpsilon-greedy探索と比較して、パフォーマンスと耐性性においてどのように異なるか?
- RQ3小規模なリプレイメモリを使用することは、金融取引タスクにおける学習安定性と収束性にどのような影響を与えるか?
- RQ4訓練中にBid-Askスプレッドをわずかに増加させることで、より耐性性が高く、またはより優れたパフォーマンスを示す取引戦略が得られるか?
- RQ5エージェントは、異なる通貨ペア間で相関が低いか、あるいは相関がない戦略を発見できるか?(ポートフォリオ設定におけるリスク分散の可能性を示唆)
主な発見
- アクション補強技術により、12通貨ペアにわたり平均して年間収益が6.4%向上し、パフォーマンスの分散も低減された。
- 現実的な取引コストを考慮した状況下でも、正のリスク調整後リターンを達成した。これは、この設定において、純粋な深層強化学習が初めて報告された成功例である。
- 数百件程度の小規模なリプレイメモリを用いることで、高速な学習とメモリ使用量の削減が可能になり、パフォーマンスに悪影響を与えないことが確認された。
- 長い再帰的シーケンスのサンプリングにより、Tステップごとにエージェントを更新できるようになり、合計計算量がT分の1に削減された。
- 逆直感的な発見として、Bid-Askスプレッドをわずかに増加させることで全体的なパフォーマンスが向上した。これは、エージェントがより耐性性のある戦略を学習するよう促進している可能性を示唆している。
- 発見された戦略は、異なる通貨ペア間で相関が低いか、あるいは相関がなかったため、ポートフォリオ設定においてリスク分散の可能性があることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。