[논문 리뷰] Financial Trading as a Game: A Deep Reinforcement Learning Approach
이 논문은 외환 시장에 맞게 수정된 딥 리_CURRENT Q-네트워크(Deep Recurrent Q-Network, DRQN)를 사용한 자동 금융 트레이딩을 위한 딥 강화학습 프레임워크를 제안한다. 에psilon-그리디 탐색에 대한 의존도를 줄이기 위해 액션 어빌리티를 도입하고, 최소한의 리PLAY 메모리를 사용함으로써, 12개의 통화쌍에 걸쳐 평균 연간 수익률이 6.4% 높아진 데다 위험 조정 수익률이 크게 향상되었으며, 안정성과 분산도 향상되었다.
An automatic program that generates constant profit from the financial market is lucrative for every market practitioner. Recent advance in deep reinforcement learning provides a framework toward end-to-end training of such trading agent. In this paper, we propose an Markov Decision Process (MDP) model suitable for the financial trading task and solve it with the state-of-the-art deep recurrent Q-network (DRQN) algorithm. We propose several modifications to the existing learning algorithm to make it more suitable under the financial trading setting, namely 1. We employ a substantially small replay memory (only a few hundreds in size) compared to ones used in modern deep reinforcement learning algorithms (often millions in size.) 2. We develop an action augmentation technique to mitigate the need for random exploration by providing extra feedback signals for all actions to the agent. This enables us to use greedy policy over the course of learning and shows strong empirical performance compared to more commonly used epsilon-greedy exploration. However, this technique is specific to financial trading under a few market assumptions. 3. We sample a longer sequence for recurrent neural network training. A side product of this mechanism is that we can now train the agent for every T steps. This greatly reduces training time since the overall computation is down by a factor of T. We combine all of the above into a complete online learning algorithm and validate our approach on the spot foreign exchange market.
연구 동기 및 목표
- 공개된 데이터만을 사용하는 깊이 강화학습과 호환되는 신호 기반 금융 트레이딩을 위한 마르코프 결정 과정(Markov Decision Process, MDP) 모델을 개발하는 것.
- 금융 시장에서 무작위 탐색으로 인한 높은 거래비용 문제를 해결하기 위해 에psilon-그리디 전략에 대한 의존도를 줄이는 것.
- 소규모 리PLAY 메모리와 더 긴 순환 시퀀스를 사용하여 금융 트레이딩의 학습 효율성과 모델 안정성을 향상시키는 것.
- 실제 외환 데이터를 기반으로 제안된 방법을 경험적으로 검증하고, 거래비용을 고려한 상황에서도 일관된 수익성을 입증하는 것.
제안 방법
- 이산 시간 단위, 관측 가능한 시장 데이터, 그리고 허용 가능한 거래 행동 집합을 갖춘 마르코프 결정 과정(MDP)으로 금융 트레이딩 작업을 수립한다.
- 학습 효율성 향상과 메모리 오버헤드 감소를 위해 리PLAY 메모리 크기를 크게 줄인(수백 개의 샘플 수준) 딥 리CURRENT Q-네트워크(DRQN) 알고리즘을 적용한다.
- 학습 중 모든 액션에 피드백 신호를 제공하는 액션 어빌리티 기법을 도입하여, 에psilon-그리디 탐색 대신 그리디 정책을 사용할 수 있도록 한다.
- 더 긴 시퀀스 샘플링을 통해 순환 신경망 학습을 수행함으로써, 에이전트를 T 단위 간격으로 업데이트할 수 있도록 하여 총 계산량을 T 배수로 감소시킨다.
- 누적 포트폴리오 수익률을 기반으로 한 보상 함수를 사용하며, 실제 거래 제약 조건을 반영하기 위해 거래비용을 명시적으로 모델링한다.
- 알고리즘을 온라인으로 적용하여, 다시 학습하지 않고도 새로운 시장 데이터에 지속적으로 에이전트를 업데이트한다.
실험 결과
연구 질문
- RQ1공개된 OHLC 데이터와 최소한의 탐색만을 사용하여 딥 강화학습 에이전트가 외환 시장에서 수익성 있고 위험 조정 수익률이 높은 트레이딩 전략을 학습할 수 있는가?
- RQ2거래비용을 고려한 상황에서 액션 어빌리티는 전통적인 에psilon-그리디 탐색에 비해 성능과 안정성 측면에서 어떻게 비교되는가?
- RQ3소규모 리PLAY 메모리를 사용할 경우 금융 트레이딩 과제에서 학습 안정성과 수렴성에 어떤 영향을 미치는가?
- RQ4학습 중에 매도-매수 스프레드를 약간 증가시키면 더 안정적이거나 성능이 뛰어난 트레이딩 전략이 도출되는가?
- RQ5에이전트가 서로 다른 통화쌍 간에 상관관계가 낮거나 없는 전략을 발견할 수 있는가? 이는 포트폴리오 설정에서 다각화 가능성을 시사한다.
주요 결과
- 액션 어빌리티 기법을 통해 12개의 통화쌍에 걸쳐 평균 연간 수익률이 6.4% 향상되었으며, 성과의 변동성도 감소하였다.
- 실제 거래비용을 고려한 상황에서도 에이전트는 양의 위험 조정 수익률을 기록하였으며, 이는 순수 딥 강화학습이 이와 같은 환경에서 성공적으로 작동한 최초의 보고 사례로 기록되었다.
- 소규모 리PLAY 메모리(수백 개의 샘플)를 사용함으로써 더 빠른 학습과 메모리 사용 감소를 달성하면서도 성능에 영향을 주지 않았다.
- 더 긴 순환 시퀀스 샘플링을 통해 T 단위 간격으로 에이전트를 업데이트할 수 있었고, 이는 총 계산량을 T 배수로 감소시켜 학습 효율성을 높였다.
- 반직관적인 결과로, 매도-매수 스프레드를 약간 증가시키는 것이 전반적인 성능 향상에 기여하는 것으로 나타났으며, 이는 에이전트가 더 안정적인 전략을 학습하도록 유도하는 것으로 해석된다.
- 발견된 전략들은 서로 다른 통화쌍 간에 상관관계가 낮거나 없었으며, 이는 포트폴리오 설정에서 다각화 가능성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.