Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Reinforcement Learning in Financial Markets

Souradeep Chakraborty|arXiv (Cornell University)|2019. 07. 09.
Stock Market Forecasting Methods인용 수 5
한 줄 요약

이 논문은 다양한 금융 시장에서 일관되게 수익성이 높고, 강건하며 상관관계가 낮은 트레이딩 신호를 자동으로 생성할 수 있도록, 딥 강화학습과 함께 새로운 금융 마르코프 결정 과정(FMDP) 프레임워크를 제안한다. 맞춤형 FMDP를 통해 시장 동역학을 모델링하고 고도로 발전된 딥 RL 기법을 적용함으로써, 수동적인 신호 설계 없이도 여러 개별 시장에서 강력하고 안정적인 성능을 달성한다.

ABSTRACT

In this paper we explore the usage of deep reinforcement learning algorithms to automatically generate consistently profitable, robust, uncorrelated trading signals in any general financial market. In order to do this, we present a novel Markov decision process (MDP) model to capture the financial trading markets. We review and propose various modifications to existing approaches and explore different techniques to succinctly capture the market dynamics to model the markets. We then go on to use deep reinforcement learning to enable the agent (the algorithm) to learn how to take profitable trades in any market on its own, while suggesting various methodology changes and leveraging the unique representation of the FMDP (financial MDP) to tackle the primary challenges faced in similar works. Through our experimentation results, we go on to show that our model could be easily extended to two very different financial markets and generates a positively robust performance in all conducted experiments.

연구 동기 및 목표

  • 수동적인 지표 설계에 의존하지 않고 일관되게 수익성이 높은 신호를 생성할 수 있는 자동화되고 적응 가능한 트레이딩 시스템을 개발하는 것.
  • 구조화된 강화학습 프레임워크를 사용하여 복잡하고 비정상적인 금융 시장 동역학을 모델링하는 과제를 해결하는 것.
  • 분야 특화 최적화가 최소한인 다양한 금융 시장에 적용 가능한 일반화 가능한 프레임워크를 만드는 것.
  • 다양한 시장 조건에서 트레이딩 신호 간의 강건성과 상관관계를 감소시키는 것.
  • 딥 강화학습이 시장 데이터에서 직접 수익성 있는 트레이딩 전략을 학습하는 데 효과적인지를 입증하는 것.

제안 방법

  • 금융 트레이딩의 순차적 의사결정 특성을 모델링하기 위해 새로운 금융 마르코프 결정 과정(FMDP)을 제안한다.
  • 딥 강화학습 알고리즘을 변형하여 원시 시장 데이터에서 최적의 트레이딩 정책을 직접 학습한다.
  • 시장 동역학을 더 잘 포착하고 학습 안정성을 향상시키기 위해 기존 딥 RL 접근법에 수정을 가한다.
  • 비정상성과 고차원 상태 공간과 같은 과제를 해결하기 위해 FMDP의 고유한 표현 방식을 활용한다.
  • 시장 상태에서 수익성 있는 거래 행동으로 매핑하는 상태-행동 가치 함수를 엔드 투 엔드로 학습한다.
  • 경험 재생과 타겟 네트워크를 활용하여 변동성이 높은 금융 환경에서의 학습을 안정화한다.

실험 결과

연구 질문

  • RQ1딥 강화학습 에이전트가 사전 특징 공학 없이도 일관되게 수익성이 높은 트레이딩 신호를 학습할 수 있는가?
  • RQ2제안된 FMDP 프레임워크는 특성과 특징이 뚜렷이 다른 다양한 금융 시장으로 어떻게 일반화되는가?
  • RQ3기존 전략과 비교했을 때 모델이 얼마나 상관관계가 낮은 트레이딩 신호를 생성하는가?
  • RQ4다양한 시장 제도와 변동성 조건 하에서 에이전트의 성능은 얼마나 강건한가?
  • RQ5표준 딥 RL 알고리즘에 어떤 수정 사항이 금융 시장 동역학을 가장 효과적으로 포착하는가?

주요 결과

  • 제안된 FMDP 기반 딥 강화학습 모델은 특성과 특징이 뚜렷이 다른 두 개의 금융 시장에서 일관되게 수익성이 높은 트레이딩 신호를 성공적으로 생성하였다.
  • 모델은 다양한 시장 조건에서 강력한 성능을 보이며, 뛰어난 일반화 능력을 보여주었다.
  • 생성된 트레이딩 신호는 상관관계가 낮아 포트폴리오 관점에서의 다각화 잠재력을 시사하였다.
  • 수동적인 특징 설계 없이도 시장 데이터에서 최적의 트레이딩 정책을 직접 학습함으로써, 기준 모델보다 성능이 뛰어났다.
  • 다수의 실험 런에서 안정적인 성능을 유지하여 신뢰성과 과적합 감소를 보여주었다.
  • FMDP 표현 방식의 통합은 금융 환경에서 학습 효율성과 정책 품질을 크게 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.