[논문 리뷰] Reinforcement Learning for Optimal Execution when Liquidity is Time-Varying
논문은 시간에 따라 변하는 유동성 하에서 Almgren-Chriss 프레임워크에 이중 딥 Q-learning을 적용하여 모델-무관한 정책 학습이 알려진 해와 일치하고 동역학이 미지일 때 벤치마크를 능가한다는 것을 보여준다.
Optimal execution is an important problem faced by any trader. Most solutions are based on the assumption of constant market impact, while liquidity is known to be dynamic. Moreover, models with time-varying liquidity typically assume that it is observable, despite the fact that, in reality, it is latent and hard to measure in real time. In this paper we show that the use of Double Deep Q-learning, a form of Reinforcement Learning based on neural networks, is able to learn optimal trading policies when liquidity is time-varying. Specifically, we consider an Almgren-Chriss framework with temporary and permanent impact parameters following several deterministic and stochastic dynamics. Using extensive numerical experiments, we show that the trained algorithm learns the optimal policy when the analytical solution is available, and overcomes benchmarks and approximated solutions when the solution is not available.
연구 동기 및 목표
- 다이나믹하고 잠재된 유동성 조건하에서 로버스트한 최적 실행의 필요성을 제시한다.
- 정확한 영향 매개변수 지식 없이도 실행 정책을 학습하는 모델-무관한 RL 프레임워크를 개발한다.
- 결정적 및 확률적 유동성 역학 하에서 DDQL 성능을 해석적 해법 및 벤치마크와 비교 평가한다.
- 상수 시장에서 DDQL이 TWAP 유사 전략을 회복하고 영향이 다양할 때 성능을 향상시킬 수 있음을 보여준다.
제안 방법
- 시간에 따라 변화하는 영구적 및 일시적 영향 매개변수를 갖는 Almgren-Chriss 기준을 사용(결정론적 및 확률적 역학).
- 안정성을 위한 Q-main과 Q-target의 두 개의 신경망 및 경험 재생을 이용한 이중 딥 Q-learning 구현.
- 상태를 (q_t, t) 또는 (q_t, t, S_{t-1})로 정의하고, 남은 재고 내에서 매도 수량 v_t를 행동으로 설정.
- 탐험-활용(ε-greedy)으로 M 에피소드 동안 학습하고 γ=1(무위험 중립)으로 TD 타깃을 사용해 업데이트.
- 상수, 결정론적 시간 가변, 확률적 충격 설정에서 DDQL 결과를 해석적 해법(알려진 경우) 및 TWAP 벤치마크와 비교.
실험 결과
연구 질문
- RQ1유동성이 시간에 따라 변하고 충격이 잠재적일 때 DDQL이 최적 실행 정책을 학습할 수 있는가?
- RQ2상수 충격 설정에서 알려진 최적 전략을 회복하고 충격 역학이 미지거나 복잡할 때 벤치마크를 능가하는가?
- RQ3가격 및 기타 특징을 상태에 포함시키는 것이 다양한 유동성 역학 하에서 DDQL 성능에 어떤 영향을 미치는가?
- RQ4모델-무관 DDQL 에이가 결정론적 및 확률적 충격 경로에 얼마나 적응하여 강건한 청산 전략을 생성할 수 있는가?
주요 결과
| 특징 | E[IS] (A&C) | E[IS] (DDQL) | Delta P&L (bp) | 표준편차 |
|---|---|---|---|---|
| Q,T | 0.2607 | 0.2698 | -0.455 | 2.5 |
| Q,T,S | 0.2607 | 0.2652 | -0.225 | 1.6 |
- 상수 충격 설정에서 DDQL은 거의 TWAP 비용을 재현하며 작은 Delta P&L을 보인다(예: Q,T 및 2.5 표준편차에서 -0.455 bp).
- 중간 가격을 특징으로 포함하는 것은 상수 충격 시나리오에서 TWAP를 크게 능가하지 못한다(Delta P&L 약 -0.225 ~ -0.455 bp).
- 증가하는 결정적 충격 하에서 Q,T,S 특징을 가진 DDQL은 이론적 최적에 거의 근접하며 Delta P&L 약 2 bp(이론 대비).
- 감소하는 결정적 충격 하에서 Q,T,S 특징의 DDQL은 TWAP를 개선하고 이론적 최적에 접근하며, 가격 특징을 사용하면 추가 이득이 있지만 여전히 다소 미흡하다.
- 전반적으로 DDQL은 모델-강건 학습을 보여주며 시간에 따라 변하는 유동성에 적응하고 충격 역학이 완전히 알려지지 않았을 때 벤치마크를 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.