QUICK REVIEW

[논문 리뷰] Optimistic Bull or Pessimistic Bear: Adaptive Deep Reinforcement Learning for Stock Portfolio Allocation

Xinyi Li, Yinchuan Li|arXiv (Cornell University)|2019. 06. 20.

Stock Market Forecasting Methods인용 수 27

한 줄 요약

이 논문은 주식 포트폴리오 배정을 향상시키기 위해 긍정적( bull market) 또는 부정적( bear market) 예측 오차에 기반해 학습률을 동적으로 조정하는 고도화된 딥 강화학습 프레임워크인 Adaptive DDPG를 제안한다. 이 방법은 기존의 DDPG, 다우존스 산업평균지수, 전통적인 평균-분산 전략에 비해 2001–2018년 다우존스 30개 주식에서 연간 수익률 18.84%와 샤프 지수 1.63를 기록하며 뛰어난 성능을 보였다.

ABSTRACT

Portfolio allocation is crucial for investment companies. However, getting the best strategy in a complex and dynamic stock market is challenging. In this paper, we propose a novel Adaptive Deep Deterministic Reinforcement Learning scheme (Adaptive DDPG) for the portfolio allocation task, which incorporates optimistic or pessimistic deep reinforcement learning that is reflected in the influence from prediction errors. Dow Jones 30 component stocks are selected as our trading stocks and their daily prices are used as the training and testing data. We train the Adaptive DDPG agent and obtain a trading strategy. The Adaptive DDPG's performance is compared with the vanilla DDPG, Dow Jones Industrial Average index and the traditional min-variance and mean-variance portfolio allocation strategies. Adaptive DDPG outperforms the baselines in terms of the investment return and the Sharpe ratio.

연구 동기 및 목표

거래비용, 비이성적 투자자 행동, 비정규 분포의 수익률과 같은 현실 시장의 비효율성으로 인해 기존 포트폴리오 최적화 기법에 한계가 있음을 해결한다.
고차원적이고 연속적인 금융 상태 공간에서 전통적인 동적 프로그래밍 및 마르코프 결정 과정 접근법의 확장성 및 모델 민감도 문제를 해결한다.
특히 시장 심리( bullish 대비 bearish)를 반영한 행동 금융 이론 통찰을 딥 강화학습에 통합하여 다양한 시장 제도에서의 적응형 의사결정을 향상시킨다.
연속적인 행동 공간과 시장 역학으로부터의 실시간 피드백을 사용해 최적의 주식 배분 정책을 학습하는 강화학습 에이전트를 개발한다.
수익률과 리스크 조정 성과 지표 측면에서, 기존의 DDPG, 지수 벤치마크, 전통적인 최소분산 및 평균-분산 전략에 비해 뛰어난 성능을 입증한다.

제안 방법

학습 안정성을 확보하기 위해 경험 재생과 타겟 네트워크를 활용한 액터-크리틱 아키텍처를 사용하는 딥 디터미니스틱 백그라디언트(DDPG) 알고리즘을 기본 프레임워크로 채택한다.
Rescorla-Wagner 모델을 영감으로 삼아, 긍정적(낙관적)과 부정적(우울적) 예측 오차를 구분하는 새로운 적응형 학습률 메커니즘을 도입하여 시장 심리에 따라 학습 강도를 조절한다.
양의 피드백( bull market)을 위한 $\mathcal{N}^+$와 음의 피드백( bear market)을 위한 $\mathcal{N}^-$로 분리된 두 개의 별도 노이즈 프로세스를 정의하여, 시장 조건에 따라 비대칭적인 학습 역학을 가능하게 한다.
적응형 학습률 규칙을 적용: 테스트 기간 동안 $\alpha^+ = 1$ 및 $\alpha^- = 0$로 설정하여, 유리한 결과에 대해 더 적극적으로 반응하고 악성 결과에는 보수적으로 대응하도록 한다.
DDPG 프레임워크에서 학습 안정성과 수렴성 향상을 위해 타겟 네트워크 업데이트 규칙 $\theta^{\mu'} \leftarrow \tau\theta^{\mu} + (1 - \tau)\theta^{\mu'}$ 를 사용한다.
2001–2013년 동안 다우존스 산업평균지수 30개 주식의 일일 종가를 기반으로 에이전트를 훈련하고, 2014–2018년의 검증 데이터에서 성능을 평가하며 수익률, 변동성, 샤프 지수를 주요 평가 지표로 사용한다.

실험 결과

연구 질문

RQ1적응형 딥 강화학습 에이전트는 실생활 주식 시장에서 기존의 DDPG와 전통적인 포트폴리오 전략에 비해 뛰어난 성능을 보일 수 있는가?
RQ2비대칭 학습률을 통해 시장 심리( bull vs. bear)를 통합할 경우 포트폴리오 성과와 리스크 조정 수익률에 어떤 영향을 미치는가?
RQ3고정 학습률 대비 적응형 학습 메커니즘이 다양한 시장 제도에서의 강인성과 일반화 능력을 얼마나 향상시키는가?
RQ4행동 금융 원리를 딥 강화학습에 통합할 경우 기존의 평균-분산 최적화를 초월한 투자 성과를 달성할 수 있는가?
RQ5제안된 방법은 벤치마크인 다우존스 산업평균지수 및 최소분산/평균-분산 전략에 비해 더 높은 샤프 지수와 누적 수익률을 달성할 수 있는가?

주요 결과

Adaptive DDPG 에이전트는 테스트 세트(2014–2018)에서 연간 수익률 18.84%를 기록하여, 기존의 DDPG(14.71%), 다우존스 산업평균지수(11.36%), 평균-분산 전략(15.86%)에 비해 뚜렷이 뛰어난 성능을 보였다.
모델은 샤프 지수 1.63을 기록하여, DDPG(1.01), DJIA(0.91), 최소분산(0.99), 평균-분산(1.25)에 비해 상당히 높았으며, 리스크 조정 성과가 뛰어나다는 것을 시사한다.
Adaptive DDPG 하에서 최종 포트폴리오 가치는 21,880에 달했으며, DDPG(18,156), DJIA(16,089), 최소분산(16,333), 평균-분산(19,632) 전략을 모두 초월했다.
Adaptive DDPG의 연간 표준편차 11.59%는 중간 수준의 변동성을 나타내며, 다른 방법들과 비교해 수익과 리스크 사이의 유리한 균형을 확보하고 있음을 보여준다.
긍정적 예측 오차( bull market 심리)에 반응해 학습 강도를 증가시키는 적응형 학습 메커니즘이 상승장에서 수렴 속도를 가속화하고 성능 향상에 결정적인 역할을 하였다.
결과는 심리 인식 강화학습이 특히 변동성 높거나 제도 전환 시기의 시장 환경에서 모델의 강인성과 적응성을 향상시킨다는 것을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.