Skip to main content
QUICK REVIEW

[논문 리뷰] Continuous-Time Mean-Variance Portfolio Selection: A Reinforcement Learning Framework

Haoran Wang, Xun Yu Zhou|arXiv (Cornell University)|2019. 04. 25.
Reinforcement Learning in Robotics참고 문헌 51인용 수 28
한 줄 요약

이 논문은 엔트로피 정규화와 이완된 확률적 제어 과제로 문제를 재구성하여 연속시간 평균-분산 포트폴리오 선택을 위한 강화학습 프레임워크를 제안한다. 최적 정책이 시간에 따라 감쇠하는 가우시안 분포임을 증명하고, 정책 개선 기반의 강화학습 알고리즘을 개발하여 시뮬레이션에서 기준 방법들을 능가하며, 더 뛰어난 샤프 지수와 최적 성능 수렴을 보여준다.

ABSTRACT

We approach the continuous-time mean-variance (MV) portfolio selection with reinforcement learning (RL). The problem is to achieve the best tradeoff between exploration and exploitation, and is formulated as an entropy-regularized, relaxed stochastic control problem. We prove that the optimal feedback policy for this problem must be Gaussian, with time-decaying variance. We then establish connections between the entropy-regularized MV and the classical MV, including the solvability equivalence and the convergence as exploration weighting parameter decays to zero. Finally, we prove a policy improvement theorem, based on which we devise an implementable RL algorithm. We find that our algorithm outperforms both an adaptive control based method and a deep neural networks based algorithm by a large margin in our simulations.

연구 동기 및 목표

  • 비선형성과 시간 비일관성으로 인해 연속시간 평균-분산 포트폴리오 선택에 강화학습을 적용하는 데 어려움이 존재하므로 이를 해결하고자 한다.
  • 모델에 의존하지 않고 데이터 기반의 강화학습 프레임워크를 개발하여, 실무에서 주요 장벽이 되는 미지의 마켓 파라미터 직접 추정을 피하고자 한다.
  • 엔트로피 정규화된 탐색적 MV 문제와 고전적 MV 문제 사이의 연결 고리를 구축하여, 해의 존재성 동치성과 탐색 감소 시 수렴성을 보장하고자 한다.
  • 명시적인 함수 형태로 가치 함수와 제어 정책을 제공하는 증명 가능 정책 개선 정리에 기반한 구현 가능한 강화학습 알고리즘을 설계하고자 한다.
  • 실험적으로 제안된 알고리즘이 정적 및 비정적 시장 환경에서 적응 제어 및 딥 뉴럴 네트워크 기반 방법을 모두 상회하여 위험 조정 수익률과 안정성 측면에서 뛰어난 성능을 보임을 입증하고자 한다.

제안 방법

  • 연속시간 평균-분산 포트폴리오 선택 문제를 엔트로피 정규화된 이완된 확률적 제어 과제로 재구성하여 탐색과 이용의 균형을 이루도록 한다.
  • 이완된 문제의 최적 피드백 정책이 시간에 따라 감쇠하는 분산을 가진 가우시안 분포임을 증명하여 명시적 정책 파arameterization을 가능하게 한다.
  • 엔트로피 정규화된 탐색적 MV 문제와 고전적 MV 문제 사이의 해의 존재성 동치성을 확립하고, 탐색 파rameter λ → 0일 때 이전 문제의 해가 후자로 수렴함을 보여준다.
  • 반복적인 정책 업데이트를 통해 목표 함수 값을 매 반복마다 단조적으로 향상시키는 정책 개선 정리를 유도한다.
  • 이론적 최적 정책 구조를 기반으로 한 구현 가능한 강화학습 알고리즘을 설계하여 딥 뉴럴 네트워크와 같은 블랙박스 함수 근사기구를 피한다.
  • 성능 향상을 위해 탐색을 점차 줄이는 감쇠 λ 과정(λ_k = λ₀(1 − exp(200(k−M)/M)))을 도입한다.

실험 결과

연구 질문

  • RQ1비선형성과 시간 비일관성으로 인해 연속시간 평균-분산 포트폴리오 선택에 강화학습을 효과적으로 적용할 수 있는가?
  • RQ2엔트로피 정규화된 MV 프레임워크에서 탐색과 이용을 균형 잡는 데 최적의 정책 구조는 무엇인가?
  • RQ3엔트로피 정규화된 탐색적 MV 문제와 고전적 MV 문제 사이의 해의 존재성과 수렴성 측면에서의 관계는 어떠한가?
  • RQ4MV 기반 강화학습을 위한 증명 가능한 정책 개선 정리를 도출할 수 있는가? 이를 통해 보장된 향상이 가능한 반복적 정책 최적화가 가능한가?
  • RQ5제안된 강화학습 알고리즘이 샤프 지수와 수렴성 측면에서 기존 방법—특히 적응 제어 및 딥 러닝 기반 기준 방법—을 능가하는가? 이는 정적 및 비정적 시장 환경 모두에서 성립하는가?

주요 결과

  • 엔트로피 정규화된 탐색적 MV 문제의 최적 정책은 시간에 따라 감쇠하는 분산을 가진 가우시안 분포이며, 닫힌 형태로 표현 가능한 해석 가능한 정책 구조를 제공한다.
  • 탐색적 MV 문제와 고전적 MV 문제 사이에 해의 존재성 동치성이 있으며, 탐색 파arameter λ → 0일 때 해가 고전적 MV 최적 정책으로 수렴함을 보였다.
  • 감쇠 λ 스킴(λ₀ = 2)을 사용할 경우 제안된 알고리즘이 샤프 지수 3.243을 달성하였고, 일정한 λ를 사용할 경우 3.039에 그치어 뚜렷한 성능 향상을 보였다.
  • 정적 및 비정적 시장 환경 모두에서 시뮬레이션을 통해 적응 제어 기반 방법과 딥 뉴럴 네트워크 기반 알고리즘을 크게 능가하는 성능을 보였다.
  • 정책 개선 정리는 반복적인 업데이트를 통해 목표 함수를 단조롭게 향상시키며, 복잡한 함수 근사기구가 필요 없이 안정적이고 수렴하는 학습을 보장한다.
  • 실제로 모델에 의존하지 않으며, 자산 가치 동역학의 선형-제곱형(LQ) 구조와 제곱형 목표 함수에 기반하여, 명시적인 파라미터 추정 없이 로그노말 및 비정적 가격 과정에도 적용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.